NISTEP注目科学技術 - 2022_E371

概要
人間と同等の認識技術を持つ音声認識技術と話者認識技術。従来の音声認識技術はヘッドセットのように人間が装着したマイクで収音した明瞭な音声でなければ音声認識が難しかったが、今後は信号処理技術が進むことにより、部屋に設置されたマイクなどで簡単に音声認識ができるようになる。また、人の声を聞き分け、会議の議事録などを簡単に作ることができるようになる。
キーワード
音声認識技術 / マイクアレイによる音源分離技術 / 話者認識技術
ID 2022_E371
調査回 2022
注目/兆し 注目
所属機関 企業
専門分野 情報通信
専門度
実現時期 5年未満
分析データ 推定科研費審査区分(中区分) 61 (人間情報学)
分析データ クラスタ 18 (マシンインテリジェンス/ロボティクス・人間工学)
研究段階
ヘッドフォンなどの口に近い場所のマイクで収音した音声であればかなり高精度で音声認識できるようになっている。しかし、専門用語、流行語などのモデルに入っていない単語を認識することができず、新しい言葉を獲得する技術が重要だと思われる。また、人間同士が会話する程度の距離間では明瞭な音声を収音できないので、音声認識率が下がることが問題である。
また、学習データが大人のネイティブ話者に限定されるので、子供や高齢者の認識率は低い。また、ネイティブではない話者の認識率も低い。
インパクト
2022年調査にはこの項目はありません。
必要な要素
音声認識率の性能を向上させるためには大量の音声データが必要である。現状は収集が簡単な20~40代の音声ばかりだが、今後子供、高齢者、非ネイティブ話者のデータも必要になる。