NISTEP注目科学技術 - 2022_E292

概要
大規模な言語データを使用して学習する深層学習の対話モデル。人間と自然なコミュニケーションを行うことができ、特定のタスクの会話に限定されず、雑談も対応可能で、臨機応変な対応ができる。
テキスト情報の処理だけに限定されず、画像、音声などの情報を用いたマルチモーダルな対話技術。
キーワード
ヒトと違和感なく会話できる対話技術 / 深層学習モデルによる自然言語処理 / マルチモーダルな対話技術
ID 2022_E292
調査回 2022
注目/兆し 注目
所属機関 企業
専門分野 情報通信
専門度
実現時期 5年未満
分析データ 推定科研費審査区分(中区分) 61 (人間情報学)
分析データ クラスタ 16 (言語学/言語教育)
研究段階
海外ではfacebook,microsoft,googleなどが英語の対話モデルを構築し、公開している。英語は話者が多く、学習用のデータが集まりやすく構築しやすい。
一方で日本語の対話モデルに関してはNTTがfacebookのモデルをベースに構築したものが公開されているだけで、英語の対話技術に比べると遅れていると思われる。
インパクト
2022年調査にはこの項目はありません。
必要な要素
書き言葉のデータはウェブ上から収集可能であり、従来の自然言語処理技術でも利用されているが、書き言葉で学習したモデルは話し言葉には適用しにくいということが最近の研究で報告されている。話し言葉を正しく解析するためには話し言葉のデータが大量に必要である。しかし、話し言葉を収集するためには音声を収録し、人間がそれを聞いてテキストに変換する必要がある。音声は個人情報を含むので、監視カメラと同様に設置が制限されている。また、会話の内容がわかるほど明瞭な音声を取得するためには話者の近くにマイクを設置する必要があり、監視カメラと同等の位置からでは収集することができない。また、収集した音声を書き起こすには人手が必要で、個人情報も含むため、低コストでアウトソーシングすることが難しい。そのため話し言葉を大規模に収集する仕組みが現状ではなく、各企業が社内で収集したり、被験者実験によって疑似的なデータを収集するにとどまっている。