NISTEP注目科学技術 - 2023_E645

概要
日本の古典籍をはじめとして大量のデジタル画像化が進んでいる。国立国会図書館などでは所蔵資料の画像から、レイアウト解析、OCRをかけてのテキスト化が進んでおり、人文学研究において大量のテキストデータから必要な言葉を検索し、これまで確認しえなかった書物から情報を引き出せたことで人間の目を介した検索を超えて様々な可能性が拡がりつつある。
半自動テキスト化の可能性を考え、且つChatGPTに代表される大規模言語モデルの可能性などを考える時、エラーを人の手で直し、それをまた学習データとして利用するという形で、日本の古典籍のデータも広く利用可能な状態になるだろう。そのためのアルゴリズムや、様々な試みがなされていかねばならない。総合知として人文学を含んだ形での取組をなすためには未開拓の古典知を自在に獲得しうる取組が不可欠である。典籍の半自動テキスト化で作品を分類(機械学習)し、単語の特徴量抽出により、ラベル付の候補となる語を自動抽出可能に(深層学習)することで、課題解決にむけて、過去の知の蓄積を現代社会に活用できると考える。
キーワード
大規模言語モデル / 深層学習 / 特徴量抽出
ID 2023_E645
調査回 2023
注目/兆し 注目
所属機関 大学
専門分野 その他
専門度
実現時期 5年未満
分析データ 推定科研費審査区分(中区分) 62 (応用情報学)
分析データ クラスタ 46 (データサイエンス/機械学習・AI)
研究段階
既に実験段階ではあるが多くの試みが研究室ベースでなされている。
インパクト
知(科学基盤・基礎科学)の創出や既存産業の発展への寄与などがある。
必要な要素
-