Help: ST PANGAEAの概要

 ST PANGAEAは、文部科学省 科学技術・学術政策研究所(NISTEP)が実施した 「専門家が注目する科学技術アンケート調査」 の調査結果を他の研究成果データと比較分析し、得られた成果をWebシステム化したものです。分析は以下の手法によって実施されました。

  • 分散表現による文書データの多次元ベクトル化
  • 多次元ベクトルの次元圧縮による可視化と注目科学技術マップの作成
  • 科研費審査区分を用いた注目科学技術マップの評価と科研費審査区分推定器の作成
  • 多次元ベクトルデータのクラスタリング
  • 「専門家が注目する科学技術アンケート調査」調査結果の分析

分散表現による文書データの多次元ベクトル化

 文書データを意味レベルで比較分析するため、fastText を用いて文書データを多次元ベクトル化しました。文書データを多次元ベクトル化することにより、異なる文書データの類似度を計算することができるようになりました。
 単語ベクトルのデータは、日本の研究.com から提供された、 分野推定モデル で利用している単語ベース分散表現モデルを利用しました。比較対象の他の研究成果データについても、日本の研究.comから提供されたデータを利用しました。

多次元ベクトルの次元圧縮による可視化と注目科学技術マップの作成

 科研費研究課題うち、以下の条件のデータ 71,786 件のデータを多次元ベクトル化し、UMAPモデルを作成して可視化しました。

  • 2020~2022年度新規採択課題
  • 種目が基盤研究(A・B・C)(応募区分「一般」)、挑戦的研究(開拓・萌芽)、若手研究 のいずれかの科研費課題
  • 審査区分の小区分または中区分が設定されている科研費課題
  • 内容のほとんどが日本語以外の言語で、UMAPモデルの生成に大きな影響を与えるデータ(1,490件)を除外

 得られたUMAPモデルで 71,786件 の科研費研究課題をプロットした結果、以下のようになりました。

 なお、UMAPはPCA(主成分分析)とは異なり、元々の多次元ベクトル空間と比べて座標空間が強く歪んでおり、横軸や縦軸に何らかの意味を与えることはできませんのでご注意ください。傾向として、類似するデータ同士は近い座標に配置され、そうでないデータ同士は近くない座標に配置されます。

科研費審査区分を用いた注目科学技術マップの評価と科研費審査区分推定器の作成

 前述の 71,786 件の科研費研究課題から作成したUMAPモデルは、同じ科研費審査区分の研究課題が近い座標に配置される傾向を確認できたことから、研究分野をある程度表現できていると判断し、このUMAPモデルで多次元ベクトルデータをプロットすることで、文書データの可視化・比較分析が可能と判断し、「注目科学技術マップ」として利用することにしました。
 また、科研費審査区分が設定されていない他のデータについて、どの科研費審査区分に該当するかを推定するため、サポートベクターマシンを用いた分類器(SVC:Support Vector Classification)を作成し、多次元ベクトルから科研費審査区分を推定できるようにしました。科研費審査区分は、トップページまたは右上メニューの「推定科研費審査区分からマップ分析する」から一覧できます。

多次元ベクトルデータのクラスタリング

 71,786件 の科研費研究課題の多次元ベクトルデータをk平均法(k-means clustering)により科研費中区分の区分数と同じ65クラスタに分類し、それぞれのクラスタの代表的なキーワードを関連キーワードとして抽出しました。得られたクラスタと関連キーワードは、トップページまたは右上メニューの「クラスタリング結果からマップ分析する」から一覧できます。

「専門家が注目する科学技術アンケート調査」調査結果の分析

 注目科学技術マップ、科研費審査区分推定器、クラスタリングの3つの手法を組み合わせて、「専門家が注目する科学技術アンケート調査」調査結果を分析しました。
 以下の画像は、注目科学技術マップ上にアンケート調査の回答データを、クラスタ毎に色分けしてプロットしたものです。特にマップ上部のプロットが少ないことから、人文・教育・看護・スポーツ・臨床医療などの分野で専門家の言及が少なかったことがわかりました。

 一方で、専門家の言及が多かった研究分野については、6つのトピックに分けて分析例を公開しています。トップページ または ページ下部の「分析例と使い方」 から、興味のあるトピックの分析例をご覧ください。

推奨閲覧環境とカラーモードの変更

 ST PANGAEAは、Google Chromeでの閲覧を推奨しています。また、横幅1,200px以上の画面サイズでの利用を推奨しています。

 ご利用のOSやブラウザの設定に合わせて、 ライトモード(白背景をベースとした表示)と ダークモード(黒背景をベースとした表示)が自動的に選択されます。現在のカラーモードでの閲覧に問題がある場合は、画面右上の 部分からカラーモードを変更できます。

Help 目次