Help: 部分一致検索とあいまい検索

 ST PANGAEAでは、一部の検索項目で部分一致検索とあいまい検索を利用できます。なお、これらの検索機能では、英数字の半角/全角/大文字/小文字の違いや、異体字などの違いは吸収され、おなじ文字として識別されます。

部分一致検索

 部分一致検索では、次のような検索式をサポートしています。

種類 検索式
AND検索 キーワード同士をスペースで区切る 人工知能 機械学習
→「人工知能」と「機械学習」の両方を含む文書を検索
連語の検索 ダブルクォートを用いる ”machine learning”
→「machine learning」という連語を含む文書を検索
OR検索 「OR」オペレータを利用 ”machine learning” OR 機械学習
→「machine learning」または「機械学習」のいずれかを含む文書を検索
NOT検索 半角のマイナス「-」をキーワードの先頭につける 機械学習 -人工知能
→「機械学習」を含み、「人工知能」を含まない文書を検索
(NOT条件単独での検索は不可。必ず他の条件と組み合わせる必要がある。)
優先順位の指定 半角括弧を利用 人工知能 (”machine learning” OR 機械学習)
→「人工知能」と「machine learning」、または「人工知能」と「機械学習」

あいまい検索

 「あいまい検索」を選択して検索すると、分散表現によるあいまい検索が利用できます。

 分散表現(Word Embedding,単語の埋め込み)とは、単語を多次元の実数値のベクトルで表現する技術です。 同じような文脈で使われる単語が近くに配置されるため、意味的に近い単語ほど距離も近いと期待できます。 したがって、分散表現を用いて単語をベクトルで表現することで、(意味もある程度踏まえたように見える形で)単語間の距離を数値的に計算することができます。

 本システムのあいまい検索では、収録されている文書や検索フォームから入力された文字列などの文章について、形態素解析器を用いて文章中の単語を抽出し、各単語のベクトルを足し合わせて単位ベクトル化したものを、文章のベクトルとして利用しています。

 文章間の距離には、文章ベクトルのユークリッド距離を用います。文章ベクトルはあらかじめ単位ベクトル化されているため、2つの文章間の距離は0~2までの実数値をとります。 この距離が0に近いほど類似度が高く、2に近いほど類似度が遠いことを意味します。

 検索語と関連度の高いデータがデータベースに含まれていない場合、あいまい検索の精度は下がります。あいまい検索の検索結果が不十分な場合は、他の十分な精度の結果が得られる検索語と関連度(距離)を比較してみたり、部分一致検索で関連度の高いデータがデータベースに含まれているかどうか確認してみてください。

 単語ベクトルのデータは、日本の研究.com から提供された、 分野推定モデル で利用している単語ベース分散表現モデルを利用しました。

Help 目次