情報を検索

検索には様々な手法がある。

キーワード検索

  • 転置インデックスを事前に作成しておき対象ドキュメントを検索する手法
  • 転置インデックスはドキュメントを形態素解析したうえで重複単語、助詞などを削除し、検索対象となる単語がどのドキュメントに現れるのかを記録したもの。
  • あらかじめ検索に対する答えをキーワードレベルで作成しておくアプローチ。
  • 検索結果はTF-IDF(Term Frequency-Inverse Document Frequency)などの技法でランク付けされる。

ベクトル検索

  • 文章を何千から何万次元のベクトルに変換し、異なる単語であっても同じ意味合いであれば検索できる仕組み。
  • それぞれの類似度はコサイン類似度を計算して求める

セマンティック検索

  • 特別に訓練された深層学習モデルを用いて、すでにランク付けされた検索結果を再ラインキングづけする。
  • クエリ自体のみではなくクエリが意図する全体的な文脈や目的を解析しランキングする。

ハイブリッド検索

  • Azure AI Searchで用いることが可能な、キーワード検索とベクトル検索の結果を融合してさらに精度の高い回答を返す。

セマンティックハイブリッド検索

  • ハイブリッド検索の結果をセマンティック検索で再ランキングしてさらに精度を高める手法。