Elasticsearchの関連性調整：検索再現率の測定と改善

BM25ランキングアルゴリズムを用いた語彙検索は、低コストで高速であり、幅広いクエリに対して非常に効果的です。しかし盲点があります。それは、ドキュメントとトークンを共有しないクエリです。この記事では、BM25が足りないところを正確に測定します。Elasticsearchのランキング評価API（rank_eval）を使用し、Elastic Inference Service（EIS）を介してJina AIの埋め込みを追加することでそのギャップを埋めます。再現率スコアが 0.43 から 0.75 に上がるのを見て、その理由がわかるでしょう。

リコールとは何ですか？

再現率は、0から1のスケールで、ユーザーが実際に欲しいドキュメントが検索結果にどれだけ含まれているかを測定します。クエリで3点の製品が表示されるはずなのに、検索結果の上位10位に2つしか表示されない場合は、そのクエリの再現率はrecall@10 = 0.67となります。これは集合ベースの指標であり、そのk件の結果内の関連ドキュメントの位置は考慮されません。10番目の位置にある関連ドキュメントは、1番目の位置にある関連ドキュメントと同じものとして扱われます。再現率が高いということは、関連性の高い検索結果を見逃さないということです。

Recall@10の計算方法を示すベン図です。すべての関連文書とBM25によって検索された上位10件の結果の重複を示し、Recall@10のスコアは0.40となります。

この図は2つの集合を示しています。1つは関連するすべてのドキュメント（左側）、もう1つはBM25が実際に取得したドキュメント（上位10件、右側）です。再現率に影響する交差部分、prod_1とprod_2が見つかり、prod_3、prod_4、prod_6は完全に見落とされました。結果：Recall@10 = 2/5 = 0.40。

要件

再現率がどのように機能するのかをよりよく理解するために、本題に入りましょう。このデモンストレーションではPythonを使用します。付属のノートブック（notebook.ipynb）で一緒に進めることができます。すべてのコードブロックは、実行準備が整ったセルです。

提供されたコードでは、以下を使用しています。

Elasticsearch 9.3以降
Python 3.10+

Elasticsearchの認証情報が含まれる.envファイル

データセット

靴、電子機器、工具など、さまざまなカテゴリーにわたる1,000点の製品を掲載した製品カタログを使用します。

各ドキュメントには4つのフィールドがあります。

フィールド	タイプ
`タイトル`	テキスト
`description`	テキスト
`ブランド`	キーワード
`category`	キーワード

データセットは dataset.csvから読み込まれます。

語彙検索の力と限界

BM25は、Elasticsearchおよびほとんどの検索エンジンのデフォルトのランキングアルゴリズムです。ドキュメントは、クエリ用語がどれだけ頻繁に出現するかによってスコアリングされます。これは、ドキュメントの長さと、インデックス全体でのそれらの用語の頻度に合わせて調整されます。さらに、小文字への正規化、語幹抽出、ストップワード除去といったアナライザーも搭載されています。「running shoes」というクエリは、「Running Shoes」と一致し、おそらく「run」とも一致します。

これは、多くの種類のクエリに対して有効です。

「running shoes」はタイトルにこれらのトークンを含む商品を即座にマッチングします。
「Bluetoothスピーカー」は、トークンが逐語的に表示されるため、携帯オーディオ製品として表示されます。

結果は決定論的で説明可能です。つまり、検索クエリに含まれる用語がドキュメント中に含まれているからこそ、そのドキュメントは上位にランク付けされるのです。関連性のデバッグは単純明快です。

問題が発生する箇所

では、同じカタログに対してこれらのクエリを試してみましょう。

「スキンケアルーティン」：どの製品名にも「ルーティン」という単語は含まれません。BM25は、「スキンケア」で部分一致することができますが、フェイス美容液、ボディオイル、モイスチャライザーは、「ビタミンC」、「レチノール」、または「ブライトニング」のような用語を使用して説明されており、いずれもクエリと重複しません。完全なスキンケアルーティンを形成する製品は、共通のトークンを持たずにインデックス全体に散らばっています。

「ペット用旅行用品」：これはユースケースのグループ分けであり、製品カテゴリではありません。犬用スリングキャリア、ペット用カーシート、旅行用クレートはどれも関連性のあるアイテムですが、それらの説明文は「旅行用品」というよりは、携帯性、安全性、快適性について述べています。BM25は「ペット」と大まかに一致しますが、旅行固有の商品を他のペットカタログと区別するシグナルはありません。

これは 再現率の問題です。関連するドキュメントはインデックスに存在しますが、ユーザーの言葉と文書の単語が十分に一致しないため、BM25はそれらを見つけることができません。

同義語を追加することは、既知の事例に役立ちますが、ユーザーが意図を表現するすべての方法を列挙することはできません。そこでベクトルが役立ちます。

リコールを測定すべき理由

問題を解決する前に、まずそれを定量化する必要があります。

Recall@kは、ユーザーが実際に求めているドキュメントのうち、検索結果に表示されるドキュメントの数を測定します。正式には：

Precision@kは、上位k件の結果のうち、実際にどれだけ関連性があるかを測定します。

高精度とは、得られる結果が良好であることを意味します。電子商取引においては、関連商品を見落とすこと（再現率の低さ）は、多少不完全な結果を表示すること（精度の低さ）よりも深刻です。なぜなら、商品が表示されないということは、販売機会の損失を意味するからです。

Elasticsearchのrank_eval APIは、両方を体系的に測定できます。それぞれに評価されたドキュメントを含むクエリのリストを提供すると、Elasticsearchがすべてのクエリのメトリックを計算します。

評価の設定

rank_eval APIには評価データセットが必要です。これは、クエリとそれに関連するドキュメントのマッピング、および関連性グレード（0 = 関連性なし、1 = 関連性あり、2 = 非常に関連性あり）で構成されます。

ノートブックでは、これは判断リストです。

この組み合わせは意図的なものです。 q1はBM25が適切に処理するクエリ（製品タイトル内の正確なトークン）であり、 q2 、 q3 、 q4はユーザーの意図が特定の製品キーワードではなく概念として表現されるインテントベースのクエリです。

BM25ベースライン再現率の測定

まず、Elasticsearchクライアントを設定し、生のテキストデータをインデックス化します。

次にBM25のrank_evalリクエストを作成しましょう。リスト内の各リクエストは、クエリとその評価を組み合わせたものです。

次の結果が得られます。

0.43 は、4つのクエリすべてで、BM25が見つけるべきドキュメントの43%しか見つけられないということです。不足している点は、意図に基づくクエリに集中している。「スキンケアルーティン」という検索では、「ルーティン」が製品タイトルに含まれていないため、フェイス美容液やボディオイルが見つかりません。また、「ペット用旅行用品」という検索では、旅行用品ではなく携帯性や安全性の観点から説明されているキャリーケースやクレートが見つからない一方で、関連性のないペット用品が検索結果に表示されます。

これがベースラインです。これで、破るべき数値ができました。

Jina埋め込みを用いたベクトル検索機能の追加

Vector search はドキュメントとクエリを高次元ベクトルとしてエンコードします。高次元ベクトルとは、数百または数千の数値から構成されるベクトルの一種で、各数値はそれが表すデータの特定の特徴をエンコードします。意味が似ているドキュメントは、たとえ共通の単語が一つもなくても、ベクトル空間上では互いに近い位置に配置されます。「ジム器具」と「ダンベルセット」は、概念が関連しているため、近くに配置されるでしょう。私がベクトルデータベースとしてElasticsearchを選んだ理由は、ハイブリッド検索をサポートしており、セマンティックな理解とキーワードの精度をすぐに実現できるからです。

EISには、推論APIを通じてモデル埋め込みを標準でサポートする機能が含まれています。

ステップ1：Jina埋め込みv5を推論エンドポイントとして使用する

クラスターにGPUリソースがある場合（Elastic CloudおよびElasticsearch 9.3以降で利用可能）、埋め込みはGPU上で生成されます。これはCPU推論よりも大幅に高速であり、従来、大規模な環境でベクトル処理を高価にしていたパフォーマンスのトレードオフを解消します。

なぜJina埋め込みが特に重要なのでしょうか。JINA-embeddings-v5-textは、32,000トークンのコンテキストウィンドウを持ち、タスク固有の Low-Rank Adaptation (LoRA) アダプターをサポートする多言語モデル（119言語以上に対応）です。短い商品説明であれば、そのままでも十分に機能します。jina-embeddings-v5-textモデルの詳細についてはこちらをご覧ください。

ステップ2：セマンティックフィールドを持つインデックスを作成

ここで重要なのは semantic_text フィールドタイプです。これはdense_vectorよりも高レベルの抽象化です。推論エンドポイントを指定すると、Elasticsearchが埋め込みの生成を自動的に行います。

copy_toプロパティがtitleとdescriptionにある場合、両方のフィールドのコンテンツがsemantic_fieldに流れ込んで埋め込まれるため、単一のベクトルで製品の完全な表現を捉えることができます。

ステップ3：製品をインデックス化する

インデックス時には、Elasticsearchは各文書の推論エンドポイントを呼び出し、その結果得られた埋め込みをsemantic_fieldに保存します。余計なコードは必要ありません。

ハイブリッド検索：BM25とベクトルおよびRRFの組み合わせ

ベクトルを追加すると再現率は向上しますが、ベクトルのみを使用すると、完全一致クエリの精度が低下するリスクがあります。「ランニングシューズ」は、依然として逐語的に一致するものを最優先にランク付けするべきです。ハイブリッド検索は、その精度を維持するために、語彙要素を意図的に保持します。

ハイブリッド逆順位融合（RRF）検索は、両方の長所を保持します。

BM25は正確およびほぼ正確なクエリを高精度で処理します。
セマンティック検索は、意図に基づく多言語クエリを高い再現率で処理します。
RRFは2つのランキングリストを1つのランキングに統合します。

RRF式は、各結果リストのランクに基づいて各文書にスコアを割り当てます。

両方のリストで上位に表示されるドキュメントほど、統合スコアは高くなります。rank_constantは、より低いランクの文書に与えられる重みを制御します。

次の結果が得られます。

ハイブリッドはBM25（0.43）よりも大幅に改善されており、「ランニングシューズ」のような完全一致クエリに対しても精度を維持します。

結果：ビフォーアフター

3つのアプローチの完全な比較は次のとおりです。

次の結果が得られます。

メソッド	Recall@10
BM25（語彙）	0.43
ハイブリッド（BM25 + ベクター）	0.75

BM25語彙検索と、BM25とベクトルを組み合わせたハイブリッド検索のRecall@10を比較した棒グラフ。ハイブリッド検索の方がはるかに高いリコール率を達成していることがわかります。

クエリごとに分解すると次のようになります。

グループ化された棒グラフ。4つの製品クエリにおけるBM25語彙検索とハイブリッド検索のRecall@10を比較し、各クエリでハイブリッド検索が一貫して語彙検索を上回ることを示しています。

まとめ

この記事を通して、BM25の語彙検索は、ユーザーが正確なクエリを入力する場合には信頼性が高いものの、キーワードではなく意図に基づいて検索する場合は再現率が低下することがわかりました。rank_evalを用いて、そのギャップを実数で測定するための再現可能な基準を確立しました。そこから、Jina埋め込みを利用したsemantic_textフィールドを追加し、評価を再度実行しました。結果：ハイブリッド検索により、0.43から0.75への再現率が向上し、正確な一致クエリでの精度を維持しました。ただし、実際の差はクエリの組み合わせによって異なります。

このパターンは、この例を超えてスケールします。ユーザーの実際のクエリから判断を収集し、rank_evalをベースラインとして実行し、semantic_textを追加して再度測定します。何がどれだけ改善したかが正確にわかるでしょう。