テキスト、画像、動画、音声のためのjina-embeddings-v5-omni

jina-embeddings-v5-omni テキスト、画像、動画、音声を1つのElasticsearchインデックスにまとめます。クラス最高のjina-embeddings-v5-textモデルを拡張し、v5-omniスイートは革新的なアーキテクチャを通じてビジュアルおよびオーディオのエンコードを追加します。テキスト基盤はそのままで、非常にコンパクトな埋め込みモデルで最先端クラスのパフォーマンスを提供します。

テキスト、画像、動画、音声記録のための高性能なセマンティック埋め込みを作成し、100近い言語にまたがる分類、クラスタリング、意味的類似性の測定、検索のためのインデキシングに利用できます。データがテキストだけでなく、PDF、録音、動画といった形式でも存在する場合、それぞれに個別のパイプラインを用意する必要はなくなります。

jina-embeddings-v5-omniファミリーは画像、音声、印刷物、動画をサポートする、現在市場で最もコンパクトな埋め込みモデルです。以下を提供します。

jina-embeddings-v5-textのフロンティアクラスのテキスト埋め込みを検索、分析、AIエージェント用途で使用。
クラス最高の埋め込みを視覚的な意味的類似性、視覚的理解、画像検索用途で使用。jina-embeddings-v5-omni-small は、10億（10⁹）個のパラメーターを持つモデルの中で画像ベンチマークにおいて最高のパフォーマンスを発揮し、当社の以前のjina-clip-v2よりも優れています。このモデルに匹敵する性能を発揮できるのはパラメーター数が3倍から30倍もあるごく少数のモデルのみです。
多言語の視覚的理解および検索のための最先端の埋め込み技術で、最大20倍もの規模を持つモデルを凌駕します。
同サイズクラスで最高のオーディオ埋め込みであり、標準ベンチマークでより優れた性能を発揮するのは、パラメーター数が2倍以上のモデルのみです。
動画のサポート、特に映像内の物体やイベントを特定する機能。

これは、情報検索、文書処理、データ分析といったあらゆる分野に応用可能です。jina-embeddings-v5-omni は、異なるメディアサイロに閉じ込められた情報を開放し、AIエージェントによる検索、分析、使用を可能にします。音声・動画記録、PDF、印刷ページのスキャン画像、インフォグラフィックなどの情報は、データエコシステムにおいてデジタル化されたテキストと同等の扱いを受けます。

jina-embeddings-v5-textと同様に、これらのモデルにはsmallとnanoの2つのサイズがあります。どちらのモデルも、音声インプットと視覚インプットをサポートする追加モジュールによって、対応するテキスト版を拡張しています。ユーザーは読み込み時にモジュールを選択できます。さらに、意味的類似性、分類、クラスタリング、情報検索向けのタスク固有の拡張は、コンパクトな低ランク適応（LoRA）アダプターとして実装され、すべて読み込まれるため、ユーザーは推論時に選択できます。

どちらのモデルも非常にコンパクトです。jina-embeddings-v5-omni-small従来のGPU搭載サーバーで動作可能であり、 jina-embeddings-v5-omni-nanoは汎用ハードウェアで動作できるほど小型です。これは、計算コストの大幅な節約の可能性を示し、ライセンスされたローカルインストールとエッジ処理を可能にし、レイテンシを削減し、データの制御を強化します。

v5-omniスイートは、革新的なモデル設計と機械学習技術を用いて、以前に学習済みのモデルを再学習させることなく、新しい埋め込みモデルを構成します。既存のjina-embeddings-v5-textモデルスイートのインプット前処理器として、音声および動画メディア用の事前トレーニング済みの、言語に合わせた埋め込みモデルからエンコーダを使用しています。結果として得られるモデルは、画像や音声録音に対して、テキストに対して生成する埋め込み表現と意味的に互換性のある埋め込み表現を生成します。

v5-omniモデルは、jina-embeddings-v5-text と同一のテキスト埋め込みを生成します（つまり、jina-embeddings-v5-omni-small に jina-embeddings-v5-text-small、jina-embeddings-v5-omni-nano に jina-embeddings-v5-text-nano）。これにより、インデックスを再構築することなく、既存のテキスト検索リポジトリをマルチメディアアプリケーションに拡張できます。

内蔵エンコーダーはすべてオープンウェイトソースから派生したものです。画像と動画にはQwen3.5モデルのエンコーダーを使用しました。

jina-embeddings-v5-omni-nanoの場合、Qwen3.5-0.8Bの微調整されたSigLIP2 Baseエンコーダーを使用します。
jina-embeddings-v5-omni-smallには、Qwen3.5-2Bの微調整されたSigLIP2 So400mエンコーダーを使用します。
音声サポートのため、Qwen2.5-Omni-7Bから抽出したWhisper-large-v3のエンコーダーを、smallバージョンとnanoバージョンの両方に追加しました。

これらのメディア固有のエンコーダーを、訓練済みのクロスモーダルプロジェクターを備えたテキスト処理基盤に接続しました。これらのプロジェクターは、ネイティブ出力をjina-embeddings-v5-textと互換性のある入力埋め込みに変換します。jina-embeddings-v5-omniモデルで新たに学習された部分は、それらのプロジェクターの重みだけです。

`jina-embeddings-v5-omni` モデルの概略図。新しいトレーニングを受けたのはクロスメディアプロジェクターだけです。

このアーキテクチャーは、4つのLoRAアダプターのそれぞれに対して、jina-embeddings-v5-omni-small用に約550万、jina-embeddings-v5-omni-nano用に350万未満のクロスモデルプロジェクターのみをトレーニングする必要があることを意味します。このアプローチでは、異なる埋め込みモデルを接続するために必要な追加トレーニングを最小限に抑え、それぞれの専門的なトレーニングを活用することで、非常にコンパクトで高性能なモジュール式の埋め込みスイートを実現します。

選択されたモデルプロパティ

入力/出力

モデル名	入力コンテキストウィンドウのサイズ	埋め込みサイズ
jina-embeddings-v5-omni-small	32,768トークン	1024ディメンション（最小：32）
jina-embeddings-v5-omni-nano	8,192 トークン*	768次元（最小：32）

* 非テキストメディアのトークン化方法については、以下のjina-embeddings-v5-omniの使用をご覧ください。

サイズ

モデル名	合計サイズ
jina-embeddings-v5-omni-small（テキストのみの基本モデル＋4つのLoRAアダプター）	700M パラメータ
画像/動画サポート（Qwen3.5-2Bから抽出したSigLIP2 So400Mエンコーダー）	10.06億パラメーター
音声サポート（Qwen2.5-Omni-7Bから抽出したWhisper-large-v3エンコーダー）	13.54億パラメーター
両方	16.60億パラメーター
LoRAアダプター（各）	20M
jina-embeddings-v5-omni-nano（テキストのみの基本モデル＋4つのLoRAアダプター）	266M パラメータ
画像/動画サポート（Qwen3.5-0.8Bから抽出したSigLIP2ベースエンコーダー）	354M パラメータ
音声サポート（Qwen2.5-Omni-7Bから抽出したWhisper-large-v3エンコーダー）	916M パラメータ
両方	1.004B パラメータ
LoRAアダプター（各）	7M

* 非テキストメディアのトークン化方法については、以下のjina-embeddings-v5-omniの使用をご覧ください。

タスク特化型トレーニング

jina-embeddings-v5-omniファミリーはjina-embeddings-v5-textと同じタスク固有のLoRAアダプタをサポートしています。

タスク	使用例
検索	情報検索は単独または他の検索および候補評価技術と組み合わせて行われます。v5-omniモデルでは、1つのインデックスから1回のクエリで音声、動画、画像を取得できます。
クラスタリング	あらゆるメディアにおけるトピックの発見と自動的なトピック整理。
分類	分類、感情分析、関連する各種タスク。
意味的類似性	メディア全体でのデータ重複除去、レコメンデーションシステム、関連メディア、音声に一致するテキストの検索、翻訳の識別、その他の類似タスク。

出力の埋め込みは選択されたタスクカテゴリに依存します。例えば、検索指向の埋め込みをクラスタリングに、または意味的類似性の埋め込みを分類に使用すべきではありません。

マルチメディア、マルチモーダル、多言語、多機能

jina-embeddings-v5-omni で何ができるかを示すために、2つの小説の有名な冒頭部分を取り上げて、それらの意味的類似性を測定してみましょう。

二都物語（チャールズ・ディケンズ）

高慢と偏見 (ジェーン・オースティン)

意味的類似性アダプターを備えたjina-embeddings-v5-omni-smallを使用すると、これらのテキストの類似度は0.5329です。

この数値は比較対象がなければあまり意味がないので、同じモデルとアダプターを使用して、これら2つのテキストをフランス語訳と比較してみましょう。

言語間のテキストの意味的類似度スコア

	『二都物語』（英語）	高慢と偏見（英語版）
二都物語（フランス語版）（Paris et Londres en 1783, tr. H. Loreau）	0.9095	0.5074
高慢と偏見（フランス語版）（Orgueil et Préjugés,tr. Leconte et Pressoir）	0.4826	0.8784

この2つのテキストは、同じ言語や別の言語の他のテキストよりも、翻訳との類似性がはるかに高いことを示しています。これは、jina-embeddings-v5-omni-smallに変更されずに含まれたjina-embeddings-v5-text-smallの非常に高性能な多言語セマンティック埋め込みを反映しています。

マルチメディアサポートをjina-embeddings-v5-omniに加えることで、この実験をまったく異なる種類のデータに拡張できるようになります。例えば、私たちは両方の小説の最初のページのスキャンを古い印刷版から入手しました。

古びた2枚の本のページには、『二都物語』と『高慢と偏見』の冒頭部分が記されている。左側のページには、日付不明の19世紀版『二都物語』の第1章の冒頭部分が、右側のページには、1903年マクミラン版『高慢と偏見』の第1章の冒頭部分がそれぞれ記されている。

図2： 二都物語、19世紀の年代不明版、および 高慢と偏見、1903年マクミラン版。

意味的類似性アダプターを再度使用して、両方のテキストをスキャン画像と比較してみましょう。

テキストと画像間の意味的類似度スコア

	二都物語（スキャン）	高慢と偏見（スキャン）
二都物語（テキスト）	0.7336	0.4891
高慢と偏見（本文）	0.4804	0.7213

意味的類似度スコアは、画像の内容に一致するテキストを強く支持することがわかります。

同じ設定を使用して、テキストをSNSの投稿のスクリーンショットやそれらのテキストを参照するミームと比較することもできます。

イーロン・マスクが『二都物語』の一節を共有し、その後にコメントを加えたTwitter投稿で、その下に歴史の循環的および線形的要素を議論する引用ツイートがあります。

鮮やかな青色のグラフィックには、ベージュ色の文字で「DON’T KEEP CALM! HE’S A SINGLE MAN in possession of a large fortune!」と表示され、上部には白いボンネットとレースの衣装を身に着け、口を開けた表情をした歴史的な衣装を着た人物の小さな写真が添えられている。

図3：イーロン・マスクのツイート（ 『二都物語』に言及）と『高慢と偏見』の有名な冒頭シーンに言及したミーム。

テキストと画像間の意味的類似度スコア

	二都物語	高慢と偏見
マスク氏のツイート（画像）	0.7156	0.4912
「Keep calm」ミーム（画像）	0.4555	0.6244

音声でも同じことができます。英語とフランス語の両テキストの朗読録音を入手しました。

異なる言語間のテキストと音声のセマンティック類似度スコア

	『二都物語』（英語音声）	二都物語（フランス語音声）	高慢と偏見(英語音声)	高慢と偏見（フランス語音声）
『二都物語』 (英語テキスト)	0.3816	0.3106	0.1607	0.1774
二都物語（フランス語テキスト）	0.3528	0.3253	0.1598	0.1721
高慢と偏見(英語テキスト)	0.1910	0.1682	0.3511	0.3398
高慢と偏見（フランス語テキスト）	0.1667	0.1474	0.3018	0.3702

この多言語・マルチメディア能力は情報検索にも及びます。

jina-embeddings-v5-omniモデルの検索アダプターは非対称検索を実装しています。これは、クエリを埋め込む方法が検索対象のドキュメントを埋め込む方法とは異なることを意味します。そのため、クロスモーダルクエリは常に一方向にあり、クエリが一方のメディアに、ドキュメントがもう一方のメディアにあるため、逆の場合とは異なるスコアが得られます。

以下の表は、二都物語と高慢と偏見のテキスト、音声、ページスキャン画像の検索スコアを示しています。これは、二都物語（英語）のテキストがクエリとしてエンコードされた場合です。

テキストからテキスト

ドキュメント	検索スコア
二都物語（フランス語テキスト抜粋）	0.7597
高慢と偏見（英語テキスト抜粋）	0.1482
高慢と偏見（フランス語テキスト抜粋）	0.0523

テキストから画像

ドキュメント	検索スコア
二都物語（英語ページスキャン）	0.5517
二都物語（フランス語ページスキャン）	0.3576
高慢と偏見（英語ページスキャン）	0.1917

テキストから音声

ドキュメント	検索スコア
『二都物語』（英語音声）	0.3277
二都物語（フランス語音声）	0.1980
高慢と偏見(英語音声)	0.1419
高慢と偏見（フランス語音声）	0.1759

ユーザーは、クエリを逆向きに実行することもでき、音声からテキストへ、画像からテキストへの検索を行うことができます。

以下は、 二都物語の英語音声をクエリとして、さまざまなテキストをドキュメントとして使用した場合のスコアです。

画像からテキスト

ドキュメント	検索スコア
二都物語（英語テキスト抜粋）	0.3352
二都物語（フランス語テキスト抜粋）	0.2650
高慢と偏見（英語テキスト抜粋）	0.1626
高慢と偏見（フランス語テキスト抜粋）	0.1385

そして、二都物語（英語版）の1ページ目のスキャン画像をクエリとして使用した場合のスコアは以下のとおりです。

音声からテキスト

ドキュメント	検索スコア
二都物語（英語テキスト抜粋）	0.5304
二都物語（フランス語テキスト抜粋）	0.4845
高慢と偏見（英語テキスト抜粋）	0.1467
高慢と偏見（フランス語テキスト抜粋）	0.0761

薄い青色の背景を持つ長方形の通知ボックスには、jina-embeddings-v5-omni はテキストクエリから音声、動画、画像を見つけるようにトレーニングされており、テキスト以外のクエリでは効果が低下する可能性があることを説明するテキストの横に、黄色の警告三角形アイコンが表示されます。

動画検索

jina-embeddings-v5-omniの動画インデキシングと検索機能は、Elasticsearchデータベースに新たな機能をもたらしますが、テキストに適用される多くの同じ警告の対象となります。長編映画の単一の埋め込みを生成することは、非常に長い小説を埋め込むようなものです。詳細な情報が埋もれてしまい、結果として得られる埋め込みは、多くの非常に曖昧なクエリに適合する可能性があります。

指輪物語の全文（約50万語）を埋め込めば、探しているものが何であれ、ほとんどの検索クエリに対して適切な結果が得られる可能性が高いでしょう。同様に、2時間のハリウッド映画のインデックスを作成すると、誤ったマッチングが多く、詳細が完全に見落とされます。jina-embeddings-v5-omniは短いクリップに最適です。

この例では、1961年の映画ティファニーで朝食をの予告編をダウンロードしました。この予告編はわずか158秒で、パブリックドメインとなっています。予告編をインターネットアーカイブで見ることができます。

ヴィンテージの映画『ティファニーで朝食を』のポスターには、黒いロングドレスに黒い手袋、真珠のネックレス、シガレットホルダーを身につけ、肩に猫を乗せたオードリー・ヘプバーンの全身イラストが描かれている。背景には、街並みを背景に抱き合うカップルを描いた小さなイラストがあり、ポスターにはカラフルな縁取りとキャストおよび制作クレジットが添えられている。

図4：ティファニーで朝食をの劇場ポスター。

PySceneDetectを使い、予告編を28のシーンに分割しました。長さは1.877秒（45フレーム）から18.393秒（441フレーム）までさまざまです。シーン検出は完璧ではありませんが、動画を検索しやすいように小さな断片に分割するのに十分な仕組みを提供します。次に、jina-embeddings-v5-omni-smallを使用して、28セグメントのそれぞれについてドキュメント埋め込みを生成しました。これにより、動画内の特定の要素を見つけるためのテキストクエリの有効性をテストすることができました。

例えば、「cat」を検索すると、上位3つの結果として次のクリップが返されました。猫が登場する唯一のシーンがトップで、スコアは0.1634です。

台所の床にひざまずいて開いた冷蔵庫に手を伸ばしている人物と、その近くに立っている猫を映した動画のサムネイル（スコア0.1634）。

クリップ1番目をご覧ください。

次に高い一致度は0.1237で、はるかに低い値です。

「GEORGE PEPPARD」という名前が画像に重ねて表示された、カラフルなマスクを顔の近くで持っている人物の動画サムネイル（スコア0.1237）。

クリップ2をご覧ください。

また、アクションをクエリすることもできます。「kiss」という文字列でクエリを実行すると、上位4つの一致結果にはすべてキスが含まれています。

屋内で3人が写っている動画のサムネイル。左側には1人がカメラの反対側を向いており、右側の2人はカーテンと出入り口の近くで抱き合っているように見えます（スコア0.2864）。

クリップ3をご覧ください。スコアは0.2864です。

2人が寄り添っている動画のサムネイル。1人はダークスーツを着ており、もう1人は猫のようなマスクを着用している（スコア0.2494）。

活気ある屋内の場面で数人が寄り集まっている様子を示す動画サムネイルです。そのうちの一人はギターを持ち、他の人たちは話したり笑ったりしているように見えます（スコア0.2099）。

トレンチコートを着た2人が雨の中、屋外で抱き合っている動画のサムネイル。背景には駐車中の車や建物が見える（スコア0.1189）。

スコア：2番目のマッチ（0.2494）、3番目のマッチ（0.2099）、4番目のマッチ（0.2068）

また、「Buddy Ebsen」のように、一度しか表示されない動画に表示されているテキストを検索することもできます。jina-embeddings-v5-omni-small は0.3885というスコアで、次点の候補よりもかなり高い、最も一致する候補として容易に識別できます。

白い手すりと暗い手すりの階段の横に立つスーツ姿の男性を映した動画のサムネイル。「Buddy Ebsen」(スコア0.3885)というテキストがオーバーレイされています。

Buddy Ebsenのクリップ。

視覚的文書検索

Jina AIのマルチモーダル埋め込みモデルは、ビジュアルドキュメント処理においてトップパフォーマーであり、多言語ビジュアルドキュメント処理においては最先端です。これは、テキスト、図、構造化情報を含む画像データを扱うことを意味します。重要なデータは、印刷スキャン、PDFファイル、図、技術図面、スクリーンショット、画像、インフォグラフィックなどの形式で存在することがよくあります。これらの画像は、しばしば機械的に構成されたり、コンピューターで生成されたりします。それらは通常、意味を損なうことなくテキストに還元することはできず、自然な風景の撮影用に設計されたコンピュータビジョンモデルには適していません。

jina-embeddings-v5-omni埋め込みには、画像内の物体、それらに印刷されたテキスト、および両者の関係に関する情報が含まれます。視覚的文書検索により、物と関連テキストの両方を含むリッチ画像をインデックス化し、それを複数の言語間で行うことが可能になります。

例として、さまざまなECサイトから4つの商品画像を使ってみましょう。

では、「ラーメン」というクエリで jina-embeddings-v5-omni-small がこの4枚の画像をどれだけ評価しているか見てみましょう。

Campbell’s Chunky Chicken Noodle（カナダ版パッケージ）	Kraft Dinner（カナダ版パッケージ）	マルちゃん味噌風味生ラーメン（日本版パッケージ）	Birkelスパゲッティ（ドイツ版パッケージ）
0.0872	0.0711	0.1123	0.0886

日本の製品を一致としてすぐに見つけます。

ここで、「マカロニチーズ」（日本語のmacaroni and cheese）のクエリを試してみましょう。

Campbell’s Chunky Chicken Noodle（カナダ版パッケージ）	Kraft Dinner（カナダ版パッケージ）	マルちゃん味噌風味生ラーメン（日本版パッケージ）	Birkelスパゲッティ（ドイツ版パッケージ）
0.2207	0.3487	0.2760	0.2674

英語のクエリと同じくらい簡単に正しい一致を見つけます。

jina-embeddings-v5-omni また、チャートのような情報豊富な画像の解釈にも優れています。実際にどのように機能するかを確認するには、次の2つの棒グラフをご覧ください。

棒グラフは、2010年の60歳以上の人々の疾病負担の主な原因を比較したもので、心血管疾患、がん、慢性呼吸器疾患、筋骨格系疾患、神経疾患、不慮の事故、糖尿病、消化器疾患、呼吸器感染症、感覚障害について、障害調整生命年（DALY）を百万単位で示しており、各棒グラフは低・中所得国と高所得国からの寄与に分けられています。

棒グラフ「Lifespan of different breeds」には、アメリカン・フォックスハウンド、ビーグル、バセンジ、バセット・ハウンド、ブラック・アンド・タン・ク...,、ブラッドハウンド、ダックスフンド、イングリッシュ・フォックスハウンド、ハリアーの平均寿命が年単位で示されており、青い棒は約10年から14年の範囲です。

左側の図1は世界の疾病負担に関するもので、右側の図2は犬種ごとの寿命に関するものです。

検索にjina-embeddings-v5-omni-smallを使用した場合、それぞれが一方のチャートには関連するが両方のチャートには関連しない、2つの潜在的なテキスト質問がどれだけうまく一致するかを見てみましょう。

テキストの質問	チャート1	グラフ 2
「高齢者によく見られる健康問題にはどのようなものがありますか？」	0.2787	0.1099
「犬の寿命は？」	0.1350	0.3564

画像をクエリとして使用して、テキストを検索する逆のプロセスも可能です。以下の表は、関連する科学論文の要約から抽出された対象文書と、グラフ画像をクエリとして使用した場合の検索スコアを示しています。

	テキスト1	テキスト 2
	極度の貧困の中で暮らす人々の健康は、長年にわたり世界の開発努力の焦点となっており、持続可能な開発目標の時代においても引き続き優先事項となっています。しかし、この特定の集団における負担の規模と原因を定量化するための体系的な試みは、ほぼ20年間行われていません。私たちは、世界で最も貧しい10億人を対象に、原因別の疾病率を推定し、高所得層の疾病率と比較しました。	コンパニオンドッグは表現型が最も多様な種の一つです。品種間のばらつきは形態や行動の側面だけでなく、寿命にも及びます。この事実にもかかわらず、品種間の平均余命のばらつきを評価したり、長寿の系統的特徴の可能性を評価したりする研究はほとんど行われていません。
チャート1	0.2377	0.1357
グラフ 2	0.0673	0.3576

特徴

切り捨て可能な埋め込み

jina-embeddings-v5-omni を支える基盤jina-embeddings-v5-text モデルをマトリョーシカ表現学習でトレーニングしたので、これらのモデルからテキストとマルチメディアの埋め込みを切り捨てることができます。

デフォルトでは、 jina-embeddings-v5-omni-small 1024次元の埋め込みを生成し、16ビット精度で保存するために2KBの容量を必要とします。jina-embeddings-v5-omni-nanoの埋め込みは768次元で、約1.5KBを占めます。これらの埋め込みのサイズを32次元（64バイト）に縮小することができます。これにより、精度は若干低下しますが、処理速度は大幅に向上し、リソースコストも削減されます。一般に、埋め込みサイズを半分に減らすと、精度が約2％低下して128次元になり、それを下回ると精度がはるかに速く低下します。

切り捨て可能な埋め込みにより、ユーザーはそれぞれのユースケースに応じて、精度、速度、コストの最適なトレードオフを決定できます。

量子化

jina-embeddings-v5-omniファミリーは、 jina-embeddings-v5-text基盤から量子化に対する堅牢なパフォーマンスも継承しています。これにより、処理速度がさらに向上し、より精度の低い数値を格納することで計算とストレージのコストが削減されます。これらのモデルは Elasticsearchの Better Binary Quantization（BBQ）と連携するように訓練されており、量子化されていない埋め込みとほぼ同じ性能を提供します。Massive Text Embedding Benchmark（MTEB）の検索ベンチマークスイートでは、バイナリ化によるパフォーマンス低下は16ビットの完全な値を使用した場合と比較して3%未満にとどまり、同時に93%のスペースを節約し、処理速度と検索速度を劇的に向上させます。

言語間パフォーマンス

jina-embeddings-v5-textの広範な多言語トレーニングは jina-embeddings-v5-omni にも引き継がれ、jina-embeddings-v5-text-small の事前トレーニングでは約100の言語、jina-embeddings-v5-text-nano では15の主要なグローバル言語がサポートされています。音声メディアの場合、 Whisper-large-v3モデルはトレーニングに約100言語を使用しており、 jina-embeddings-v5-omni-smallおよび-nanoに統合されているQwen-modified SigLip2ビジョンモデルは 201種類の言語と方言のデータを使用してトレーニングされています。

ベンチマーク性能

テキスト

jina-embeddings-v5-omni テキストのみに使用する場合、これらのモデルはjina-embeddings-v5-textモデルと同一です。セマンティックテキスト埋め込みのMMTEBベンチマークスイートにおいて、それぞれのサイズカテゴリーでトップパフォーマンスを示しています。

棒・折れ線グラフ。9つの埋め込みモデルのMMTEBスコアとパラメータサイズを比較したもので、jina-v3-omni-smallが最高のスコアを獲得し、snowflake-arctic-embed-l-v2が最小のサイズを達成。

図5：テキストベンチマークでの jina-embeddings-v5-omni のサイズとパフォーマンス、競合モデルとの比較。記載されているサイズは、他のメディアの読み込み拡張機能を含まないサイズです。

視覚的な意味的類似性

標準的な視覚的意味的類似性ベンチマークにおいて、jina-embeddings-v5-omni はそのサイズに近いモデルの中で最高のスコアを出しています。jina-embeddings-v5-omni モデルは、同等のサイズの公開オープンウェイトモデルの中で圧倒的に最良の性能を示しています。jina-embeddings-v5-omni-smallは視覚的意味的類似性タスクにおいて、その3倍のサイズのモデルにしか負けず、 jina-embeddings-v5-omni-nanoはjina-embeddings-v5-omni-smallと10～25倍のサイズのモデルにしか負けません。

棒・折れ線グラフ。7つの埋め込みモデルの視覚的意味類似性スコアとパラメータサイズを比較しており、jina‑embeddings‑v5‑omni‑smallが最高の類似性スコアを達成し、laion/CLIP‑ViT‑bigG‑14が最大のモデルサイズ。

図6：jina-embeddings-v5-omni-small、jina-embeddings-v5-omni-nano、および比較対象モデルの視覚的意味的類似性ベンチマーク平均スコア、ならびに視覚拡張機能を含むそれらのサイズ。

視覚的文書検索

jina-embeddings-v5-omni-small は、10億パラメーター未満でありながら、30億パラメーターおよび70億パラメーターのモデルに匹敵します。jina-embeddings-v5-omni-nanoも同様にそのサイズで際立っており、10倍から60倍も大きいモデルを凌駕しています。

棒・折れ線グラフ。複数の埋め込みモデルの選択されたViDoReスコアとパラメーターサイズを比較。LCO‑Embedding‑Omni‑7Bが最高スコアを達成し、laion/CLIP‑ViT‑bigG‑14が最大のモデルサイズ。2つのJina埋め込みモデルに焦点。

図7 ：6つのベンチマーク（DocVQA、InfoVQA、ShiftProj、SynAI、Tabfquad、TatDQA）におけるViDoRe視覚文書検索の平均スコア。

音声検索

標準的なMAEB（Massive Audio Embedding Benchmark）音声検索ベンチマークにおいて、jina-embeddings-v5-omni-smallとjina-embeddings-v5-omni-nanoはどちらもトップクラスのパフォーマンスを発揮しています。非常に大きなモデルのみ – jina-embeddings-v5-omni-smallの3倍以上のサイズ – がそのスコアを上回ります。

棒。折れ線グラフ。x軸に沿って埋め込みモデルと音声モデルを比較し、左側のy軸にはMAEBスコアを表す青い棒グラフ、右側のy軸には数十億個のパラメータからなるモデルサイズを表す赤い線グラフを示しています。棒グラフは概ね20から55までの範囲を示し、線は0から10までの範囲を示します。

図8：MAEB音声検索ベンチマークにおけるさまざまなモデルの平均スコア。

LAIONのlarger_clap_general モデルは、jina-embeddings-v5-omni-nanoのスコアをより少ないパラメーターで改善していますが、v5-omniスイートの追加マルチモーダル機能は何もない、音声のみのモデルです。

動画

動画では、jina-embeddings-v5-omni-smallがテキストクエリに合致する場所を見つけることに優れています。Charades-STAとMomentSeekerテストは、このタスクの標準的なベンチマークであり、下のグラフからjina-embeddings-v5-omni-smallがサイズがはるかに小さいにもかかわらず、同等のオープンウェイトモデルの中で最高のスコアを獲得していることがわかります。

棒・折れ線グラフ。6つの埋め込みモデルにおけるCharades-STAスコアとモデルサイズを示しています。X軸はモデルのリスト、左のY軸は20から60までのCharades-STAスコア、右のY軸は0から10までのパラメータの億単位でのモデルサイズを示しています。青い棒はスコアを表し、マーカー付きの赤い線はモデルサイズを表しています。

図9：さまざまなモデルのサイズと、それらのモデルに対するCharades-STAスコア。

棒・折れ線グラフ。MomentSeekerスコアとモデルサイズに基づいて6つの埋め込みモデルを比較し。X軸はモデルのリスト、左のY軸はおよそ44から60までのMomentSeekerのスコア、右のY軸は0から10までのパラメータの億単位でのモデルサイズを示しています。青い棒はスコアを表し、マーカー付きの赤い線はモデルのサイズを表しています。

図10：さまざまなモデルのMomentSeekerスコアとそれらのサイズ。

また、 jina-embeddings-v5-omni-small ByteDanceのSeed 1.6と比較しました。Seed 1.6は、パラメータ数が非公開のクローズドウェイトモデルです。私たちのモデルは、Charades-STAベンチマークではSeed 1.6を大きくBeatsし、MomentSeekerではほぼ同等です。

モデル	Charades-STAのスコア	MomentSeekerスコア
seed-1.6-embedding	29.30	59.30
jina-embeddings-v5-omni-small	55.57	58.93

強みと制限事項

jina-embeddings-v5-omni モデルは、特に以下のようなさまざまな方法で、ユーザーがデジタル化された情報をインデックス化、検索、分析する能力を拡張します。

テキストクエリからの多言語音声検索。
PDF、スキャン、視覚的文書検索。
動画の時間的グラウンディング、つまり、自然言語のテキスト記述と一致する動画の部分を特定すること。
音楽ジャンルを含むオーディオジャンルの分類。
シーン情報とオブジェクト識別に基づく画像分類。

他のいくつかの分野では、パフォーマンスはやや劣ります。jina-embeddings-v5-omni を使ってこれらの作業をすることは可能かもしれませんが、そのためのトレーニングはしていませんし、結果は芳しくないかもしれません。

当社は以下の分野における技術向上に積極的に取り組んでいます。

自然言語の説明から特定の動画を見つけること。
画像間の意味類似性と検索。
音声における意図の分類、例えば音声コマンドの認識など。
画像とそれに付随するテキスト、または音声、画像、テキストを組み合わせたものなど、複数のメディアからの入力を処理。

jina-embeddings-v5-omni

このモデルスイートは、テキスト、音声、画像と動画を組み合わせた入力という3つの入力方法をサポートしています。jina-embeddings-v5-omniは、幅広い標準フォーマットを変換し、他の前処理を行うフレームワーク内で動作します。

画像処理には、最初のSigLip2リリースで提供されたNaFlex方式と同じものを使用します。入力画像が262,144ピクセル（512x512に相当）より小さい場合は、その最小値を超えるまで拡大されます。また、3,072,000ピクセルより大きい場合は、その最大値より小さくなるまで縮小されます。変換プロセスでは、画像の高さと幅の両方が14ピクセルの倍数になるように調整し、縦横比の歪みを最小限に抑えてその目標を達成します。結果は28×28ピクセルのパッチに分割されます。そのため、パッチの総数は画像を覆うために必要な28×28の正方形の数になります。推論時には各パッチは単一のトークンとして扱われ、各画像入力には単一の画像を区切るための特別な開始トークンと終了トークンが付随します。

jina-embeddings-v5-omni モデルは、画像を変更するのと同じ方法で動画の解像度を変更し（上記を参照）、動画から最大32フレームを抽出します。動画に32フレーム以上ある場合（標準フォーマットは通常1秒あたり少なくとも24フレームなので、その可能性は高い）、抽出するフレームを均等な間隔で配置します。そして、動画プリプロセッサは、2フレームごとに、動画全体をカバーするのに必要な28×28ピクセルの正方形の数に等しいトークンのセットを1つ生成します。

連続するビデオフレームをコラージュしたもので、進行状況を示す矢印が添えられており、オードリー・ヘプバーンのさまざまな場面が描かれ、最後に「ティファニーで朝食を」というタイトルカードが表示されたフレームで終わる。この図は、モデルが動画から等間隔に並んだ64フレームを抽出することを示していますが、動画が長い場合、コンテンツの大幅な損失が発生する可能性があります。

図11： jina-embeddings-v5-omniは動画から等間隔の32フレームを抽出します。長い動画だと多くの部分が失われてしまいます。

動画の前処理の詳細については、 SigLip2の技術文書をご覧ください。

音声トークン化は、Qwen-2.5-Omniに組み込まれているアプローチに従います。音声ファイルは30秒ごとに分割され、30秒を超える場合は16kHzにリサンプリングされ、128チャンネルのメルスペクトログラムに変換されます。各40ミリ秒が単一のトークンとして扱われます。そのため、30秒のセグメントごとに750トークンが処理されます。これは1トークンが40ミリ秒の音声に相当し、さらに1サンプルを区切るための特別な開始トークンと終了トークンが追加されます。

音声前処理の詳細については、Qwen-2.5-Omni Technical Reportをご覧ください。

可用性

はじめに

EISで jina-embeddings-v5-omni モデルを使用するには、インデックスを作成し、type フィールドを semantic_text （メディアがすべてテキストではない場合でも）に設定し、inference_id フィールドで jina-embeddings-v5-omni-small または jina-embeddings-v5-omni-nano を指定します。EISはインデキシングと検索のためのLoRAアダプターを自動的に選択します。

テキストの場合、手順はjina-embeddings-v5-textと同じです。

他のメディアを入力するには、まずそれをBase64文字列に変換し、その文字列をテキストに使用するのと同じフィールドに入力してください。

マルチメディアクエリについても同様の手順を実行します。

Jina API経由でアクセスするには、Jina AIのWebサイトをご覧ください。

分類器、クラスタリングや意味的類似性アダプターを使用するため、あるいは埋め込みをカスタムサイズに切り詰めるためには、プロジェクト用にカスタム推論エンドポイントを作成し、Jina AIモデルへの接続とパラメーターを渡すための指示に従ってください。

jina-embeddings-v5-omniでBBQを使用するには、BBQインデキシングの説明に従います。

詳細情報

jina-embeddings-v5-omniの詳細については、モデルの技術レポートおよびJina AI Webサイトのページをご覧ください。Hugging Faceのjina-embeddings-v5-omniコレクションページには、これらのモデルのローカルダウンロードや運用方法の技術情報や手順も掲載されています。jina-embeddings-v5-omniモデルはCC-BY-NC-4.0ライセンスの下でダウンロードでき、自由に試用できますが、商用利用の場合はElasticの営業担当までお問い合わせください。

このコンテンツはどれほど役に立ちましたか？

役に立たない

やや役に立つ

非常に役に立つ

問題を報告する

Jina embeddings v3がGeminiエンタープライズAgent Platform Model Gardenで利用可能になりました

Jina AI

2026年4月22日

Jina embeddings v3がGeminiエンタープライズAgent Platform Model Gardenで利用可能になりました

Jina検索基盤モデルであるjina-embeddings-v3のGemini Enterprise Agent Platform Model Gardenでのセルフデプロイが可能になりました。今後さらに追加される予定です。独自のVPC内の単一のL4 GPU上でjina-embeddings-v3を実行できます。

による: Sa Zhang

jina-embeddings-v5-text：検索やインテリジェントアプリケーション向けのコンパクトで最先端のテキスト埋め込み

Jina AI

2026年2月23日

jina-embeddings-v5-text：検索やインテリジェントアプリケーション向けのコンパクトで最先端のテキスト埋め込み

jina-embeddings-v5-text-smallとjina-embeddings-v5-text-nanoを含むjina-embeddings-v5-textモデルを紹介し、Elastic Inference Service（EIS）を介してこれらの多言語埋め込みモデルを使用する方法を説明します。

SM SV

による: Scott Martens および Sofia Vasileva