jina-embeddings-v5-omni テキスト、画像、動画、音声を1つのElasticsearchインデックスにまとめます。クラス最高のjina-embeddings-v5-textモデルを拡張し、v5-omniスイートは革新的なアーキテクチャを通じてビジュアルおよびオーディオのエンコードを追加します。テキスト基盤はそのままで、非常にコンパクトな埋め込みモデルで最先端クラスのパフォーマンスを提供します。
テキスト、画像、動画、音声記録のための高性能なセマンティック埋め込みを作成し、100近い言語にまたがる分類、クラスタリング、意味的類似性の測定、検索のためのインデキシングに利用できます。データがテキストだけでなく、PDF、録音、動画といった形式でも存在する場合、それぞれに個別のパイプラインを用意する必要はなくなります。
jina-embeddings-v5-omniファミリーは画像、音声、印刷物、動画をサポートする、現在市場で最もコンパクトな埋め込みモデルです。以下を提供します。
jina-embeddings-v5-textのフロンティアクラスのテキスト埋め込みを検索、分析、AIエージェント用途で使用。- クラス最高の埋め込みを視覚的な意味的類似性、視覚的理解、画像検索用途で使用。
jina-embeddings-v5-omni-smallは、10億(10⁹)個のパラメーターを持つモデルの中で画像ベンチマークにおいて最高のパフォーマンスを発揮し、当社の以前のjina-clip-v2よりも優れています。このモデルに匹敵する性能を発揮できるのはパラメーター数が3倍から30倍もあるごく少数のモデルのみです。 - 多言語の視覚的理解および検索のための最先端の埋め込み技術で、最大20倍もの規模を持つモデルを凌駕します。
- 同サイズクラスで最高のオーディオ埋め込みであり、標準ベンチマークでより優れた性能を発揮するのは、パラメーター数が2倍以上のモデルのみです。
- 動画のサポート、特に映像内の物体やイベントを特定する機能。
これは、情報検索、文書処理、データ分析といったあらゆる分野に応用可能です。jina-embeddings-v5-omni は、異なるメディアサイロに閉じ込められた情報を開放し、AIエージェントによる検索、分析、使用を可能にします。音声・動画記録、PDF、印刷ページのスキャン画像、インフォグラフィックなどの情報は、データエコシステムにおいてデジタル化されたテキストと同等の扱いを受けます。
jina-embeddings-v5-textと同様に、これらのモデルにはsmallとnanoの2つのサイズがあります。どちらのモデルも、音声インプットと視覚インプットをサポートする追加モジュールによって、対応するテキスト版を拡張しています。ユーザーは読み込み時にモジュールを選択できます。さらに、意味的類似性、分類、クラスタリング、情報検索向けのタスク固有の拡張は、コンパクトな低ランク適応(LoRA)アダプターとして実装され、すべて読み込まれるため、ユーザーは推論時に選択できます。
どちらのモデルも非常にコンパクトです。jina-embeddings-v5-omni-small従来のGPU搭載サーバーで動作可能であり、 jina-embeddings-v5-omni-nanoは汎用ハードウェアで動作できるほど小型です。これは、計算コストの大幅な節約の可能性を示し、ライセンスされたローカルインストールとエッジ処理を可能にし、レイテンシを削減し、データの制御を強化します。
v5-omniスイートは、革新的なモデル設計と機械学習技術を用いて、以前に学習済みのモデルを再学習させることなく、新しい埋め込みモデルを構成します。既存のjina-embeddings-v5-textモデルスイートのインプット前処理器として、音声および動画メディア用の事前トレーニング済みの、言語に合わせた埋め込みモデルからエンコーダを使用しています。結果として得られるモデルは、画像や音声録音に対して、テキストに対して生成する埋め込み表現と意味的に互換性のある埋め込み表現を生成します。
v5-omniモデルは、jina-embeddings-v5-text と同一のテキスト埋め込みを生成します(つまり、jina-embeddings-v5-omni-small に jina-embeddings-v5-text-small、jina-embeddings-v5-omni-nano に jina-embeddings-v5-text-nano)。これにより、インデックスを再構築することなく、既存のテキスト検索リポジトリをマルチメディアアプリケーションに拡張できます。
内蔵エンコーダーはすべてオープンウェイトソースから派生したものです。画像と動画にはQwen3.5モデルのエンコーダーを使用しました。
jina-embeddings-v5-omni-nanoの場合、Qwen3.5-0.8Bの微調整されたSigLIP2 Baseエンコーダーを使用します。jina-embeddings-v5-omni-smallには、Qwen3.5-2Bの微調整されたSigLIP2 So400mエンコーダーを使用します。- 音声サポートのため、Qwen2.5-Omni-7Bから抽出したWhisper-large-v3のエンコーダーを、smallバージョンとnanoバージョンの両方に追加しました。
これらのメディア固有のエンコーダーを、訓練済みのクロスモーダルプロジェクターを備えたテキスト処理基盤に接続しました。これらのプロジェクターは、ネイティブ出力をjina-embeddings-v5-textと互換性のある入力埋め込みに変換します。jina-embeddings-v5-omniモデルで新たに学習された部分は、それらのプロジェクターの重みだけです。

jina-embeddings-v5-omni モデルの概略図。新しいトレーニングを受けたのはクロスメディアプロジェクターだけです。
このアーキテクチャーは、4つのLoRAアダプターのそれぞれに対して、jina-embeddings-v5-omni-small用に約550万、jina-embeddings-v5-omni-nano用に350万未満のクロスモデルプロジェクターのみをトレーニングする必要があることを意味します。このアプローチでは、異なる埋め込みモデルを接続するために必要な追加トレーニングを最小限に抑え、それぞれの専門的なトレーニングを活用することで、非常にコンパクトで高性能なモジュール式の埋め込みスイートを実現します。
選択されたモデルプロパティ
入力/出力
| モデル名 | 入力コンテキストウィンドウのサイズ | 埋め込みサイズ |
|---|---|---|
| jina-embeddings-v5-omni-small | 32,768トークン | 1024ディメンション(最小:32) |
| jina-embeddings-v5-omni-nano | 8,192 トークン* | 768次元(最小:32) |
* 非テキストメディアのトークン化方法については、以下のjina-embeddings-v5-omniの使用をご覧ください。
サイズ
| モデル名 | 合計サイズ |
|---|---|
| jina-embeddings-v5-omni-small(テキストのみの基本モデル+4つのLoRAアダプター) | 700M パラメータ |
| 画像/動画サポート(Qwen3.5-2Bから抽出したSigLIP2 So400Mエンコーダー) | 10.06億パラメーター |
| 音声サポート(Qwen2.5-Omni-7Bから抽出したWhisper-large-v3エンコーダー) | 13.54億パラメーター |
| 両方 | 16.60億パラメーター |
| LoRAアダプター(各) | 20M |
| jina-embeddings-v5-omni-nano(テキストのみの基本モデル+4つのLoRAアダプター) | 266M パラメータ |
| 画像/動画サポート(Qwen3.5-0.8Bから抽出したSigLIP2ベースエンコーダー) | 354M パラメータ |
| 音声サポート(Qwen2.5-Omni-7Bから抽出したWhisper-large-v3エンコーダー) | 916M パラメータ |
| 両方 | 1.004B パラメータ |
| LoRAアダプター(各) | 7M |
* 非テキストメディアのトークン化方法については、以下のjina-embeddings-v5-omniの使用をご覧ください。
タスク特化型トレーニング
jina-embeddings-v5-omniファミリーはjina-embeddings-v5-textと同じタスク固有のLoRAアダプタをサポートしています。
| タスク | 使用例 |
|---|---|
| 検索 | 情報検索は単独または他の検索および候補評価技術と組み合わせて行われます。v5-omniモデルでは、1つのインデックスから1回のクエリで音声、動画、画像を取得できます。 |
| クラスタリング | あらゆるメディアにおけるトピックの発見と自動的なトピック整理。 |
| 分類 | 分類、感情分析、関連する各種タスク。 |
| 意味的類似性 | メディア全体でのデータ重複除去、レコメンデーションシステム、関連メディア、音声に一致するテキストの検索、翻訳の識別、その他の類似タスク。 |
出力の埋め込みは選択されたタスクカテゴリに依存します。例えば、検索指向の埋め込みをクラスタリングに、または意味的類似性の埋め込みを分類に使用すべきではありません。
マルチメディア、マルチモーダル、多言語、多機能
jina-embeddings-v5-omni で何ができるかを示すために、2つの小説の有名な冒頭部分を取り上げて、それらの意味的類似性を測定してみましょう。
二都物語(チャールズ・ディケンズ)
高慢と偏見 (ジェーン・オースティン)
意味的類似性アダプターを備えたjina-embeddings-v5-omni-smallを使用すると、これらのテキストの類似度は0.5329です。
この数値は比較対象がなければあまり意味がないので、同じモデルとアダプターを使用して、これら2つのテキストをフランス語訳と比較してみましょう。
言語間のテキストの意味的類似度スコア
| 『二都物語』(英語) | 高慢と偏見(英語版) | |
|---|---|---|
| 二都物語(フランス語版)(Paris et Londres en 1783, tr. H. Loreau) | 0.9095 | 0.5074 |
| 高慢と偏見(フランス語版)(Orgueil et Préjugés,tr. Leconte et Pressoir) | 0.4826 | 0.8784 |
この2つのテキストは、同じ言語や別の言語の他のテキストよりも、翻訳との類似性がはるかに高いことを示しています。これは、jina-embeddings-v5-omni-smallに変更されずに含まれたjina-embeddings-v5-text-smallの非常に高性能な多言語セマンティック埋め込みを反映しています。
マルチメディアサポートをjina-embeddings-v5-omniに加えることで、この実験をまったく異なる種類のデータに拡張できるようになります。例えば、私たちは両方の小説の最初のページのスキャンを古い印刷版から入手しました。

図2: 二都物語、19世紀の年代不明版、および 高慢と偏見、1903年マクミラン版。
意味的類似性アダプターを再度使用して、両方のテキストをスキャン画像と比較してみましょう。
テキストと画像間の意味的類似度スコア
| 二都物語(スキャン) | 高慢と偏見(スキャン) | |
|---|---|---|
| 二都物語(テキスト) | 0.7336 | 0.4891 |
| 高慢と偏見(本文) | 0.4804 | 0.7213 |
意味的類似度スコアは、画像の内容に一致するテキストを強く支持することがわかります。
同じ設定を使用して、テキストをSNSの投稿のスクリーンショットやそれらのテキストを参照するミームと比較することもできます。


図3:イーロン・マスクのツイート( 『二都物語』に言及)と『高慢と偏見』の有名な冒頭シーンに言及したミーム。
テキストと画像間の意味的類似度スコア
| 二都物語 | 高慢と偏見 | |
|---|---|---|
| マスク氏のツイート(画像) | 0.7156 | 0.4912 |
| 「Keep calm」ミーム(画像) | 0.4555 | 0.6244 |
音声でも同じことができます。英語とフランス語の両テキストの朗読録音を入手しました。
- 二都物語 (英語音声:Librivox)
- 二都物語(フランス語音声、OmniVoice AI生成)。
- 高慢と偏見(フランス語音声、Librivox)。
- 高慢と偏見(フランス語音声、OmniVoice AI生成)。
異なる言語間のテキストと音声のセマンティック類似度スコア
| 『二都物語』(英語音声) | 二都物語(フランス語音声) | 高慢と偏見(英語音声) | 高慢と偏見(フランス語音声) | |
|---|---|---|---|---|
| 『二都物語』 (英語テキスト) | 0.3816 | 0.3106 | 0.1607 | 0.1774 |
| 二都物語(フランス語テキスト) | 0.3528 | 0.3253 | 0.1598 | 0.1721 |
| 高慢と偏見(英語テキスト) | 0.1910 | 0.1682 | 0.3511 | 0.3398 |
| 高慢と偏見(フランス語テキスト) | 0.1667 | 0.1474 | 0.3018 | 0.3702 |
この多言語・マルチメディア能力は情報検索にも及びます。
jina-embeddings-v5-omniモデルの検索アダプターは非対称検索を実装しています。これは、クエリを埋め込む方法が検索対象のドキュメントを埋め込む方法とは異なることを意味します。そのため、クロスモーダルクエリは常に一方向にあり、クエリが一方のメディアに、ドキュメントがもう一方のメディアにあるため、逆の場合とは異なるスコアが得られます。
以下の表は、二都物語と高慢と偏見のテキスト、音声、ページスキャン画像の検索スコアを示しています。これは、二都物語(英語)のテキストがクエリとしてエンコードされた場合です。
テキストからテキスト
| ドキュメント | 検索スコア |
|---|---|
| 二都物語(フランス語テキスト抜粋) | 0.7597 |
| 高慢と偏見(英語テキスト抜粋) | 0.1482 |
| 高慢と偏見(フランス語テキスト抜粋) | 0.0523 |
テキストから画像
| ドキュメント | 検索スコア |
|---|---|
| 二都物語(英語ページスキャン) | 0.5517 |
| 二都物語(フランス語ページスキャン) | 0.3576 |
| 高慢と偏見(英語ページスキャン) | 0.1917 |
テキストから音声
| ドキュメント | 検索スコア |
|---|---|
| 『二都物語』(英語音声) | 0.3277 |
| 二都物語(フランス語音声) | 0.1980 |
| 高慢と偏見(英語音声) | 0.1419 |
| 高慢と偏見(フランス語音声) | 0.1759 |
ユーザーは、クエリを逆向きに実行することもでき、音声からテキストへ、画像からテキストへの検索を行うことができます。
以下は、 二都物語の英語音声をクエリとして、さまざまなテキストをドキュメントとして使用した場合のスコアです。
画像からテキスト
| ドキュメント | 検索スコア |
|---|---|
| 二都物語(英語テキスト抜粋) | 0.3352 |
| 二都物語(フランス語テキスト抜粋) | 0.2650 |
| 高慢と偏見(英語テキスト抜粋) | 0.1626 |
| 高慢と偏見(フランス語テキスト抜粋) | 0.1385 |
そして、二都物語(英語版)の1ページ目のスキャン画像をクエリとして使用した場合のスコアは以下のとおりです。
音声からテキスト
| ドキュメント | 検索スコア |
|---|---|
| 二都物語(英語テキスト抜粋) | 0.5304 |
| 二都物語(フランス語テキスト抜粋) | 0.4845 |
| 高慢と偏見(英語テキスト抜粋) | 0.1467 |
| 高慢と偏見(フランス語テキスト抜粋) | 0.0761 |

動画検索
jina-embeddings-v5-omniの動画インデキシングと検索機能は、Elasticsearchデータベースに新たな機能をもたらしますが、テキストに適用される多くの同じ警告の対象となります。長編映画の単一の埋め込みを生成することは、非常に長い小説を埋め込むようなものです。詳細な情報が埋もれてしまい、結果として得られる埋め込みは、多くの非常に曖昧なクエリに適合する可能性があります。
指輪物語の全文(約50万語)を埋め込めば、探しているものが何であれ、ほとんどの検索クエリに対して適切な結果が得られる可能性が高いでしょう。同様に、2時間のハリウッド映画のインデックスを作成すると、誤ったマッチングが多く、詳細が完全に見落とされます。jina-embeddings-v5-omniは短いクリップに最適です。
この例では、1961年の映画ティファニーで朝食をの予告編をダウンロードしました。この予告編はわずか158秒で、パブリックドメインとなっています。予告編をインターネットアーカイブで見ることができます。

図4:ティファニーで朝食をの劇場ポスター。
PySceneDetectを使い、予告編を28のシーンに分割しました。長さは1.877秒(45フレーム)から18.393秒(441フレーム)までさまざまです。シーン検出は完璧ではありませんが、動画を検索しやすいように小さな断片に分割するのに十分な仕組みを提供します。次に、jina-embeddings-v5-omni-smallを使用して、28セグメントのそれぞれについてドキュメント埋め込みを生成しました。これにより、動画内の特定の要素を見つけるためのテキストクエリの有効性をテストすることができました。
例えば、「cat」を検索すると、上位3つの結果として次のクリップが返されました。猫が登場する唯一のシーンがトップで、スコアは0.1634です。

次に高い一致度は0.1237で、はるかに低い値です。

また、アクションをクエリすることもできます。「kiss」という文字列でクエリを実行すると、上位4つの一致結果にはすべてキスが含まれています。

クリップ3をご覧ください。スコアは0.2864です。



スコア:2番目のマッチ(0.2494)、3番目のマッチ(0.2099)、4番目のマッチ(0.2068)
また、「Buddy Ebsen」のように、一度しか表示されない動画に表示されているテキストを検索することもできます。jina-embeddings-v5-omni-small は0.3885というスコアで、次点の候補よりもかなり高い、最も一致する候補として容易に識別できます。

視覚的文書検索
Jina AIのマルチモーダル埋め込みモデルは、ビジュアルドキュメント処理においてトップパフォーマーであり、多言語ビジュアルドキュメント処理においては最先端です。これは、テキスト、図、構造化情報を含む画像データを扱うことを意味します。重要なデータは、印刷スキャン、PDFファイル、図、技術図面、スクリーンショット、画像、インフォグラフィックなどの形式で存在することがよくあります。これらの画像は、しばしば機械的に構成されたり、コンピューターで生成されたりします。それらは通常、意味を損なうことなくテキストに還元することはできず、自然な風景の撮影用に設計されたコンピュータビジョンモデルには適していません。
jina-embeddings-v5-omni埋め込みには、画像内の物体、それらに印刷されたテキスト、および両者の関係に関する情報が含まれます。視覚的文書検索により、物と関連テキストの両方を含むリッチ画像をインデックス化し、それを複数の言語間で行うことが可能になります。
例として、さまざまなECサイトから4つの商品画像を使ってみましょう。

では、「ラーメン」というクエリで jina-embeddings-v5-omni-small がこの4枚の画像をどれだけ評価しているか見てみましょう。
| Campbell’s Chunky Chicken Noodle(カナダ版パッケージ) | Kraft Dinner(カナダ版パッケージ) | マルちゃん味噌風味生ラーメン(日本版パッケージ) | Birkelスパゲッティ(ドイツ版パッケージ) |
|---|---|---|---|
| 0.0872 | 0.0711 | 0.1123 | 0.0886 |
日本の製品を一致としてすぐに見つけます。
ここで、「マカロニチーズ」(日本語のmacaroni and cheese)のクエリを試してみましょう。
| Campbell’s Chunky Chicken Noodle(カナダ版パッケージ) | Kraft Dinner(カナダ版パッケージ) | マルちゃん味噌風味生ラーメン(日本版パッケージ) | Birkelスパゲッティ(ドイツ版パッケージ) |
|---|---|---|---|
| 0.2207 | 0.3487 | 0.2760 | 0.2674 |
英語のクエリと同じくらい簡単に正しい一致を見つけます。
jina-embeddings-v5-omni また、チャートのような情報豊富な画像の解釈にも優れています。実際にどのように機能するかを確認するには、次の2つの棒グラフをご覧ください。


左側の図1は世界の疾病負担に関するもので、右側の図2は犬種ごとの寿命に関するものです。
検索にjina-embeddings-v5-omni-smallを使用した場合、それぞれが一方のチャートには関連するが両方のチャートには関連しない、2つの潜在的なテキスト質問がどれだけうまく一致するかを見てみましょう。
| テキストの質問 | チャート1 | グラフ 2 |
|---|---|---|
| 「高齢者によく見られる健康問題にはどのようなものがありますか?」 | 0.2787 | 0.1099 |
| 「犬の寿命は?」 | 0.1350 | 0.3564 |
画像をクエリとして使用して、テキストを検索する逆のプロセスも可能です。以下の表は、関連する科学論文の要約から抽出された対象文書と、グラフ画像をクエリとして使用した場合の検索スコアを示しています。
| テキスト1 | テキスト 2 | |
|---|---|---|
| 極度の貧困の中で暮らす人々の健康は、長年にわたり世界の開発努力の焦点となっており、持続可能な開発目標の時代においても引き続き優先事項となっています。しかし、この特定の集団における負担の規模と原因を定量化するための体系的な試みは、ほぼ20年間行われていません。私たちは、世界で最も貧しい10億人を対象に、原因別の疾病率を推定し、高所得層の疾病率と比較しました。 | コンパニオンドッグは表現型が最も多様な種の一つです。品種間のばらつきは形態や行動の側面だけでなく、寿命にも及びます。この事実にもかかわらず、品種間の平均余命のばらつきを評価したり、長寿の系統的特徴の可能性を評価したりする研究はほとんど行われていません。 | |
| チャート1 | 0.2377 | 0.1357 |
| グラフ 2 | 0.0673 | 0.3576 |
特徴
切り捨て可能な埋め込み
jina-embeddings-v5-omni を支える基盤jina-embeddings-v5-text モデルをマトリョーシカ表現学習でトレーニングしたので、これらのモデルからテキストとマルチメディアの埋め込みを切り捨てることができます。
デフォルトでは、 jina-embeddings-v5-omni-small 1024次元の埋め込みを生成し、16ビット精度で保存するために2KBの容量を必要とします。jina-embeddings-v5-omni-nanoの埋め込みは768次元で、約1.5KBを占めます。これらの埋め込みのサイズを32次元(64バイト)に縮小することができます。これにより、精度は若干低下しますが、処理速度は大幅に向上し、リソースコストも削減されます。一般に、埋め込みサイズを半分に減らすと、精度が約2%低下して128次元になり、それを下回ると精度がはるかに速く低下します。
切り捨て可能な埋め込みにより、ユーザーはそれぞれのユースケースに応じて、精度、速度、コストの最適なトレードオフを決定できます。
量子化
jina-embeddings-v5-omniファミリーは、 jina-embeddings-v5-text基盤から量子化に対する堅牢なパフォーマンスも継承しています。これにより、処理速度がさらに向上し、より精度の低い数値を格納することで計算とストレージのコストが削減されます。これらのモデルは Elasticsearchの Better Binary Quantization(BBQ)と連携するように訓練されており、量子化されていない埋め込みとほぼ同じ性能を提供します。Massive Text Embedding Benchmark(MTEB)の検索ベンチマークスイートでは、バイナリ化によるパフォーマンス低下は16ビットの完全な値を使用した場合と比較して3%未満にとどまり、同時に93%のスペースを節約し、処理速度と検索速度を劇的に向上させます。
言語間パフォーマンス
jina-embeddings-v5-textの広範な多言語トレーニングは jina-embeddings-v5-omni にも引き継がれ、jina-embeddings-v5-text-small の事前トレーニングでは約100の言語、jina-embeddings-v5-text-nano では15の主要なグローバル言語がサポートされています。音声メディアの場合、 Whisper-large-v3モデルはトレーニングに約100言語を使用しており、 jina-embeddings-v5-omni-smallおよび-nanoに統合されているQwen-modified SigLip2ビジョンモデルは 201種類の言語と方言のデータを使用してトレーニングされています。
ベンチマーク性能
テキスト
jina-embeddings-v5-omni テキストのみに使用する場合、これらのモデルはjina-embeddings-v5-textモデルと同一です。セマンティックテキスト埋め込みのMMTEBベンチマークスイートにおいて、それぞれのサイズカテゴリーでトップパフォーマンスを示しています。

図5:テキストベンチマークでの jina-embeddings-v5-omni のサイズとパフォーマンス、競合モデルとの比較。記載されているサイズは、他のメディアの読み込み拡張機能を含まないサイズです。
視覚的な意味的類似性
標準的な視覚的意味的類似性ベンチマークにおいて、jina-embeddings-v5-omni はそのサイズに近いモデルの中で最高のスコアを出しています。jina-embeddings-v5-omni モデルは、同等のサイズの公開オープンウェイトモデルの中で圧倒的に最良の性能を示しています。jina-embeddings-v5-omni-smallは視覚的意味的類似性タスクにおいて、その3倍のサイズのモデルにしか負けず、 jina-embeddings-v5-omni-nanoはjina-embeddings-v5-omni-smallと10~25倍のサイズのモデルにしか負けません。

図6:jina-embeddings-v5-omni-small、jina-embeddings-v5-omni-nano、および比較対象モデルの視覚的意味的類似性ベンチマーク平均スコア、ならびに視覚拡張機能を含むそれらのサイズ。
視覚的文書検索
jina-embeddings-v5-omni-small は、10億パラメーター未満でありながら、30億パラメーターおよび70億パラメーターのモデルに匹敵します。jina-embeddings-v5-omni-nanoも同様にそのサイズで際立っており、10倍から60倍も大きいモデルを凌駕しています。

図7 :6つのベンチマーク(DocVQA、InfoVQA、ShiftProj、SynAI、Tabfquad、TatDQA)におけるViDoRe視覚文書検索の平均スコア。
音声検索
標準的なMAEB(Massive Audio Embedding Benchmark)音声検索ベンチマークにおいて、jina-embeddings-v5-omni-smallとjina-embeddings-v5-omni-nanoはどちらもトップクラスのパフォーマンスを発揮しています。非常に大きなモデルのみ – jina-embeddings-v5-omni-smallの3倍以上のサイズ – がそのスコアを上回ります。

図8:MAEB音声検索ベンチマークにおけるさまざまなモデルの平均スコア。
LAIONのlarger_clap_general モデルは、jina-embeddings-v5-omni-nanoのスコアをより少ないパラメーターで改善していますが、v5-omniスイートの追加マルチモーダル機能は何もない、音声のみのモデルです。
動画
動画では、jina-embeddings-v5-omni-smallがテキストクエリに合致する場所を見つけることに優れています。Charades-STAとMomentSeekerテストは、このタスクの標準的なベンチマークであり、下のグラフからjina-embeddings-v5-omni-smallがサイズがはるかに小さいにもかかわらず、同等のオープンウェイトモデルの中で最高のスコアを獲得していることがわかります。

図9:さまざまなモデルのサイズと、それらのモデルに対するCharades-STAスコア。

図10:さまざまなモデルのMomentSeekerスコアとそれらのサイズ。
また、 jina-embeddings-v5-omni-small ByteDanceのSeed 1.6と比較しました。Seed 1.6は、パラメータ数が非公開のクローズドウェイトモデルです。私たちのモデルは、Charades-STAベンチマークではSeed 1.6を大きくBeatsし、MomentSeekerではほぼ同等です。
| モデル | Charades-STAのスコア | MomentSeekerスコア |
|---|---|---|
| seed-1.6-embedding | 29.30 | 59.30 |
| jina-embeddings-v5-omni-small | 55.57 | 58.93 |
強みと制限事項
jina-embeddings-v5-omni モデルは、特に以下のようなさまざまな方法で、ユーザーがデジタル化された情報をインデックス化、検索、分析する能力を拡張します。
- テキストクエリからの多言語音声検索。
- PDF、スキャン、視覚的文書検索。
- 動画の時間的グラウンディング、つまり、自然言語のテキスト記述と一致する動画の部分を特定すること。
- 音楽ジャンルを含むオーディオジャンルの分類。
- シーン情報とオブジェクト識別に基づく画像分類。
他のいくつかの分野では、パフォーマンスはやや劣ります。jina-embeddings-v5-omni を使ってこれらの作業をすることは可能かもしれませんが、そのためのトレーニングはしていませんし、結果は芳しくないかもしれません。
当社は以下の分野における技術向上に積極的に取り組んでいます。
- 自然言語の説明から特定の動画を見つけること。
- 画像間の意味類似性と検索。
- 音声における意図の分類、例えば音声コマンドの認識など。
- 画像とそれに付随するテキスト、または音声、画像、テキストを組み合わせたものなど、複数のメディアからの入力を処理。
jina-embeddings-v5-omni
このモデルスイートは、テキスト、音声、画像と動画を組み合わせた入力という3つの入力方法をサポートしています。jina-embeddings-v5-omniは、幅広い標準フォーマットを変換し、他の前処理を行うフレームワーク内で動作します。
画像処理には、最初のSigLip2リリースで提供されたNaFlex方式と同じものを使用します。入力画像が262,144ピクセル(512x512に相当)より小さい場合は、その最小値を超えるまで拡大されます。また、3,072,000ピクセルより大きい場合は、その最大値より小さくなるまで縮小されます。変換プロセスでは、画像の高さと幅の両方が14ピクセルの倍数になるように調整し、縦横比の歪みを最小限に抑えてその目標を達成します。結果は28×28ピクセルのパッチに分割されます。そのため、パッチの総数は画像を覆うために必要な28×28の正方形の数になります。推論時には各パッチは単一のトークンとして扱われ、各画像入力には単一の画像を区切るための特別な開始トークンと終了トークンが付随します。

Omniの警告
jina-embeddings-v5-omni モデルは、画像を変更するのと同じ方法で動画の解像度を変更し(上記を参照)、動画から最大32フレームを抽出します。動画に32フレーム以上ある場合(標準フォーマットは通常1秒あたり少なくとも24フレームなので、その可能性は高い)、抽出するフレームを均等な間隔で配置します。そして、動画プリプロセッサは、2フレームごとに、動画全体をカバーするのに必要な28×28ピクセルの正方形の数に等しいトークンのセットを1つ生成します。

図11: jina-embeddings-v5-omniは動画から等間隔の32フレームを抽出します。長い動画だと多くの部分が失われてしまいます。
動画の前処理の詳細については、 SigLip2の技術文書をご覧ください。
音声トークン化は、Qwen-2.5-Omniに組み込まれているアプローチに従います。音声ファイルは30秒ごとに分割され、30秒を超える場合は16kHzにリサンプリングされ、128チャンネルのメルスペクトログラムに変換されます。各40ミリ秒が単一のトークンとして扱われます。そのため、30秒のセグメントごとに750トークンが処理されます。これは1トークンが40ミリ秒の音声に相当し、さらに1サンプルを区切るための特別な開始トークンと終了トークンが追加されます。
音声前処理の詳細については、Qwen-2.5-Omni Technical Reportをご覧ください。
可用性
はじめに
EISで jina-embeddings-v5-omni モデルを使用するには、インデックスを作成し、type フィールドを semantic_text (メディアがすべてテキストではない場合でも)に設定し、inference_id フィールドで jina-embeddings-v5-omni-small または jina-embeddings-v5-omni-nano を指定します。EISはインデキシングと検索のためのLoRAアダプターを自動的に選択します。
テキストの場合、手順はjina-embeddings-v5-textと同じです。
他のメディアを入力するには、まずそれをBase64文字列に変換し、その文字列をテキストに使用するのと同じフィールドに入力してください。
マルチメディアクエリについても同様の手順を実行します。
Jina API経由でアクセスするには、Jina AIのWebサイトをご覧ください。
分類器、クラスタリングや意味的類似性アダプターを使用するため、あるいは埋め込みをカスタムサイズに切り詰めるためには、プロジェクト用にカスタム推論エンドポイントを作成し、Jina AIモデルへの接続とパラメーターを渡すための指示に従ってください。
jina-embeddings-v5-omniでBBQを使用するには、BBQインデキシングの説明に従います。
詳細情報
jina-embeddings-v5-omniの詳細については、モデルの技術レポートおよびJina AI Webサイトのページをご覧ください。Hugging Faceのjina-embeddings-v5-omniコレクションページには、これらのモデルのローカルダウンロードや運用方法の技術情報や手順も掲載されています。jina-embeddings-v5-omniモデルはCC-BY-NC-4.0ライセンスの下でダウンロードでき、自由に試用できますが、商用利用の場合はElasticの営業担当までお問い合わせください。




