jina-embeddings-v5-omni vereint Text, Bilder, Video und Audio in einem einzigen Elasticsearch-Index. Die v5-omni-Suite erweitert die bestklassigen jina-embeddings-v5-text-Modelle und fügt visuelle und akustische Codierung durch eine innovative Architektur hinzu, die das Text-Backbone identisch lässt und so eine erstklassige Leistung in einem sehr kompakten Einbettungsmodell bietet.
Sie können jetzt leistungsstarke semantische Einbettungen für Text, Bilder, Videos und Audioaufnahmen in fast 100 Sprachen erstellen und sie für Klassifikation, Clustering, semantische Ähnlichkeitsmessung und Indexierung für den Abruf verwenden. Wenn Ihre Daten neben Texten auch in PDFs, Aufnahmen und Videos vorliegen, benötigen Sie keine separaten Pipelines mehr für jedes Format.
Die jina-embeddings-v5-omni-Familie ist das derzeit kompakteste Einbettungsmodell auf dem Markt und unterstützt Bilder, Sprache, Print und Video. Es bietet:
jina-embeddings-v5-texts erstklassige Texteinbettungen für Abruf-, Analyse- und KI-Agentenanwendungen.- Erstklassige Einbettungen für visuelle semantische Ähnlichkeit, visuelles Verständnis und Bildabruf.
jina-embeddings-v5-omni-smallerzielt die beste Performance bei Bild-Benchmarks aller Modelle mit 1 Milliarde (10⁹) Parametern und ist unserem vorherigen Modelljina-clip-v2überlegen. Nur wenige Modelle mit drei- bis dreißigmal so vielen Parametern können da mithalten. - Modernste Einbettungen für mehrsprachiges visuelles Verständnis und Abruf, die Modelle übertreffen, die bis zu 20-mal größer sind.
- Erstklassige Audioeinbettungen, wobei nur Modelle, die die doppelte oder mehr Anzahl von Parametern haben, bei Standard-Benchmarks besser abschneiden.
- Unterstützung für Video, insbesondere zur Lokalisierung von Objekten und Ereignissen in Aufnahmen.
Dies findet Anwendung in allen Bereichen des Informationsabrufs, der Dokumentenverarbeitung und der Datenanalyse. jina-embeddings-v5-omni ermöglicht den Zugriff auf Informationen, die in verschiedenen Mediensilos eingeschlossen sind, und macht sie für den Abruf, die Analyse und die Nutzung durch KI-Agenten zugänglich. Informationen in Audio- und Videoaufnahmen, PDF-Dateien, gedruckten Seitenscans und Infografiken stehen auf einer Ebene mit digitalisierten Texten in Ihrem Datenökosystem.
Genau wie jina-embeddings-v5-text gibt es auch diese Modelle in zwei Größen: small und nano. Beide Modelle erweitern ihr jeweiliges Textäquivalent um zusätzliche Module, die Audio- und visuelle Eingaben unterstützen. Nutzer können Module beim Laden auswählen. Zusätzlich werden aufgabenspezifische Erweiterungen für semantische Ähnlichkeit, Klassifikation, Clustering und Informationsabruf als kompakte Low-Rank-Adapter (LoRAs) implementiert und so geladen, dass Nutzer sie zur Inferenzzeit auswählen können.
Beide Modelle sind sehr kompakt. jina-embeddings-v5-omni-small kann auf herkömmlichen GPU-fähigen Servern ausgeführt werden, und jina-embeddings-v5-omni-nano ist klein genug, um auf Standardhardware zu laufen. Dies birgt ein großes Einsparpotenzial bei den Rechenkosten und ermöglicht die lizenzierte lokale Installation und Edge-Verarbeitung, wodurch die Latenz reduziert und Ihre Kontrolle über Ihre eigenen Daten erhöht wird.
Die v5-omni-Suite nutzt innovative Modelldesign- und Machine-Learning-Techniken, um neue Einbettungsmodelle aus bereits trainierten Modellen zusammenzustellen, ohne sie neu trainieren zu müssen. Wir verwenden Encoder aus vortrainierten, sprachorientierten Einbettungsmodellen für Audio- und Videomedien als Eingabe-Präprozessoren für unsere bestehende jina-embeddings-v5-text-Modellsuite. Die resultierenden Modelle erzeugen Einbettungen für Bilder und Tonaufnahmen, die semantisch mit den Einbettungen für Texte kompatibel sind.
Die v5-omni-Modelle erzeugen Texteinbettungen, die identisch mit jina-embeddings-v5-text sind (also jina-embeddings-v5-omni-small mit jina-embeddings-v5-text-small und jina-embeddings-v5-omni-nano mit jina-embeddings-v5-text-nano), sodass Sie bestehende Textabruf-Repositories auf multimediale Anwendungen erweitern können, ohne Ihre Indizes neu aufbauen zu müssen.
Die integrierten Encoder stammen alle aus offenen Quellen. Für Bilder und Videos haben wir Encoder von Qwen3.5-Modellen verwendet:
- Für
jina-embeddings-v5-omni-nanoist der fein abgestimmte SigLIP2-Basis-Encoder von Qwen3.5-0.8B. - Für
jina-embeddings-v5-omni-smallder fein abgestimmte SigLIP2 So400m-Encoder von Qwen3.5-2B. - Zur Audio-Unterstützung haben wir den Encoder von Whisper-large-v3, der aus Qwen2.5-Omni-7B extrahiert wurde, sowohl für die kleine als auch für die Nano-Version hinzugefügt.
Wir haben diese medienspezifischen Encoder mithilfe trainierter cross-modaler Projektoren mit dem Backbone der Textverarbeitung verbunden. Diese Projektoren übersetzen ihre nativen Ausgänge in Eingangseinbettungen, die mit jina-embeddings-v5-text kompatibel sind. Die einzigen neu trainierten Teile der jina-embeddings-v5-omni-Modelle sind die Gewichte in diesen Projektoren.

Schematische Darstellung der jina-embeddings-v5-omni-Modelle. Nur die medienübergreifenden Projektoren haben ein neues Training.
Diese Architektur bedeutet, dass wir nur die modellübergreifenden Projektoren trainieren müssen, ungefähr 5,5 Millionen Parameter für jina-embeddings-v5-omni-small und unter 3,5 Millionen für jina-embeddings-v5-omni-nano, für jeden der vier LoRa-Adapter. Dieser Ansatz minimiert den zusätzlichen Trainingsaufwand, der für die Verbindung verschiedener Einbettungsmodelle erforderlich ist, und nutzt das spezialisierte Training der einzelnen Modelle, um eine extrem kompakte, leistungsstarke und modulare Einbettungssuite zu erstellen.
Ausgewählte Modelleigenschaften
Eingang/Ausgang
| Modellname | Größe des Eingangskontextfensters | Einbettungsgröße |
|---|---|---|
| jina-embeddings-v5-omni-small | 32.768 Token* | 1024 Dimensionen (Minimum: 32) |
| jina-embeddings-v5-omni-nano | 8.192 Token* | 768 Dimensionen (Minimum: 32) |
* Unter Using jina-embeddings-v5-omni unten erfahren Sie mehr darüber, wie nicht-textbezogene Medien tokenisiert werden.
Größe
| Modellname | Gesamtgröße |
|---|---|
| jina-embeddings-v5-omni-small (nur Text, Basismodell + 4 LoRA-Adapter) | 700 Mio. Parameter |
| Bild-/Video-Unterstützung (SigLIP2 So400m-Encoder extrahiert aus Qwen3.5-2B) | 1.006B Parameter |
| Audiounterstützung (Whisper-large-v3-Encoder, extrahiert aus Qwen2.5-Omni-7B) | 1,354 Mrd. Parameter |
| beide | 1,660 Mrd. Parameter |
| LoRA-Adapter (jeweils) | 20 Mio. |
| jina-embeddings-v5-omni-nano (nur textbasiertes Basismodell + 4 LoRA-Adapter) | 266 Mio. Parameter |
| Bild-/Videounterstützung (SigLIP2-Basis-Encoder, extrahiert aus Qwen3.5-0.8B) | 354 Mio. Parameter |
| Audiounterstützung (Whisper-large-v3-Encoder, extrahiert aus Qwen2.5-Omni-7B) | 916 Mio. Parameter |
| beide | 1.004B Parameter |
| LoRA-Adapter (jeweils) | 7 Mio. |
* Unter Using jina-embeddings-v5-omni unten erfahren Sie mehr darüber, wie nicht-textbezogene Medien tokenisiert werden.
Aufgabenspezifisches Training
Die jina-embeddings-v5-omni-Familie unterstützt die gleichen aufgabenspezifischen LoRA-Adapter wie jina-embeddings-v5-text:
| Aufgabe | Anwendungsbeispiele |
|---|---|
| Abruf | Informationsabruf, allein oder in Verbindung mit anderen Abruf- und Kandidatenbewertungstechniken. Mit den v5-omni-Modellen können Sie Audio, Video und Bilder in einer einzigen Abfrage aus einem Index abrufen. |
| Clustering | Themenfindung und automatische Themenorganisation in allen Medien. |
| Klassifizierung | Kategorisierung, Stimmungsanalyse und ähnliche Aufgaben. |
| Semantische Ähnlichkeit | Deduplizierung von Daten in verschiedenen Medien, Empfehlungssystemen, verwandten Medien, Suchen nach Texten, die zur Sprache passen, Identifizierung von Übersetzungen und ähnlichen Aufgaben. |
Ausgangseinbettungen hängen von der ausgewählten Aufgabenkategorie ab. Zum Beispiel sollte man keine abruforientierten Einbettungen für Clustering oder semantische Ähnlichkeitseinbettungen für die Klassifikation verwenden.
Multimedia, multimodal, mehrsprachig, multifunktional
Um zu zeigen, was jina-embeddings-v5-omni kann, nehmen wir die berühmten Anfangspassagen zweier Romane und messen ihre semantische Ähnlichkeit:
A Tale of Two Cities (Charles Dickens)
Pride and Prejudice (Jane Austen)
Mit jina-embeddings-v5-omni-small und seinem semantischen Ähnlichkeitsadapter haben diese Texte eine Ähnlichkeit von 0,5329.
Diese Zahl ist ohne Vergleichswert wenig aussagekräftig. Vergleichen wir daher diese beiden Texte mit ihren französischen Übersetzungen unter Verwendung desselben Modells und Adapters:
Semantische Ähnlichkeitswerte für Texte in verschiedenen Sprachen
| A Tale of Two Cities (Englisch) | Pride and Prejudice (Englisch) | |
|---|---|---|
| Tale of Two Cities (Französisch) (Paris et Londres en 1783, tr. H. Loreau) | 0,9095 | 0,5074 |
| Pride and Prejudice (Französisch) (Orgueil et Préjugés, tr. Leconte et Pressoir) | 0,4826 | 0,8784 |
Die beiden Texte zeigen eine viel größere Ähnlichkeit zu ihren Übersetzungen als zu anderen Texten in derselben Sprache oder in einer anderen. Dies spiegelt die sehr leistungsstarken mehrsprachigen semantischen Einbettungen von jina-embeddings-v5-text-small wider, die unverändert in jina-embeddings-v5-omni-small enthalten sind.
Die Hinzufügung von Multimedia-Unterstützung zu jina-embeddings-v5-omni bedeutet, dass wir dieses Experiment auf ganz andere Datentypen ausweiten können. Wir haben z. B. Scans der ersten Seiten beider Romane aus alten Druckausgaben angefertigt:

Abbildung 2: Tale of Two Cities, undatierte Ausgabe aus dem 19. Jahrhundert, und Pride and Prejudice, Macmillan-Ausgabe von 1903.
Vergleichen wir nun beide Texte mit den Scans, wiederum unter Verwendung des semantischen Ähnlichkeitsadapters:
Semantische Ähnlichkeitswerte zwischen Texten und Bildern
| A Tale of Two Cities (Scan) | Pride and Prejudice (Scan) | |
|---|---|---|
| Tale of Two Cities (Text) | 0,7336 | 0,4891 |
| Pride and Prejudice (Text) | 0,4804 | 0,7213 |
Man sieht, dass semantische Ähnlichkeitswerte Texte, die mit Bildinhalten übereinstimmen, stark bevorzugen.
Wir können die Texte auch mit einem Screenshot eines Beitrags in den sozialen Medien und einem Meme, das sich auf diese Texte bezieht, vergleichen, indem wir dasselbe Setup verwenden:


Abbildung 3: Ein Tweet von Elon Musk, der A Tale of Two Cities referenziert, und ein Meme, das auf den berühmten Anfang von Pride and Prejudice anspielt.
Semantische Ähnlichkeitswerte zwischen Texten und Bildern
| A Tale of Two Cities | Stolz und Vorurteil | |
|---|---|---|
| Musk-Tweet (Bild) | 0,7156 | 0,4912 |
| Meme „Keep calm“ (Bild) | 0,4555 | 0,6244 |
Dasselbe können wir auch für die Sprache tun. Uns liegen Aufnahmen von Lesungen beider Texte vor, sowohl in Englisch als auch in Französisch:
- A Tale of Two Cities (englische Audioausgabe von Librivox).
- A Tale of Two Cities (französisches Audio erzeugt von OmniVoice KI).
- Pride and Prejudice (englische Audioausgabe von Librivox).
- Pride and Prejudice (französisches Audio generiert von OmniVoice KI).
Semantische Ähnlichkeitswerte zwischen Texten und Audiodateien in verschiedenen Sprachen
| A Tale of Two Cities (englisches Audio) | A Tale of Two Cities (Französisches Audio) | Pride and Prejudice (englisches Audio) | Pride and Prejudice (Französisches Audio) | |
|---|---|---|---|---|
| A Tale of Two Cities (englischer Text) | 0,3816 | 0,3106 | 0,1607 | 0,1774 |
| A Tale of Two Cities (französischer Text) | 0,3528 | 0,3253 | 0,1598 | 0,1721 |
| Pride and Prejudice (englischer Text) | 0,1910 | 0,1682 | 0,3511 | 0,3398 |
| Pride and Prejudice (französischer Text) | 0,1667 | 0,1474 | 0,3018 | 0,3702 |
Diese mehrsprachige und multimediale Fähigkeit erstreckt sich auch auf das Abrufen von Informationen.
Die Abrufsadapter für die jina-embeddings-v5-omni-Modelle implementieren einen asymmetrischen Abruf. Das bedeutet, dass Abfragen anders eingebettet werden als bei den Abruf-Zieldokumenten, sodass cross-modale Abfragen immer in eine Richtung gehen, mit Abfragen in einem Medium und Dokumenten in einem anderen, was andere Werte als beim Umkehren ergibt.
Die untenstehenden Tabellen zeigen die Abrufwerte für Text-, Audio- und Seiten-Scans von A Tale of Two Cities und Pride and Prejudice, wenn der Text aus A Tale of Two Cities (auf Englisch) als Abfrage codiert wird:
Text zu Text
| Dokument | Abrufbewertung |
|---|---|
| A Tale of Two Cities (französischer Textauszug) | 0,7597 |
| Stolz und Vorurteil (englischer Textauszug) | 0,1482 |
| Pride and Prejudice (französischer Textauszug) | 0,0523 |
Text zu Bild
| Dokument | Abrufbewertung |
|---|---|
| A Tale of Two Cities (englischer Seitenscan) | 0,5517 |
| A Tale of Two Cities (Französischer Seitenscan) | 0,3576 |
| Pride and Prejudice (englischer Seitenscan) | 0,1917 |
Text zu Audio
| Dokument | Abrufbewertung |
|---|---|
| A Tale of Two Cities (englisches Audio) | 0,3277 |
| A Tale of Two Cities (Französisches Audio) | 0,1980 |
| Pride and Prejudice (englisches Audio) | 0,1419 |
| Pride and Prejudice (Französisches Audio) | 0,1759 |
Nutzer können die Abfrage auch umgekehrt ausführen, indem sie Audio-zu-Text und Bild-zu-Text-Abfragen durchführen.
Nachfolgend sind die Bewertungen unter Verwendung des englischen Audios von A Tale of Two Cities als Abfrage und verschiedener Texte als Dokumente aufgeführt.
Bild zu Text
| Dokument | Abrufbewertung |
|---|---|
| A Tale of Two Cities (englischer Textauszug) | 0,3352 |
| A Tale of Two Cities (französischer Textauszug) | 0,2650 |
| Stolz und Vorurteil (englischer Textauszug) | 0,1626 |
| Pride and Prejudice (französischer Textauszug) | 0,1385 |
Und die Scores unter Verwendung eines Scans der ersten Seite von A Tale of Two Cities (auf Englisch) als Abfrage:
Audio zu Text
| Dokument | Abrufbewertung |
|---|---|
| A Tale of Two Cities (englischer Textauszug) | 0,5304 |
| A Tale of Two Cities (französischer Textauszug) | 0,4845 |
| Stolz und Vorurteil (englischer Textauszug) | 0,1467 |
| Pride and Prejudice (französischer Textauszug) | 0,0761 |

Videosuche
Die Funktionen des jina-embeddings-v5-omnifür Video-Indexierung und -Suche integrieren neue Funktionen in Elasticsearch-Datenbanken, unterliegen jedoch vielen der gleichen Warnungen, die auch für Texte gelten. Die Generierung einer einzelnen Einbettung für einen langen Film ist wie die Einbettung eines sehr langen Romans: Detaillierte Informationen gehen unter, und die resultierende Einbettung wird für viele sehr unpassende Abfragen eine gute Übereinstimmung sein.
Wenn Sie den gesamten Text von Lord of the Rings (~500.000 Wörter) einbetten, ist das wahrscheinlich ein guter Treffer für die meisten Suchanfragen, egal, wonach Sie suchen. Ebenso erhalten Sie bei der Indizierung eines zweistündigen Hollywood-Films viele sporadische Übereinstimmungen und völlig übersehene Details. jina-embeddings-v5-omni ist optimal für kurze Clips.
Für dieses Beispiel haben wir den Trailer zum 1961 erschienenen Film Breakfast At Tiffany’s heruntergeladen, der nur 158 Sekunden lang und gemeinfrei ist. Den Trailer können Sie im Internet Archive ansehen.

Abbildung 4: Das Kinoplakat für Breakfast at Tiffany’s.
Wir haben PySceneDetect verwendet, um den Trailer in 28 einzelne Szenen aufzuteilen, mit Längen von 1,877 Sekunden (45 Frames) bis 18,393 Sekunden (441 Frames). Die Szenenerkennung ist zwar nicht perfekt, bietet aber einen ausreichenden Mechanismus, um Videos in überschaubare Abschnitte für die spätere Wiedergabe zu unterteilen. Dann haben wir Dokument-Einbettungen für jedes der 28 Segmente mit jina-embeddings-v5-omni-small erstellt, um die Wirksamkeit von Textabfragen beim Finden bestimmter Elemente im Video testen zu können.
Zum Beispiel lieferte die Suche nach „Katze“ die folgenden Clips als die drei besten Ergebnisse. Die eine Szene mit einer Katze darin ist ganz oben, mit einem Score von 0,1634:

Sehen Sie sich den ersten Clip an.
Das nächsthöchste Match, mit einem Score von 0,1237, ist deutlich niedriger:

Sehen Sie sich den zweiten Clip an.
Sie können auch nach Aktionen abfragen. Bei einer Suchanfrage mit der Zeichenfolge „Kuss“ enthalten die ersten vier Treffer alle das Wort „Küsse“:

Sehen Sie sich den dritten Clip an. Sein Score liegt bei 0,2864.



Scores: Jeweils für den zweiten Treffer (0,2494), den dritten Treffer (0,2099) und den vierten Treffer (0,2068)
Und Sie können nach Texten suchen, die in Videos angezeigt werden, wie zum Beispiel nach „Buddy Ebsen“, der nur einmal vorkommt. jina-embeddings-v5-omni-small identifiziert es sofort als das beste Match mit einem Score von 0,3885, deutlich höher als das nächstbeste Match:

Visuelles Abrufen von Dokumenten
Die multimodalen Einbettungsmodelle von Jina AI sind führend in der visuellen Dokumentenverarbeitung und auf dem neuesten Stand der Technik in der mehrsprachigen visuellen Dokumentenverarbeitung. Dies bedeutet die Verarbeitung von Bilddaten, die Text, Abbildungen und strukturierte Informationen enthalten. Wichtige Daten liegen oft in Form von Ausdrucken, Scans, PDF-Dateien, Diagrammen, technischen Zeichnungen, Screenshots, Bildern, Infografiken und Ähnlichem vor. Solche Bilder sind oft mechanisch zusammengestellt oder computergeneriert. Sie können in der Regel nicht ohne Bedeutungsverlust auf Text reduziert werden und eignen sich schlecht für Computer-Vision-Modelle, die für die Fotografie natürlicher Szenen entwickelt wurden.
jina-embeddings-v5-omniDie Einbettungen umfassen Informationen über die Dinge im Bild, den darauf gedruckten Text und die Beziehungen zwischen den beiden. Die visuelle Dokumentensuche ermöglicht es, reichhaltige Bilder zu indizieren, die sowohl Objekte als auch relevanten Text in verschiedenen Sprachen enthalten.
Als Beispiel verwenden wir vier Produktbilder von verschiedenen E-Commerce-Websites:

Schauen wir uns nun an, wie gut jina-embeddings-v5-omni-small diese vier Bilder für die Abfrage „Ramen-Nudeln“ bewertet:
| Campbell’s Chunky Chicken Noodle (kanadische Verpackung) | Kraft Dinner (kanadische Verpackung) | Maruchan Miso Flavour Fresh Ramen (japanische Verpackung) | Birkel Spaghetti (Deutsche Verpackung) |
|---|---|---|---|
| 0,0872 | 0,0711 | 0,1123 | 0,0886 |
Es findet problemlos das japanische Gegenstück.
Versuchen wir nun eine Abfrage nach „マカロニチーズ“ (japanisch für Makkaroni und Käse):
| Campbell’s Chunky Chicken Noodle (kanadische Verpackung) | Kraft Dinner (kanadische Verpackung) | Maruchan Miso Flavour Fresh Ramen (japanische Verpackung) | Birkel Spaghetti (Deutsche Verpackung) |
|---|---|---|---|
| 0,2207 | 0,3487 | 0,2760 | 0,2674 |
Es findet die korrekte Übereinstimmung mit der gleichen Leichtigkeit wie eine englische Abfrage.
jina-embeddings-v5-omni zeichnet sich auch durch das Verständnis von informativen Bildern wie Diagrammen aus. Um dies in Aktion zu erleben, schauen Sie sich diese beiden Balkendiagramme an:


Zwei Diagramme, Diagramm 1 links über die globale Krankheitslast, und Diagramm 2 rechts über die Lebensdauer von Hunderassen.
Mal sehen, wie gut sie zwei mögliche Textfragen abgleichen, die jeweils für eines, aber nicht für beide Diagramme relevant sind, wobei jina-embeddings-v5-omni-small für den Abruf verwendet wird:
| Textfrage | Diagramm 1 | Diagramm 2 |
|---|---|---|
| „Was sind häufige medizinische Probleme bei älteren Menschen?“ | 0,2787 | 0,1099 |
| „Wie lange leben Hunde?“ | 0,1350 | 0,3564 |
Sie können die Suche auch umkehren und Bilder als Suchbegriffe verwenden, um Texte zu finden. Die folgende Tabelle zeigt die aus den Abstracts thematisch verwandter wissenschaftlicher Arbeiten extrahierten Zieldokumente und ihre Abrufergebnisse, wobei die Diagrammbilder als Abfragen verwendet wurden:
| Text 1 | Text 2 | |
|---|---|---|
| Die Gesundheit von Menschen, die in extremer Armut leben, steht seit Langem im Mittelpunkt der globalen Entwicklungsbemühungen und hat auch in der Ära der nachhaltigen Entwicklungsziele weiterhin Priorität. Allerdings gab es seit fast zwei Jahrzehnten keinen systematischen Versuch, das Ausmaß und die Ursachen der Belastung in dieser speziellen Bevölkerungsgruppe zu quantifizieren. Wir haben die Krankheitsraten nach Ursachen für die ärmste Milliarde Menschen der Welt geschätzt und diese Raten mit denen in Bevölkerungsgruppen mit hohem Einkommen verglichen. | Der Begleithund zählt zu den phänotypisch vielfältigsten Arten. Die Variabilität zwischen Rassen erstreckt sich nicht nur auf die Morphologie und Verhaltensaspekte, sondern auch auf die Langlebigkeit. Trotz dieser Tatsache wurde bisher wenig Forschung betrieben, um die Unterschiede in der Lebenserwartung zwischen verschiedenen Rassen zu untersuchen oder das Potenzial für eine phylogenetische Charakterisierung der Langlebigkeit zu bewerten. | |
| Diagramm 1 | 0,2377 | 0,1357 |
| Diagramm 2 | 0,0673 | 0,3576 |
Features
Kürzbare Einbettungen
Wir haben die Backbone- jina-embeddings-v5-text-Modelle, die jina-embeddings-v5-omni untermauern, mit Matryoshka Representation Learning trainiert, sodass Sie sowohl Text- als auch Multimedia-Einbettungen aus diesen Modellen kürzen können.
Standardmäßig erzeugt jina-embeddings-v5-omni-small Einbettungen mit 1.024 Dimensionen und benötigt 2 KB zur Speicherung mit 16-Bit-Präzision. Die Einbettungen von jina-embeddings-v5-omni-nanohaben 768 Dimensionen und nehmen etwa 1,5 KB ein. Sie können die Größe dieser Einbettungen auf 32 Dimensionen (64 Bytes) reduzieren, was zwar zu Lasten der Genauigkeit geht, aber einen großen Gewinn an Verarbeitungsgeschwindigkeit und geringere Ressourcenkosten mit sich bringt. Im Allgemeinen führt eine Halbierung der Einbettungsgröße zu einer Verringerung der Genauigkeit um etwa 2 %, bis hin zu 128 Dimensionen, unterhalb derer die Genauigkeit viel schneller abnimmt.
Durch kürzbare Einbettungen können Nutzer den optimalen Kompromiss zwischen Genauigkeit, Geschwindigkeit und Kosten für ihre jeweiligen Anwendungsfälle festlegen.
Quantisierung
Die jina-embeddings-v5-omni-Familie erbt auch eine robuste Leistung unter Quantisierung von ihrem jina-embeddings-v5-text-Backbone. Dies erhöht die Geschwindigkeit weiter und senkt die Rechen- und Speicherkosten, indem weniger präzise Zahlen gespeichert werden. Wir haben sie darauf trainiert, mit Elasticsearchs Better Binary Quantization (BBQ) zu arbeiten, um eine nahezu identische Leistung wie bei unquantisierten Einbettungen zu erzielen. Bei der Massive Text Embedding Benchmark (MTEB) Retrieval-Benchmark-Suite reduziert die Binarisierung die Leistung um weniger als 3 % im Vergleich zu vollständigen 16-Bit-Werten, spart jedoch 93 % Speicherplatz und erhöht die Verarbeitungs- und Abrufgeschwindigkeit drastisch.
Sprachübergreifende Leistung
jina-embeddings-v5-textDie umfangreiche mehrsprachige Schulung überträgt sich auf jina-embeddings-v5-omni, mit fast 100 Sprachen im Vortraining von jina-embeddings-v5-text-smallund 15 wichtigen globalen Sprachen in jina-embeddings-v5-text-nano. Für Audiomedien umfasst das Whisper-large-v3-Modell ungefähr 100 Sprachen in seinem Training, und die Qwen-modifizierten SigLip2-Vision-Modelle, die in jina-embeddings-v5-omni-small und -nano integriert sind, wurden mit Daten aus 201 verschiedenen Sprachen und Dialekten trainiert.
Benchmark-Leistung
Text
jina-embeddings-v5-omni Modelle sind identisch mit jina-embeddings-v5-text-Modellen, wenn sie nur für Text verwendet werden. Sie sind die Leistungsträger in der MMTEB-Benchmark-Suite in ihren jeweiligen Größenkategorien für semantische Texteinbettungen.

Abbildung 5: Größe und Leistung jina-embeddings-v5-omniauf Textbenchmarks im Vergleich zu konkurrierenden Modellen. Die angegebene Größe ist ohne Ladeerweiterungen für andere Medien.
Visuelle semantische Ähnlichkeit
Bei Standard-Benchmarks für visuelle semantische Ähnlichkeit liefert jina-embeddings-v5-omni die besten Bewertungen aller Modelle in seiner Größe. jina-embeddings-v5-omni-Modelle zeigen bei weitem die beste Leistung für öffentliche Modelle mit offenen Gewichten vergleichbarer Größe. jina-embeddings-v5-omni-small wird bei visuellen semantischen Ähnlichkeitsaufgaben nur von einem Modell übertroffen, das dreimal so groß ist, und jina-embeddings-v5-omni-nano wird nur von jina-embeddings-v5-omni-small und von Modellen übertroffen, die 10- bis 25-mal größer sind.

Abbildung 6: Benchmark-Mittelwerte für visuelle semantische Ähnlichkeit für jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano und vergleichbare Modelle sowie deren Größen einschließlich Visionserweiterungen.
Visuelles Abrufen von Dokumenten
jina-embeddings-v5-omni-small ist wettbewerbsfähig mit Modellen mit drei und sieben Milliarden Parametern, bleibt aber unter einer Milliarde Parametern. jina-embeddings-v5-omni-nano sticht ebenfalls durch seine Größe hervor und übertrifft Modelle, die zehn bis sechzig Mal größer sind.

Abbildung 7: Mittlere ViDoRe-Ergebnisse bei der visuellen Dokumentensuche in sechs Benchmarks: DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad und TatDQA.
Audio-Abruf
Bei den Standard-MAEB-Benchmarks (Massive Audio Embedding Benchmark) für den Audioabruf gehören sowohl jina-embeddings-v5-omni-small als auch jina-embeddings-v5-omni-nano zu den Leistungsträgern. Nur sehr große Modelle – mehr als dreimal so groß wie jina-embeddings-v5-omni-small – übertreffen seinen Punktestand.

Abbildung 8: Mittlerer Score verschiedener Modelle auf den MAEB-Audio-Retrieval-Benchmarks.
Obwohl das larger_clap_general-Modell von LAION den Score von jina-embeddings-v5-omni-nano verbessert und dabei weniger Parameter hat, handelt es sich um ein reines Audiomodell ohne die zusätzlichen multimodalen Features der v5-omni-Suite.
Video
Auf Video ist jina-embeddings-v5-omni-small hervorragend darin, den Ort in einem Video zu finden, der zu einer Textabfrage passt. Die Charades-STA- und MomentSeeker-Tests sind die Standardmaßstäbe für diese Aufgabe, und man sieht in den untenstehenden Diagrammen, dass jina-embeddings-v5-omni-small trotz seiner deutlich kleineren Größe der Top-Scorer unter vergleichbaren Open-Weight-Modellen ist.

Abbildung 9: Charades-STA-Bewertungen für verschiedene Modelle sowie deren Größen.

Abbildung 10: MomentSeeker-Bewertungen für verschiedene Modelle sowie deren Größen.
Wir verglichen jina-embeddings-v5-omni-small auch mit ByteDances Seed 1.6, einem Closed-Weight-Modell mit nicht veröffentlichter Parameteranzahl. Unser Modell übertrifft Seed 1.6 beim Charades-STA-Benchmark mit großem Abstand und ist mit ihm bei MomentSeeker nahezu gleichauf.
| Modell | Charades-STA-Score | MomentSeeker-Score |
|---|---|---|
| seed-1.6-embedding | 29,30 | 59,30 |
| jina-embeddings-v5-omni-small | 55,57 | 58,93 |
Stärken und Schwächen
jina-embeddings-v5-omni Modelle erweitern die Fähigkeit der Nutzer, digitalisierte Informationen auf verschiedene Weise zu indexieren, zu suchen und zu analysieren, insbesondere:
- Mehrsprachiger Sprachabruf aus Textabfragen.
- PDF, Scans und visuelle Dokumentensuche.
- Zeitliche Verankerung von Videos, d. h. die Identifizierung von Teilen von Videos, die mit natürlichsprachlichen Textbeschreibungen übereinstimmen.
- Klassifizierung von Audiogenres, einschließlich Musikgenres.
- Bildklassifizierung basierend auf Szeneninformationen und Objekterkennung.
Die Leistungsfähigkeit ist in einigen anderen Bereichen eingeschränkt. Es könnte möglich sein, jina-embeddings-v5-omni für diese Aufgaben zu verwenden, aber wir haben dafür nicht trainiert und die Ergebnisse könnten schlecht sein.
Wir arbeiten aktiv daran, unsere Technologie in folgenden Bereichen zu verbessern:
- Das Auffinden spezifischer Videos anhand von Beschreibungen in natürlicher Sprache.
- Bild-zu-Bild-Semantikvergleich und -Abruf.
- Absichtsklassifizierung in der Sprache, wie beispielsweise das Erkennen verbaler Befehle.
- Verarbeitung gemischter Medieneingaben, d. h. Bilder und begleitender Text oder eine Kombination aus Audio, Bildern und Texten.
Verwendung von
Diese Modellsuite unterstützt Eingaben über drei Einstiegspunkte: Text, Audio sowie Bilder und Videos zusammen. jina-embeddings-v5-omni läuft in einem Framework, das eine breite Palette von Standardformaten konvertiert und andere Vorverarbeitungsschritte durchführt.
Wir verarbeiten Bilder mit dem gleichen NaFlex-Ansatz wie in der ersten SigLip2-Version: Ist das Eingabebild kleiner als 262.144 Pixel (entspricht 512×512), wird es hochskaliert, bis es größer als dieses Minimum ist. Ist es größer als 3.072.000 Pixel, wird es herunterskaliert, bis es kleiner als dieses Maximum ist. Der Konvertierungsprozess stellt sicher, dass sowohl die Höhe als auch die Breite des Bildes ein Vielfaches von 14 Pixeln betragen, wobei die Verzerrung des Seitenverhältnisses so gering wie möglich gehalten wird, um dieses Ziel zu erreichen. Das Ergebnis wird in Patches von 28×28 Pixeln aufgeteilt, sodass die Gesamtzahl der Patches der Anzahl der 28×28-Quadrate entspricht, die benötigt werden, um das Bild abzudecken. Jeder Patch wird zur Inferenzzeit wie ein einzelnes Token behandelt, und jeder Bildeingang wird von speziellen Start- und End-Token begleitet, um ein einzelnes Bild abzugrenzen.

Omni-Warnung
Die jina-embeddings-v5-omni-Modelle verändern die Videoauflösung auf die gleiche Weise wie Bilder (siehe oben), und wir extrahieren bis zu 32 Frames aus dem Video. Wenn das Video mehr als 32 Bilder hat (was wahrscheinlich ist, da Standardformate in der Regel mindestens 24 Bilder pro Sekunde haben), werden die Bilder, die wir extrahieren, gleichmäßig verteilt. Dann generiert der Video-Präprozessor für alle zwei Frames einen Satz von Token, der der Anzahl von 28x28 Quadraten entspricht, die benötigt werden, um das Video abzudecken.

Abbildung 11: jina-embeddings-v5-omni extrahiert 32 gleichmäßig verteilte Bilder aus dem Video. Wenn Sie ein langes Video haben, bedeutet das, dass viel verloren geht.
Weitere Details zur Videovorverarbeitung finden Sie in der technischen Dokumentation von SigLip2.
Die Audio-Tokenisierung folgt dem in Qwen-2.5-Omni integrierten Ansatz: Die Tondateien werden in 30-Sekunden-Segmente geschnitten. Wenn sie länger als 30 Sekunden sind, werden sie auf 16 kHz neu abgetastet und in ein 128-Kanal-Mel-Spektrogramm umgewandelt. Jede 40 ms wird als einzelnes Token behandelt, so dass jedes 30-Sekunden-Segment als 750 Token behandelt wird, ein Token pro 40 ms Audio, plus spezielle Start- und End-Token zur Abgrenzung eines einzelnen Samples.
Weitere Details zur Audiovorverarbeitung finden Sie im Technischen Bericht Qwen-2.5-Omni.
Verfügbarkeit
Erste Schritte
Um jina-embeddings-v5-omni -Modelle in EIS zu verwenden, setzen Sie das Feld type auf semantic_text (auch wenn die Medien nicht ausschließlich aus Text bestehen) beim Erstellen Ihres Index und der Angabe von entweder jina-embeddings-v5-omni-small oder jina-embeddings-v5-omni-nano im Feld inference_id . EIS wählt automatisch den LoRA-Adapter für das Indexieren und den Abruf aus.
Für Text ist die Vorgehensweise identisch mit jina-embeddings-v5-text:
Um andere Medien einzugeben, konvertieren Sie diese zuerst in eine Base64-Zeichenfolge und fügen Sie diese Zeichenfolge dann in dasselbe Feld ein, das Sie für Text verwenden würden:
Verfahren Sie genauso bei Multimedia-Anfragen:
Für den Zugriff über die Jina API konsultieren Sie die Jina AI-Website.
Um die Klassifikator-, Clustering- oder semantischen Ähnlichkeitsadapter zu verwenden oder Einbettungen auf benutzerdefinierte Größen zu verkürzen, erstellen Sie einen benutzerdefinierten Inferenz-Endpoint für Ihr Projekt und folgen den dortigen Anweisungen zur Verbindung mit Jina AI-Modellen und zur Übergabe von Parametern.
Um BBQ mit jina-embeddings-v5-omni zu verwenden, folgen Sie den Anweisungen zum BBQ-Indexieren.
Weitere Informationen
Weitere Informationen zu jina-embeddings-v5-omni finden Sie im technischen Bericht und auf der Modellseite der Jina AI-Website. Die jina-embeddings-v5-omni Kollektionsseite auf Hugging Face enthält auch technische Informationen und Anweisungen zum Herunterladen und lokalen Ausführen dieser Modelle. Die jina-embeddings-v5-omni-Modelle stehen unter einer CC-BY-NC-4.0-Lizenz zur Verfügung. Sie können sie also kostenlos herunterladen und ausprobieren. Für die kommerzielle Nutzung wenden Sie sich bitte an den Elastic-Vertrieb.




