jina-embeddings-v5-omni für Text, Bilder, Video und Audio

jina-embeddings-v5-omni vereint Text, Bilder, Video und Audio in einem einzigen Elasticsearch-Index. Die v5-omni-Suite erweitert die bestklassigen jina-embeddings-v5-text-Modelle und fügt visuelle und akustische Codierung durch eine innovative Architektur hinzu, die das Text-Backbone identisch lässt und so eine erstklassige Leistung in einem sehr kompakten Einbettungsmodell bietet.

Sie können jetzt leistungsstarke semantische Einbettungen für Text, Bilder, Videos und Audioaufnahmen in fast 100 Sprachen erstellen und sie für Klassifikation, Clustering, semantische Ähnlichkeitsmessung und Indexierung für den Abruf verwenden. Wenn Ihre Daten neben Texten auch in PDFs, Aufnahmen und Videos vorliegen, benötigen Sie keine separaten Pipelines mehr für jedes Format.

Die jina-embeddings-v5-omni-Familie ist das derzeit kompakteste Einbettungsmodell auf dem Markt und unterstützt Bilder, Sprache, Print und Video. Es bietet:

jina-embeddings-v5-texts erstklassige Texteinbettungen für Abruf-, Analyse- und KI-Agentenanwendungen.
Erstklassige Einbettungen für visuelle semantische Ähnlichkeit, visuelles Verständnis und Bildabruf. jina-embeddings-v5-omni-small erzielt die beste Performance bei Bild-Benchmarks aller Modelle mit 1 Milliarde (10⁹) Parametern und ist unserem vorherigen Modell jina-clip-v2 überlegen. Nur wenige Modelle mit drei- bis dreißigmal so vielen Parametern können da mithalten.
Modernste Einbettungen für mehrsprachiges visuelles Verständnis und Abruf, die Modelle übertreffen, die bis zu 20-mal größer sind.
Erstklassige Audioeinbettungen, wobei nur Modelle, die die doppelte oder mehr Anzahl von Parametern haben, bei Standard-Benchmarks besser abschneiden.
Unterstützung für Video, insbesondere zur Lokalisierung von Objekten und Ereignissen in Aufnahmen.

Dies findet Anwendung in allen Bereichen des Informationsabrufs, der Dokumentenverarbeitung und der Datenanalyse. jina-embeddings-v5-omni ermöglicht den Zugriff auf Informationen, die in verschiedenen Mediensilos eingeschlossen sind, und macht sie für den Abruf, die Analyse und die Nutzung durch KI-Agenten zugänglich. Informationen in Audio- und Videoaufnahmen, PDF-Dateien, gedruckten Seitenscans und Infografiken stehen auf einer Ebene mit digitalisierten Texten in Ihrem Datenökosystem.

Genau wie jina-embeddings-v5-text gibt es auch diese Modelle in zwei Größen: small und nano. Beide Modelle erweitern ihr jeweiliges Textäquivalent um zusätzliche Module, die Audio- und visuelle Eingaben unterstützen. Nutzer können Module beim Laden auswählen. Zusätzlich werden aufgabenspezifische Erweiterungen für semantische Ähnlichkeit, Klassifikation, Clustering und Informationsabruf als kompakte Low-Rank-Adapter (LoRAs) implementiert und so geladen, dass Nutzer sie zur Inferenzzeit auswählen können.

Beide Modelle sind sehr kompakt. jina-embeddings-v5-omni-small kann auf herkömmlichen GPU-fähigen Servern ausgeführt werden, und jina-embeddings-v5-omni-nano ist klein genug, um auf Standardhardware zu laufen. Dies birgt ein großes Einsparpotenzial bei den Rechenkosten und ermöglicht die lizenzierte lokale Installation und Edge-Verarbeitung, wodurch die Latenz reduziert und Ihre Kontrolle über Ihre eigenen Daten erhöht wird.

Die v5-omni-Suite nutzt innovative Modelldesign- und Machine-Learning-Techniken, um neue Einbettungsmodelle aus bereits trainierten Modellen zusammenzustellen, ohne sie neu trainieren zu müssen. Wir verwenden Encoder aus vortrainierten, sprachorientierten Einbettungsmodellen für Audio- und Videomedien als Eingabe-Präprozessoren für unsere bestehende jina-embeddings-v5-text-Modellsuite. Die resultierenden Modelle erzeugen Einbettungen für Bilder und Tonaufnahmen, die semantisch mit den Einbettungen für Texte kompatibel sind.

Die v5-omni-Modelle erzeugen Texteinbettungen, die identisch mit jina-embeddings-v5-text sind (also jina-embeddings-v5-omni-small mit jina-embeddings-v5-text-small und jina-embeddings-v5-omni-nano mit jina-embeddings-v5-text-nano), sodass Sie bestehende Textabruf-Repositories auf multimediale Anwendungen erweitern können, ohne Ihre Indizes neu aufbauen zu müssen.

Die integrierten Encoder stammen alle aus offenen Quellen. Für Bilder und Videos haben wir Encoder von Qwen3.5-Modellen verwendet:

Für jina-embeddings-v5-omni-nanoist der fein abgestimmte SigLIP2-Basis-Encoder von Qwen3.5-0.8B.
Für jina-embeddings-v5-omni-smallder fein abgestimmte SigLIP2 So400m-Encoder von Qwen3.5-2B.
Zur Audio-Unterstützung haben wir den Encoder von Whisper-large-v3, der aus Qwen2.5-Omni-7B extrahiert wurde, sowohl für die kleine als auch für die Nano-Version hinzugefügt.

Wir haben diese medienspezifischen Encoder mithilfe trainierter cross-modaler Projektoren mit dem Backbone der Textverarbeitung verbunden. Diese Projektoren übersetzen ihre nativen Ausgänge in Eingangseinbettungen, die mit jina-embeddings-v5-text kompatibel sind. Die einzigen neu trainierten Teile der jina-embeddings-v5-omni-Modelle sind die Gewichte in diesen Projektoren.

Schematische Darstellung der `jina-embeddings-v5-omni`-Modelle. Nur die medienübergreifenden Projektoren haben ein neues Training.

Diese Architektur bedeutet, dass wir nur die modellübergreifenden Projektoren trainieren müssen, ungefähr 5,5 Millionen Parameter für jina-embeddings-v5-omni-small und unter 3,5 Millionen für jina-embeddings-v5-omni-nano, für jeden der vier LoRa-Adapter. Dieser Ansatz minimiert den zusätzlichen Trainingsaufwand, der für die Verbindung verschiedener Einbettungsmodelle erforderlich ist, und nutzt das spezialisierte Training der einzelnen Modelle, um eine extrem kompakte, leistungsstarke und modulare Einbettungssuite zu erstellen.

Ausgewählte Modelleigenschaften

Eingang/Ausgang

Modellname	Größe des Eingangskontextfensters	Einbettungsgröße
jina-embeddings-v5-omni-small	32.768 Token*	1024 Dimensionen (Minimum: 32)
jina-embeddings-v5-omni-nano	8.192 Token*	768 Dimensionen (Minimum: 32)

* Unter Using jina-embeddings-v5-omni unten erfahren Sie mehr darüber, wie nicht-textbezogene Medien tokenisiert werden.

Größe

Modellname	Gesamtgröße
jina-embeddings-v5-omni-small (nur Text, Basismodell + 4 LoRA-Adapter)	700 Mio. Parameter
Bild-/Video-Unterstützung (SigLIP2 So400m-Encoder extrahiert aus Qwen3.5-2B)	1.006B Parameter
Audiounterstützung (Whisper-large-v3-Encoder, extrahiert aus Qwen2.5-Omni-7B)	1,354 Mrd. Parameter
beide	1,660 Mrd. Parameter
LoRA-Adapter (jeweils)	20 Mio.
jina-embeddings-v5-omni-nano (nur textbasiertes Basismodell + 4 LoRA-Adapter)	266 Mio. Parameter
Bild-/Videounterstützung (SigLIP2-Basis-Encoder, extrahiert aus Qwen3.5-0.8B)	354 Mio. Parameter
Audiounterstützung (Whisper-large-v3-Encoder, extrahiert aus Qwen2.5-Omni-7B)	916 Mio. Parameter
beide	1.004B Parameter
LoRA-Adapter (jeweils)	7 Mio.

* Unter Using jina-embeddings-v5-omni unten erfahren Sie mehr darüber, wie nicht-textbezogene Medien tokenisiert werden.

Aufgabenspezifisches Training

Die jina-embeddings-v5-omni-Familie unterstützt die gleichen aufgabenspezifischen LoRA-Adapter wie jina-embeddings-v5-text:

Aufgabe	Anwendungsbeispiele
Abruf	Informationsabruf, allein oder in Verbindung mit anderen Abruf- und Kandidatenbewertungstechniken. Mit den v5-omni-Modellen können Sie Audio, Video und Bilder in einer einzigen Abfrage aus einem Index abrufen.
Clustering	Themenfindung und automatische Themenorganisation in allen Medien.
Klassifizierung	Kategorisierung, Stimmungsanalyse und ähnliche Aufgaben.
Semantische Ähnlichkeit	Deduplizierung von Daten in verschiedenen Medien, Empfehlungssystemen, verwandten Medien, Suchen nach Texten, die zur Sprache passen, Identifizierung von Übersetzungen und ähnlichen Aufgaben.

Ausgangseinbettungen hängen von der ausgewählten Aufgabenkategorie ab. Zum Beispiel sollte man keine abruforientierten Einbettungen für Clustering oder semantische Ähnlichkeitseinbettungen für die Klassifikation verwenden.

Multimedia, multimodal, mehrsprachig, multifunktional

Um zu zeigen, was jina-embeddings-v5-omni kann, nehmen wir die berühmten Anfangspassagen zweier Romane und messen ihre semantische Ähnlichkeit:

A Tale of Two Cities (Charles Dickens)

Pride and Prejudice (Jane Austen)

Mit jina-embeddings-v5-omni-small und seinem semantischen Ähnlichkeitsadapter haben diese Texte eine Ähnlichkeit von 0,5329.

Diese Zahl ist ohne Vergleichswert wenig aussagekräftig. Vergleichen wir daher diese beiden Texte mit ihren französischen Übersetzungen unter Verwendung desselben Modells und Adapters:

Semantische Ähnlichkeitswerte für Texte in verschiedenen Sprachen

	A Tale of Two Cities (Englisch)	Pride and Prejudice (Englisch)
Tale of Two Cities (Französisch) (Paris et Londres en 1783, tr. H. Loreau)	0,9095	0,5074
Pride and Prejudice (Französisch) (Orgueil et Préjugés, tr. Leconte et Pressoir)	0,4826	0,8784

Die beiden Texte zeigen eine viel größere Ähnlichkeit zu ihren Übersetzungen als zu anderen Texten in derselben Sprache oder in einer anderen. Dies spiegelt die sehr leistungsstarken mehrsprachigen semantischen Einbettungen von jina-embeddings-v5-text-small wider, die unverändert in jina-embeddings-v5-omni-small enthalten sind.

Die Hinzufügung von Multimedia-Unterstützung zu jina-embeddings-v5-omni bedeutet, dass wir dieses Experiment auf ganz andere Datentypen ausweiten können. Wir haben z. B. Scans der ersten Seiten beider Romane aus alten Druckausgaben angefertigt:

Zwei alte Buchseiten zeigen die ersten Passagen von „A Tale of Two Cities“ und „Pride and Prejudice“, wobei die linke Seite den Anfang des ersten Kapitels einer undatierten Ausgabe von „A Tale of Two Cities“ aus dem 19. Jahrhundert zeigt und die rechte Seite den Beginn des ersten Kapitels der Macmillan-Ausgabe von 1903 von „Pride and Prejudice“.

Abbildung 2: Tale of Two Cities, undatierte Ausgabe aus dem 19. Jahrhundert, und Pride and Prejudice, Macmillan-Ausgabe von 1903.

Vergleichen wir nun beide Texte mit den Scans, wiederum unter Verwendung des semantischen Ähnlichkeitsadapters:

Semantische Ähnlichkeitswerte zwischen Texten und Bildern

	A Tale of Two Cities (Scan)	Pride and Prejudice (Scan)
Tale of Two Cities (Text)	0,7336	0,4891
Pride and Prejudice (Text)	0,4804	0,7213

Man sieht, dass semantische Ähnlichkeitswerte Texte, die mit Bildinhalten übereinstimmen, stark bevorzugen.

Wir können die Texte auch mit einem Screenshot eines Beitrags in den sozialen Medien und einem Meme, das sich auf diese Texte bezieht, vergleichen, indem wir dasselbe Setup verwenden:

Ein Twitter-Post, in dem Elon Musk Zeilen aus A Tale of Two Cities teilt, gefolgt von einem Kommentar, mit einem zitierten Tweet darunter, der zyklische und lineare Elemente der Geschichte diskutiert.

Eine leuchtend blaue Grafik zeigt beigefarbenen Text mit der Aufschrift „DON’T KEEP CALM! HE’S A SINGLE MAN in possession of a large fortune!“ und ein kleines Foto darüber, das eine Person in historischer Kleidung zeigt, die eine weiße Haube und Spitzenkleidung trägt und einen offenen Mund hat.

Abbildung 3: Ein Tweet von Elon Musk, der A Tale of Two Cities referenziert, und ein Meme, das auf den berühmten Anfang von Pride and Prejudice anspielt.

Semantische Ähnlichkeitswerte zwischen Texten und Bildern

	A Tale of Two Cities	Stolz und Vorurteil
Musk-Tweet (Bild)	0,7156	0,4912
Meme „Keep calm“ (Bild)	0,4555	0,6244

Dasselbe können wir auch für die Sprache tun. Uns liegen Aufnahmen von Lesungen beider Texte vor, sowohl in Englisch als auch in Französisch:

Semantische Ähnlichkeitswerte zwischen Texten und Audiodateien in verschiedenen Sprachen

	A Tale of Two Cities (englisches Audio)	A Tale of Two Cities (Französisches Audio)	Pride and Prejudice (englisches Audio)	Pride and Prejudice (Französisches Audio)
A Tale of Two Cities (englischer Text)	0,3816	0,3106	0,1607	0,1774
A Tale of Two Cities (französischer Text)	0,3528	0,3253	0,1598	0,1721
Pride and Prejudice (englischer Text)	0,1910	0,1682	0,3511	0,3398
Pride and Prejudice (französischer Text)	0,1667	0,1474	0,3018	0,3702

Diese mehrsprachige und multimediale Fähigkeit erstreckt sich auch auf das Abrufen von Informationen.

Die Abrufsadapter für die jina-embeddings-v5-omni-Modelle implementieren einen asymmetrischen Abruf. Das bedeutet, dass Abfragen anders eingebettet werden als bei den Abruf-Zieldokumenten, sodass cross-modale Abfragen immer in eine Richtung gehen, mit Abfragen in einem Medium und Dokumenten in einem anderen, was andere Werte als beim Umkehren ergibt.

Die untenstehenden Tabellen zeigen die Abrufwerte für Text-, Audio- und Seiten-Scans von A Tale of Two Cities und Pride and Prejudice, wenn der Text aus A Tale of Two Cities (auf Englisch) als Abfrage codiert wird:

Text zu Text

Dokument	Abrufbewertung
A Tale of Two Cities (französischer Textauszug)	0,7597
Stolz und Vorurteil (englischer Textauszug)	0,1482
Pride and Prejudice (französischer Textauszug)	0,0523

Text zu Bild

Dokument	Abrufbewertung
A Tale of Two Cities (englischer Seitenscan)	0,5517
A Tale of Two Cities (Französischer Seitenscan)	0,3576
Pride and Prejudice (englischer Seitenscan)	0,1917

Text zu Audio

Dokument	Abrufbewertung
A Tale of Two Cities (englisches Audio)	0,3277
A Tale of Two Cities (Französisches Audio)	0,1980
Pride and Prejudice (englisches Audio)	0,1419
Pride and Prejudice (Französisches Audio)	0,1759

Nutzer können die Abfrage auch umgekehrt ausführen, indem sie Audio-zu-Text und Bild-zu-Text-Abfragen durchführen.

Nachfolgend sind die Bewertungen unter Verwendung des englischen Audios von A Tale of Two Cities als Abfrage und verschiedener Texte als Dokumente aufgeführt.

Bild zu Text

Dokument	Abrufbewertung
A Tale of Two Cities (englischer Textauszug)	0,3352
A Tale of Two Cities (französischer Textauszug)	0,2650
Stolz und Vorurteil (englischer Textauszug)	0,1626
Pride and Prejudice (französischer Textauszug)	0,1385

Und die Scores unter Verwendung eines Scans der ersten Seite von A Tale of Two Cities (auf Englisch) als Abfrage:

Audio zu Text

Dokument	Abrufbewertung
A Tale of Two Cities (englischer Textauszug)	0,5304
A Tale of Two Cities (französischer Textauszug)	0,4845
Stolz und Vorurteil (englischer Textauszug)	0,1467
Pride and Prejudice (französischer Textauszug)	0,0761

In einem rechteckigen Benachrichtigungsfeld mit hellblauem Hintergrund wird ein gelbes Warndreieck-Symbol neben einem Text angezeigt, der erklärt, dass jina‐embeddings‐v5‐omni darauf trainiert ist, Audio-, Video- und Bilddateien anhand von Textabfragen zu finden, und dass Abfragen, die nicht auf Text basieren, möglicherweise weniger effektiv sind.

Videosuche

Die Funktionen des jina-embeddings-v5-omnifür Video-Indexierung und -Suche integrieren neue Funktionen in Elasticsearch-Datenbanken, unterliegen jedoch vielen der gleichen Warnungen, die auch für Texte gelten. Die Generierung einer einzelnen Einbettung für einen langen Film ist wie die Einbettung eines sehr langen Romans: Detaillierte Informationen gehen unter, und die resultierende Einbettung wird für viele sehr unpassende Abfragen eine gute Übereinstimmung sein.

Wenn Sie den gesamten Text von Lord of the Rings (~500.000 Wörter) einbetten, ist das wahrscheinlich ein guter Treffer für die meisten Suchanfragen, egal, wonach Sie suchen. Ebenso erhalten Sie bei der Indizierung eines zweistündigen Hollywood-Films viele sporadische Übereinstimmungen und völlig übersehene Details. jina-embeddings-v5-omni ist optimal für kurze Clips.

Für dieses Beispiel haben wir den Trailer zum 1961 erschienenen Film Breakfast At Tiffany’s heruntergeladen, der nur 158 Sekunden lang und gemeinfrei ist. Den Trailer können Sie im Internet Archive ansehen.

Ein Vintage-Filmplakat von „Breakfast at Tiffany's“ zeigt ein illustriertes Ganzkörperbild von Audrey Hepburn in einem langen schwarzen Kleid mit schwarzen Handschuhen, einer Perlenkette und einem Zigarettenhalter, mit einer Katze auf der Schulter. Eine kleinere Hintergrundillustration zeigt ein sich umarmendes Paar vor einer Stadtkulisse, und das Poster enthält farbige Ränder sowie Angaben zu Besetzung und Produktion.

Abbildung 4: Das Kinoplakat für Breakfast at Tiffany’s.

Wir haben PySceneDetect verwendet, um den Trailer in 28 einzelne Szenen aufzuteilen, mit Längen von 1,877 Sekunden (45 Frames) bis 18,393 Sekunden (441 Frames). Die Szenenerkennung ist zwar nicht perfekt, bietet aber einen ausreichenden Mechanismus, um Videos in überschaubare Abschnitte für die spätere Wiedergabe zu unterteilen. Dann haben wir Dokument-Einbettungen für jedes der 28 Segmente mit jina-embeddings-v5-omni-small erstellt, um die Wirksamkeit von Textabfragen beim Finden bestimmter Elemente im Video testen zu können.

Zum Beispiel lieferte die Suche nach „Katze“ die folgenden Clips als die drei besten Ergebnisse. Die eine Szene mit einer Katze darin ist ganz oben, mit einem Score von 0,1634:

Ein Video-Vorschaubild zeigt eine Person, die auf dem Küchenboden kniend in einen offenen Kühlschrank greift, während eine Katze in der Nähe steht (Score 0,1634).

Sehen Sie sich den ersten Clip an.

Das nächsthöchste Match, mit einem Score von 0,1237, ist deutlich niedriger:

Ein Video-Vorschaubild zeigt eine Person, die eine bunte Maske nahe an ihr Gesicht hält. Der Name „GEORGE PEPPARD“ ist über das Bild gelegt (Score 0,1237).

Sehen Sie sich den zweiten Clip an.

Sie können auch nach Aktionen abfragen. Bei einer Suchanfrage mit der Zeichenfolge „Kuss“ enthalten die ersten vier Treffer alle das Wort „Küsse“:

Ein Video-Vorschaubild zeigt drei Personen in einem Raum, wobei eine Person links von der Kamera abgewandt steht und sich zwei Personen rechts scheinbar nahe einem Vorhang und einer Tür umarmen (Score 0,2864).

Sehen Sie sich den dritten Clip an. Sein Score liegt bei 0,2864.

Ein Video-Thumbnail zeigt zwei Personen, die eng beieinander stehen; eine trägt einen dunklen Anzug, die andere eine katzenartige Maske (Punktzahl 0,2494).

Ein Video-Vorschaubild, das mehrere Menschen zeigt, die sich in einem lebhaften Innenraum nahe beieinander versammelt haben, darunter eine Person, die eine Gitarre hält, während andere scheinbar reden oder lachen (Score 0,2099).

Ein Video-Vorschaubild zeigt zwei Personen in Trenchcoats, die sich im Regen draußen umarmen, während im Hintergrund geparkte Autos und Gebäude sichtbar sind (Score 0,1189).

Scores: Jeweils für den zweiten Treffer (0,2494), den dritten Treffer (0,2099) und den vierten Treffer (0,2068)

Und Sie können nach Texten suchen, die in Videos angezeigt werden, wie zum Beispiel nach „Buddy Ebsen“, der nur einmal vorkommt. jina-embeddings-v5-omni-small identifiziert es sofort als das beste Match mit einem Score von 0,3885, deutlich höher als das nächstbeste Match:

Ein Video-Vorschaubild, das einen Mann im Anzug zeigt, der neben einer Treppe mit weißen Balustern und einem dunklen Handlauf steht, mit dem überlagerten Text „Buddy Ebsen“ (Score 0,3885).

Buddy Ebsen Clip.

Visuelles Abrufen von Dokumenten

Die multimodalen Einbettungsmodelle von Jina AI sind führend in der visuellen Dokumentenverarbeitung und auf dem neuesten Stand der Technik in der mehrsprachigen visuellen Dokumentenverarbeitung. Dies bedeutet die Verarbeitung von Bilddaten, die Text, Abbildungen und strukturierte Informationen enthalten. Wichtige Daten liegen oft in Form von Ausdrucken, Scans, PDF-Dateien, Diagrammen, technischen Zeichnungen, Screenshots, Bildern, Infografiken und Ähnlichem vor. Solche Bilder sind oft mechanisch zusammengestellt oder computergeneriert. Sie können in der Regel nicht ohne Bedeutungsverlust auf Text reduziert werden und eignen sich schlecht für Computer-Vision-Modelle, die für die Fotografie natürlicher Szenen entwickelt wurden.

jina-embeddings-v5-omniDie Einbettungen umfassen Informationen über die Dinge im Bild, den darauf gedruckten Text und die Beziehungen zwischen den beiden. Die visuelle Dokumentensuche ermöglicht es, reichhaltige Bilder zu indizieren, die sowohl Objekte als auch relevanten Text in verschiedenen Sprachen enthalten.

Als Beispiel verwenden wir vier Produktbilder von verschiedenen E-Commerce-Websites:

Schauen wir uns nun an, wie gut jina-embeddings-v5-omni-small diese vier Bilder für die Abfrage „Ramen-Nudeln“ bewertet:

Campbell’s Chunky Chicken Noodle (kanadische Verpackung)	Kraft Dinner (kanadische Verpackung)	Maruchan Miso Flavour Fresh Ramen (japanische Verpackung)	Birkel Spaghetti (Deutsche Verpackung)
0,0872	0,0711	0,1123	0,0886

Es findet problemlos das japanische Gegenstück.

Versuchen wir nun eine Abfrage nach „マカロニチーズ“ (japanisch für Makkaroni und Käse):

Campbell’s Chunky Chicken Noodle (kanadische Verpackung)	Kraft Dinner (kanadische Verpackung)	Maruchan Miso Flavour Fresh Ramen (japanische Verpackung)	Birkel Spaghetti (Deutsche Verpackung)
0,2207	0,3487	0,2760	0,2674

Es findet die korrekte Übereinstimmung mit der gleichen Leichtigkeit wie eine englische Abfrage.

jina-embeddings-v5-omni zeichnet sich auch durch das Verständnis von informativen Bildern wie Diagrammen aus. Um dies in Aktion zu erleben, schauen Sie sich diese beiden Balkendiagramme an:

Ein Balkendiagramm vergleicht die Hauptursachen der Krankheitslast bei Menschen ab 60 Jahren im Jahr 2010 und zeigt die verlorenen Lebensjahre aufgrund von Behinderung in Millionen für Herz-Kreislauf-Erkrankungen, Krebs, chronische Atemwegserkrankungen, Erkrankungen des Bewegungsapparates, neurologische Erkrankungen, unbeabsichtigte Verletzungen, Diabetes, Verdauungskrankheiten, Atemwegsinfektionen und Sinnesstörungen. Jeder Balken ist unterteilt in Beiträge aus Ländern mit niedrigem und mittlerem Einkommen und aus Ländern mit hohem Einkommen.

Ein Balkendiagramm mit dem Titel „Lebenserwartung verschiedener Rassen“ zeigt die durchschnittliche Lebenserwartung in Jahren für American Foxhound, Beagle, Basenji, Basset Hound, Black and Tan C..., Bloodhound, Dackel, English Foxhound und Harrier, wobei die blauen Balken von etwa 10–14 Jahren reichen.

Zwei Diagramme, Diagramm 1 links über die globale Krankheitslast, und Diagramm 2 rechts über die Lebensdauer von Hunderassen.

Mal sehen, wie gut sie zwei mögliche Textfragen abgleichen, die jeweils für eines, aber nicht für beide Diagramme relevant sind, wobei jina-embeddings-v5-omni-small für den Abruf verwendet wird:

Textfrage	Diagramm 1	Diagramm 2
„Was sind häufige medizinische Probleme bei älteren Menschen?“	0,2787	0,1099
„Wie lange leben Hunde?“	0,1350	0,3564

Sie können die Suche auch umkehren und Bilder als Suchbegriffe verwenden, um Texte zu finden. Die folgende Tabelle zeigt die aus den Abstracts thematisch verwandter wissenschaftlicher Arbeiten extrahierten Zieldokumente und ihre Abrufergebnisse, wobei die Diagrammbilder als Abfragen verwendet wurden:

	Text 1	Text 2
	Die Gesundheit von Menschen, die in extremer Armut leben, steht seit Langem im Mittelpunkt der globalen Entwicklungsbemühungen und hat auch in der Ära der nachhaltigen Entwicklungsziele weiterhin Priorität. Allerdings gab es seit fast zwei Jahrzehnten keinen systematischen Versuch, das Ausmaß und die Ursachen der Belastung in dieser speziellen Bevölkerungsgruppe zu quantifizieren. Wir haben die Krankheitsraten nach Ursachen für die ärmste Milliarde Menschen der Welt geschätzt und diese Raten mit denen in Bevölkerungsgruppen mit hohem Einkommen verglichen.	Der Begleithund zählt zu den phänotypisch vielfältigsten Arten. Die Variabilität zwischen Rassen erstreckt sich nicht nur auf die Morphologie und Verhaltensaspekte, sondern auch auf die Langlebigkeit. Trotz dieser Tatsache wurde bisher wenig Forschung betrieben, um die Unterschiede in der Lebenserwartung zwischen verschiedenen Rassen zu untersuchen oder das Potenzial für eine phylogenetische Charakterisierung der Langlebigkeit zu bewerten.
Diagramm 1	0,2377	0,1357
Diagramm 2	0,0673	0,3576

Features

Kürzbare Einbettungen

Wir haben die Backbone- jina-embeddings-v5-text-Modelle, die jina-embeddings-v5-omni untermauern, mit Matryoshka Representation Learning trainiert, sodass Sie sowohl Text- als auch Multimedia-Einbettungen aus diesen Modellen kürzen können.

Standardmäßig erzeugt jina-embeddings-v5-omni-small Einbettungen mit 1.024 Dimensionen und benötigt 2 KB zur Speicherung mit 16-Bit-Präzision. Die Einbettungen von jina-embeddings-v5-omni-nanohaben 768 Dimensionen und nehmen etwa 1,5 KB ein. Sie können die Größe dieser Einbettungen auf 32 Dimensionen (64 Bytes) reduzieren, was zwar zu Lasten der Genauigkeit geht, aber einen großen Gewinn an Verarbeitungsgeschwindigkeit und geringere Ressourcenkosten mit sich bringt. Im Allgemeinen führt eine Halbierung der Einbettungsgröße zu einer Verringerung der Genauigkeit um etwa 2 %, bis hin zu 128 Dimensionen, unterhalb derer die Genauigkeit viel schneller abnimmt.

Durch kürzbare Einbettungen können Nutzer den optimalen Kompromiss zwischen Genauigkeit, Geschwindigkeit und Kosten für ihre jeweiligen Anwendungsfälle festlegen.

Quantisierung

Die jina-embeddings-v5-omni-Familie erbt auch eine robuste Leistung unter Quantisierung von ihrem jina-embeddings-v5-text-Backbone. Dies erhöht die Geschwindigkeit weiter und senkt die Rechen- und Speicherkosten, indem weniger präzise Zahlen gespeichert werden. Wir haben sie darauf trainiert, mit Elasticsearchs Better Binary Quantization (BBQ) zu arbeiten, um eine nahezu identische Leistung wie bei unquantisierten Einbettungen zu erzielen. Bei der Massive Text Embedding Benchmark (MTEB) Retrieval-Benchmark-Suite reduziert die Binarisierung die Leistung um weniger als 3 % im Vergleich zu vollständigen 16-Bit-Werten, spart jedoch 93 % Speicherplatz und erhöht die Verarbeitungs- und Abrufgeschwindigkeit drastisch.

Sprachübergreifende Leistung

jina-embeddings-v5-textDie umfangreiche mehrsprachige Schulung überträgt sich auf jina-embeddings-v5-omni, mit fast 100 Sprachen im Vortraining von jina-embeddings-v5-text-smallund 15 wichtigen globalen Sprachen in jina-embeddings-v5-text-nano. Für Audiomedien umfasst das Whisper-large-v3-Modell ungefähr 100 Sprachen in seinem Training, und die Qwen-modifizierten SigLip2-Vision-Modelle, die in jina-embeddings-v5-omni-small und -nano integriert sind, wurden mit Daten aus 201 verschiedenen Sprachen und Dialekten trainiert.

Benchmark-Leistung

Text

jina-embeddings-v5-omni Modelle sind identisch mit jina-embeddings-v5-text-Modellen, wenn sie nur für Text verwendet werden. Sie sind die Leistungsträger in der MMTEB-Benchmark-Suite in ihren jeweiligen Größenkategorien für semantische Texteinbettungen.

Ein Balken- und Liniendiagramm vergleicht MMTEB-Werte und Parametergrößen für neun Einbettungsmodelle, wobei jina‑v3‑omni‑small die höchste Punktzahl und snowflake‑arctic‑embed‑l‑v2 die kleinste Größe hat.

Abbildung 5: Größe und Leistung jina-embeddings-v5-omniauf Textbenchmarks im Vergleich zu konkurrierenden Modellen. Die angegebene Größe ist ohne Ladeerweiterungen für andere Medien.

Visuelle semantische Ähnlichkeit

Bei Standard-Benchmarks für visuelle semantische Ähnlichkeit liefert jina-embeddings-v5-omni die besten Bewertungen aller Modelle in seiner Größe. jina-embeddings-v5-omni-Modelle zeigen bei weitem die beste Leistung für öffentliche Modelle mit offenen Gewichten vergleichbarer Größe. jina-embeddings-v5-omni-small wird bei visuellen semantischen Ähnlichkeitsaufgaben nur von einem Modell übertroffen, das dreimal so groß ist, und jina-embeddings-v5-omni-nano wird nur von jina-embeddings-v5-omni-small und von Modellen übertroffen, die 10- bis 25-mal größer sind.

Abbildung 6: Benchmark-Mittelwerte für visuelle semantische Ähnlichkeit für jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano und vergleichbare Modelle sowie deren Größen einschließlich Visionserweiterungen.

Visuelles Abrufen von Dokumenten

jina-embeddings-v5-omni-small ist wettbewerbsfähig mit Modellen mit drei und sieben Milliarden Parametern, bleibt aber unter einer Milliarde Parametern. jina-embeddings-v5-omni-nano sticht ebenfalls durch seine Größe hervor und übertrifft Modelle, die zehn bis sechzig Mal größer sind.

Ein Balken-und-Linien-Diagramm vergleicht ausgewählte ViDoRe-Werte und Parametergrößen für mehrere Einbettungsmodelle, wobei LCO-Embedding-Omni-7B den höchsten Wert erreicht und laion/CLIP-ViT-bigG-14 die größte Modellgröße hat. Der Fokus liegt auf zwei Jina-Embeddings-Modellen.

Abbildung 7: Mittlere ViDoRe-Ergebnisse bei der visuellen Dokumentensuche in sechs Benchmarks: DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad und TatDQA.

Audio-Abruf

Bei den Standard-MAEB-Benchmarks (Massive Audio Embedding Benchmark) für den Audioabruf gehören sowohl jina-embeddings-v5-omni-small als auch jina-embeddings-v5-omni-nano zu den Leistungsträgern. Nur sehr große Modelle – mehr als dreimal so groß wie jina-embeddings-v5-omni-small – übertreffen seinen Punktestand.

Ein Balken- und Liniendiagramm vergleicht Einbettungs- und Audiomodelle entlang der x-Achse, zeigt blaue Balken für den MAEB-Wert auf der linken y-Achse und eine rote Linie für die Modellgröße in Milliarden von Parametern auf der rechten y-Achse. Die Balken reichen von ungefähr 20 bis 55, und die Linie reicht von 0 bis 10.

Abbildung 8: Mittlerer Score verschiedener Modelle auf den MAEB-Audio-Retrieval-Benchmarks.

Obwohl das larger_clap_general-Modell von LAION den Score von jina-embeddings-v5-omni-nano verbessert und dabei weniger Parameter hat, handelt es sich um ein reines Audiomodell ohne die zusätzlichen multimodalen Features der v5-omni-Suite.

Video

Auf Video ist jina-embeddings-v5-omni-small hervorragend darin, den Ort in einem Video zu finden, der zu einer Textabfrage passt. Die Charades-STA- und MomentSeeker-Tests sind die Standardmaßstäbe für diese Aufgabe, und man sieht in den untenstehenden Diagrammen, dass jina-embeddings-v5-omni-small trotz seiner deutlich kleineren Größe der Top-Scorer unter vergleichbaren Open-Weight-Modellen ist.

Ein Balken- und Liniendiagramm zeigt die Charades‐STA-Werte und die Modellgrößen für sechs Einbettungsmodelle. Die x-Achse listet die Modelle auf, die linke y-Achse zeigt Charades-STA-Werte von 20 bis 60, und die rechte y-Achse zeigt die Modellgröße in Milliarden von Parametern von 0 bis 10. Blaue Balken stehen für die Punkte, und eine rote Linie mit Markern steht für die Modellgrößen.

Abbildung 9: Charades-STA-Bewertungen für verschiedene Modelle sowie deren Größen.

Ein Balken- und Liniendiagramm vergleicht sechs Einbettungsmodelle anhand von MomentSeeker-Scores und Modellgröße. Die x-Achse listet die Modelle auf, die linke y-Achse zeigt MomentSeeker-Werte von etwa 44 bis 60, und die rechte y-Achse zeigt die Modellgröße in Milliarden von Parametern von 0 bis 10. Blaue Balken stehen für die Punkte, und eine rote Linie mit Markern steht für die Modellgrößen.

Abbildung 10: MomentSeeker-Bewertungen für verschiedene Modelle sowie deren Größen.

Wir verglichen jina-embeddings-v5-omni-small auch mit ByteDances Seed 1.6, einem Closed-Weight-Modell mit nicht veröffentlichter Parameteranzahl. Unser Modell übertrifft Seed 1.6 beim Charades-STA-Benchmark mit großem Abstand und ist mit ihm bei MomentSeeker nahezu gleichauf.

Modell	Charades-STA-Score	MomentSeeker-Score
seed-1.6-embedding	29,30	59,30
jina-embeddings-v5-omni-small	55,57	58,93

Stärken und Schwächen

jina-embeddings-v5-omni Modelle erweitern die Fähigkeit der Nutzer, digitalisierte Informationen auf verschiedene Weise zu indexieren, zu suchen und zu analysieren, insbesondere:

Mehrsprachiger Sprachabruf aus Textabfragen.
PDF, Scans und visuelle Dokumentensuche.
Zeitliche Verankerung von Videos, d. h. die Identifizierung von Teilen von Videos, die mit natürlichsprachlichen Textbeschreibungen übereinstimmen.
Klassifizierung von Audiogenres, einschließlich Musikgenres.
Bildklassifizierung basierend auf Szeneninformationen und Objekterkennung.

Die Leistungsfähigkeit ist in einigen anderen Bereichen eingeschränkt. Es könnte möglich sein, jina-embeddings-v5-omni für diese Aufgaben zu verwenden, aber wir haben dafür nicht trainiert und die Ergebnisse könnten schlecht sein.

Wir arbeiten aktiv daran, unsere Technologie in folgenden Bereichen zu verbessern:

Das Auffinden spezifischer Videos anhand von Beschreibungen in natürlicher Sprache.
Bild-zu-Bild-Semantikvergleich und -Abruf.
Absichtsklassifizierung in der Sprache, wie beispielsweise das Erkennen verbaler Befehle.
Verarbeitung gemischter Medieneingaben, d. h. Bilder und begleitender Text oder eine Kombination aus Audio, Bildern und Texten.

Verwendung von

Diese Modellsuite unterstützt Eingaben über drei Einstiegspunkte: Text, Audio sowie Bilder und Videos zusammen. jina-embeddings-v5-omni läuft in einem Framework, das eine breite Palette von Standardformaten konvertiert und andere Vorverarbeitungsschritte durchführt.

Wir verarbeiten Bilder mit dem gleichen NaFlex-Ansatz wie in der ersten SigLip2-Version: Ist das Eingabebild kleiner als 262.144 Pixel (entspricht 512×512), wird es hochskaliert, bis es größer als dieses Minimum ist. Ist es größer als 3.072.000 Pixel, wird es herunterskaliert, bis es kleiner als dieses Maximum ist. Der Konvertierungsprozess stellt sicher, dass sowohl die Höhe als auch die Breite des Bildes ein Vielfaches von 14 Pixeln betragen, wobei die Verzerrung des Seitenverhältnisses so gering wie möglich gehalten wird, um dieses Ziel zu erreichen. Das Ergebnis wird in Patches von 28×28 Pixeln aufgeteilt, sodass die Gesamtzahl der Patches der Anzahl der 28×28-Quadrate entspricht, die benötigt werden, um das Bild abzudecken. Jeder Patch wird zur Inferenzzeit wie ein einzelnes Token behandelt, und jeder Bildeingang wird von speziellen Start- und End-Token begleitet, um ein einzelnes Bild abzugrenzen.

Die jina-embeddings-v5-omni-Modelle verändern die Videoauflösung auf die gleiche Weise wie Bilder (siehe oben), und wir extrahieren bis zu 32 Frames aus dem Video. Wenn das Video mehr als 32 Bilder hat (was wahrscheinlich ist, da Standardformate in der Regel mindestens 24 Bilder pro Sekunde haben), werden die Bilder, die wir extrahieren, gleichmäßig verteilt. Dann generiert der Video-Präprozessor für alle zwei Frames einen Satz von Token, der der Anzahl von 28x28 Quadraten entspricht, die benötigt werden, um das Video abzudecken.

Eine Collage aus aufeinanderfolgenden Videobildern ist mit Pfeilen angeordnet, die den Ablauf anzeigen und eine Reihe von Szenen mit Audrey Hepburn in verschiedenen Momenten darstellen. Sie endet mit einem Bild, das die Titelkarte „Breakfast at Tiffany’s“ zeigt. Das Layout veranschaulicht, dass das Modell 64 gleichmäßig verteilte Frames aus einem Video extrahiert, was bei langen Videos zu erheblichen Inhaltsverlusten führen kann.

Abbildung 11: jina-embeddings-v5-omni extrahiert 32 gleichmäßig verteilte Bilder aus dem Video. Wenn Sie ein langes Video haben, bedeutet das, dass viel verloren geht.

Weitere Details zur Videovorverarbeitung finden Sie in der technischen Dokumentation von SigLip2.

Die Audio-Tokenisierung folgt dem in Qwen-2.5-Omni integrierten Ansatz: Die Tondateien werden in 30-Sekunden-Segmente geschnitten. Wenn sie länger als 30 Sekunden sind, werden sie auf 16 kHz neu abgetastet und in ein 128-Kanal-Mel-Spektrogramm umgewandelt. Jede 40 ms wird als einzelnes Token behandelt, so dass jedes 30-Sekunden-Segment als 750 Token behandelt wird, ein Token pro 40 ms Audio, plus spezielle Start- und End-Token zur Abgrenzung eines einzelnen Samples.

Weitere Details zur Audiovorverarbeitung finden Sie im Technischen Bericht Qwen-2.5-Omni.

Verfügbarkeit

Erste Schritte

Um jina-embeddings-v5-omni -Modelle in EIS zu verwenden, setzen Sie das Feld type auf semantic_text (auch wenn die Medien nicht ausschließlich aus Text bestehen) beim Erstellen Ihres Index und der Angabe von entweder jina-embeddings-v5-omni-small oder jina-embeddings-v5-omni-nano im Feld inference_id . EIS wählt automatisch den LoRA-Adapter für das Indexieren und den Abruf aus.

Für Text ist die Vorgehensweise identisch mit jina-embeddings-v5-text:

Um andere Medien einzugeben, konvertieren Sie diese zuerst in eine Base64-Zeichenfolge und fügen Sie diese Zeichenfolge dann in dasselbe Feld ein, das Sie für Text verwenden würden:

Verfahren Sie genauso bei Multimedia-Anfragen:

Für den Zugriff über die Jina API konsultieren Sie die Jina AI-Website.

Um die Klassifikator-, Clustering- oder semantischen Ähnlichkeitsadapter zu verwenden oder Einbettungen auf benutzerdefinierte Größen zu verkürzen, erstellen Sie einen benutzerdefinierten Inferenz-Endpoint für Ihr Projekt und folgen den dortigen Anweisungen zur Verbindung mit Jina AI-Modellen und zur Übergabe von Parametern.

Um BBQ mit jina-embeddings-v5-omni zu verwenden, folgen Sie den Anweisungen zum BBQ-Indexieren.

Weitere Informationen

Weitere Informationen zu jina-embeddings-v5-omni finden Sie im technischen Bericht und auf der Modellseite der Jina AI-Website. Die jina-embeddings-v5-omni Kollektionsseite auf Hugging Face enthält auch technische Informationen und Anweisungen zum Herunterladen und lokalen Ausführen dieser Modelle. Die jina-embeddings-v5-omni-Modelle stehen unter einer CC-BY-NC-4.0-Lizenz zur Verfügung. Sie können sie also kostenlos herunterladen und ausprobieren. Für die kommerzielle Nutzung wenden Sie sich bitte an den Elastic-Vertrieb.

Wie hilfreich war dieser Inhalt?

Nicht hilfreich

Einigermaßen hilfreich

Sehr hilfreich

Ein Problem melden

Zugehörige Inhalte

Jina-Einbettungen v3 sind jetzt im Model Garden der Gemini Enterprise Agent Platform verfügbar

Jina AI

22. April 2026

Jina-Einbettungen v3 sind jetzt im Model Garden der Gemini Enterprise Agent Platform verfügbar

Das Search Foundation Model in Jina, „jina-embeddings-v3“, kann nun eigenständig im Model Garden der Gemini Enterprise Agent Platform bereitgestellt werden und wird bald um weitere Modelle ergänzt. Führen Sie „jina-embeddings-v3“ auf einer einzelnen L4-GPU in Ihrer eigenen VPC aus.

Von: Sa Zhang

jina-embeddings-v5-text: Kompakte, hochmoderne Texteinbettungen für Suchen und intelligente Anwendungen

Jina AI

23. Februar 2026

jina-embeddings-v5-text: Kompakte, hochmoderne Texteinbettungen für Suchen und intelligente Anwendungen

Einführung der jina-embeddings-v5-text-Modelle, darunter jina-embeddings-v5-text-small und jina-embeddings-v5-text-nano, sowie eine Erklärung zur Nutzung dieser mehrsprachigen Einbettungsmodelle über den Elastic Inference Service (EIS).

SM SV

Von: Scott Martens und Sofia Vasileva

Eine Einführung in Jina-Modelle, ihre Funktionalität und ihre Einsatzmöglichkeiten in Elasticsearch

Integrationen Jina AI

1. Januar 2026

Eine Einführung in Jina-Modelle, ihre Funktionalität und ihre Einsatzmöglichkeiten in Elasticsearch

Entdecken Sie multimodale Einbettungen von Jina, Reranker v3 und semantische Einbettungsmodelle und erfahren Sie, wie Sie diese nativ in Elasticsearch verwenden können.

Von: Scott Martens

Mehr Power für Elasticsearch: native Prometheus-API-Unterstützung hinzufügen

Integrationen

11. Mai 2026

Mehr Power für Elasticsearch: native Prometheus-API-Unterstützung hinzufügen

Elasticsearch kann direkt von Prometheus-kompatiblen Clients über native PromQL-, Discovery- und Metadaten-Endpunkte abgefragt werden. Senden Sie Daten an Elasticsearch mit Prometheus Remote Write.

Von: Felix Barnsteiner

Personalisierung der E-Commerce-Suche: Integration von Kaufverlauf und Nutzerkohorten

Operativer Betrieb

11. Mai 2026

Personalisierung der E-Commerce-Suche: Integration von Kaufverlauf und Nutzerkohorten

Erfahren Sie, wie Sie in Elasticsearch ein personalisiertes E-Commerce-Sucherlebnis schaffen, ohne gegen die Governance-Richtlinien zu verstoßen. In diesem Beitrag erfahren Sie, wie Sie Produkte hervorheben können, die ein Kunde bereits gekauft hat, und wie Sie kohortenspezifische Richtlinien auf der Grundlage von Nutzerprofilen aktivieren können.

AM HK TR

Von: Alexander Marquardt, Honza Král und Taylor Roy

Ein Index, alle Medien: Einführung von Jina-Embeddings-v5-Omni

Ausgewählte Modelleigenschaften

Eingang/Ausgang

Größe

Aufgabenspezifisches Training

Multimedia, multimodal, mehrsprachig, multifunktional

Videosuche

Visuelles Abrufen von Dokumenten

Features

Kürzbare Einbettungen

Quantisierung

Sprachübergreifende Leistung

Benchmark-Leistung

Text

Visuelle semantische Ähnlichkeit

Visuelles Abrufen von Dokumenten

Audio-Abruf

Video

Stärken und Schwächen

Verwendung von

Verfügbarkeit

Erste Schritte

Weitere Informationen

Wie hilfreich war dieser Inhalt?

Zugehörige Inhalte

Jina-Einbettungen v3 sind jetzt im Model Garden der Gemini Enterprise Agent Platform verfügbar

jina-embeddings-v5-text: Kompakte, hochmoderne Texteinbettungen für Suchen und intelligente Anwendungen

Eine Einführung in Jina-Modelle, ihre Funktionalität und ihre Einsatzmöglichkeiten in Elasticsearch

Mehr Power für Elasticsearch: native Prometheus-API-Unterstützung hinzufügen

Personalisierung der E-Commerce-Suche: Integration von Kaufverlauf und Nutzerkohorten

Sind Sie bereit, hochmoderne Sucherlebnisse zu schaffen?