Un seul index, tous les médias : présentation de jina-embeddings-v5-omni

jina-embeddings-v5-omni vous permet d’intégrer du texte, des images, des vidéos et de l’audio dans un seul index Elasticsearch, et d’effectuer des requêtes sur tous ces éléments à la fois.

jina-embeddings-v5-omni rassemble texte, images, vidéo et audio dans un seul index Elasticsearch. En étendant les meilleurs modèles de jina-embeddings-v5-text , la suite v5-omni ajoute un encodage visuel et audio grâce à une architecture innovante qui rend la dorsale textuelle identique, offrant des performances de classe frontière dans un modèle d’embarquement très compact.

Vous pouvez désormais créer des représentations sémantiques performantes pour les textes, les images, les vidéos et les enregistrements audio, couvrant près de 100 langues, et les utiliser pour la classification, le clustering, la mesure de la similarité sémantique et l’indexation pour la recherche. Si vos données se trouvent dans des PDF, des enregistrements et des vidéos aux côtés du texte, vous n’avez plus besoin de pipelines distincts pour chacun.

La famille jina-embeddings-v5-omni est le modèle de représentations vectorielles le plus compact actuellement sur le marché, avec prise en charge des images, de la parole, du texte imprimé et de la vidéo. Il propose :

  • jina-embeddings-v5-textL’intégration de textes de classe avancée pour la recherche, l’analyse et les applications d’agents d’IA.
  • Les meilleurs embeddings pour la similarité sémantique visuelle, la compréhension visuelle et la recherche d’images. jina-embeddings-v5-omni-small a la meilleure performance sur les benchmarks d’images de tous les modèles comportant un 1 milliard (10⁹) de paramètres et est supérieur à notre propre modèle précédent jina-clip-v2. Seuls quelques modèles dotés de trois à 30 fois plus de paramètres peuvent le battre.
  • Des embeddings de pointe pour la compréhension et la recherche visuelle multilingue, surpassant des modèles jusqu’à 20 fois plus grands.
  • Les meilleurs embeddings audio de leur catégorie, seuls les modèles ayant au moins le double de paramètres étant plus performants sur les critères de référence standard.
  • Compatible avec la vidéo, en particulier pour localiser des objets et des événements sur des séquences vidéo.

Cela s’applique à tous les domaines de la recherche d’informations, du traitement des documents et de l’analyse des données. jina-embeddings-v5-omni ouvre l’accès à des informations enfermées dans différents silos médiatiques et les rend accessibles pour la récupération, l’analyse et l’utilisation par les agents d’IA. Les informations contenues dans les enregistrements audio et vidéo, les PDF, les scans de pages imprimées et les infographies sont sur un pied d’égalité avec les textes numérisés dans votre écosystème de données.

Tout comme jina-embeddings-v5-text, ces modèles existent en deux tailles : small et nano. Les deux modèles étendent leur équivalent textuel avec des modules supplémentaires prenant en charge l'entrée audio et visuelle. Les utilisateurs peuvent sélectionner les modules au moment du chargement. De plus, des extensions spécifiques à chaque tâche pour la similarité sémantique, la classification, le clustering et la récupération d’informations sont implémentées sous forme d’adaptateurs LoRA (Low-Rank Adaptation) compacts et sont toutes chargées, permettant aux utilisateurs de les sélectionner au moment de l’inférence.

Les deux modèles sont très compacts. jina-embeddings-v5-omni-small peut fonctionner sur des serveurs conventionnels équipés de GPU, et jina-embeddings-v5-omni-nano est suffisamment petit pour fonctionner sur du matériel de base. Cela représente une importante économie potentielle en coûts de calcul et rend possible l’installation locale sous licence et le traitement en périphérie, réduisant la latence et augmentant votre contrôle sur vos propres données.

La suite v5-omni utilise des techniques innovantes de conception de modèles et de machine learning pour créer de nouveaux modèles d’encodage à partir de modèles déjà entraînés, sans qu’il soit nécessaire de les réentraîner. Nous utilisons des encodeurs provenant de modèles d’embedding préentraînés et alignés linguistiquement, pour les médias audio et vidéo, comme préprocesseurs en entrée de notre suite de modèles jina-embeddings-v5-text existante. Les modèles ainsi obtenus génèrent des embeddings pour les images et les enregistrements sonores, sémantiquement compatibles avec ceux qu’ils génèrent pour les textes.

Les modèles v5-omni produisent des embeddings de texte identiques à jina-embeddings-v5-text (c’est-à-dire jina-embeddings-v5-omni-small avec jina-embeddings-v5-text-small ; et jina-embeddings-v5-omni-nano avec jina-embeddings-v5-text-nano), ce qui permet d’étendre les référentiels de récupération de texte existants vers des applications multimédias sans reconstruire vos index.

Les encodeurs intégrés sont tous dérivés de sources open-weight. Pour les images et les vidéos, nous avons utilisé des encodeurs issus de modèles Qwen3.5 :

Nous avons connecté ces encodeurs spécifiques aux médias à la structure de base de traitement du texte avec des projecteurs intermodaux entraînés. Ces projecteurs traduisent leurs sorties natives en enregistrements d’entrée compatibles avec jina-embeddings-v5-text. Les seules parties nouvellement formées des modèles jina-embeddings-v5-omni sont les poids de ces projecteurs.

Cette architecture signifie que nous n’avons qu’à entraîner les projecteurs multimodèles, avec environ 5,5 millions de paramètres pour jina-embeddings-v5-omni-small et moins de 3,5 millions pour jina-embeddings-v5-omni-nano, pour chacun des quatre adaptateurs LoRa. Cette approche réduit fortament la formation supplémentaire nécessaire pour connecter les différents modèles d’intégration, en tirant parti de la formation spécialisée de chacun pour produire une suite d’intégration modulaire extrêmement compacte et performante.

Propriétés du modèle sélectionné

Entrée/sortie

Nom du modèleTaille de la fenêtre contextuelle d’entréeTaille des embeddings
jina-embeddings-v5-omni-small32 768 jetons*1024 dimensions (minimum : 32)
jina-embeddings-v5-omni-nano8 192 jetons *768 dimensions (minimum: 32)

* Voir Utilisation de jina-embeddings-v5-omni ci-dessous pour en savoir plus sur la tokenisation des médias non textuels.

Taille

Nom du modèleTaille totale
jina-embeddings-v5-omni-small (modèle de base texte uniquement + 4 adaptateurs LoRA)700M paramètres
Prise en charge image/vidéo (encodeur SigLIP2 So400m extrait de Qwen3.5-2B)1 006 mds de paramètres
prise en charge de l’audio (encodeur Whisper-large-v3 extrait de Qwen2.5-Omni-7B)1 354 mds de paramètres
les deux1 660 mds de paramètres
adaptateurs LoRA (chacun)20M
jina-embeddings-v5-omni-nano (modèle de base texte uniquement + 4 adaptateurs LoRA)266M paramètres
Prise en charge de l’image/de la vidéo (encodeur de base SigLIP2 extrait de Qwen3.5-0,8B)354M paramètres
prise en charge de l’audio (encodeur Whisper-large-v3 extrait de Qwen2.5-Omni-7B)916M paramètres
les deux1,004B paramètres
adaptateurs LoRA (chacun)7M

* Voir Utilisation de jina-embeddings-v5-omni ci-dessous pour en savoir plus sur la tokenisation des médias non textuels.

Formation spécifique à la tâche

La famille jina-embeddings-v5-omni prend en charge les mêmes adaptateurs LoRA spécifiques à la tâche que jina-embeddings-v5-text :

TâcheExemples d'utilisation
RécupérationLa recherche d’informations, qu’elle soit utilisée seule ou en combinaison avec d’autres techniques de recherche et d’évaluation des candidats. Avec les modèles v5-omni, vous pouvez récupérer l’audio, la vidéo et les images en une seule requête à partir d’un seul index.
ClusteringRecherche de thèmes et organisation automatique des thèmes dans tous les médias.
ClassificationCatégorisation, analyse des sentiments et types de tâches associées.
Similarité sémantiqueDéduplication des données à travers les médias, les systèmes de recommandation, les médias connexes, la recherche de textes correspondant à la parole, l’identification des traductions et des tâches similaires.

Les embeddings de sortie dépendent de la catégorie de tâche sélectionnée. Par exemple, il est déconseillé d’utiliser des embeddings orientés vers la récupération pour le clustering ou des embeddings de similarité sémantique pour la classification.

Multimédia, multimodal, multilingue, multifonctionnel

Pour démontrer ce que jina-embeddings-v5-omni peut accomplir, examinons les célèbres passages d’ouverture de deux romans et évaluons leur similarité sémantique :

Le conte de deux cités (Charles Dickens)

Orgueil et préjugés (Jane Austen)

En utilisant jina-embeddings-v5-omni-small, avec son adaptateur de similarité sémantique, ces textes ont une similarité de 0,5329.

Ce chiffre ne signifie pas grand-chose sans point de comparaison, alors comparons ces deux textes à leurs traductions françaises en utilisant le même modèle et le même adaptateur :

Scores de similarité sémantique pour des textes dans différentes langues

A Tale of Two Cities (anglais)Pride and prejudice (anglais)
Le Conte de deux cités (français) (Paris et Londres en 1783, tr. H. Loreau)0,90950,5074
Pride and Prejudice (français) (Orgueil et Préjugés, tr. Leconte et Pressoir)0,48260,8784

Les deux textes présentent beaucoup plus de similitudes avec leurs traductions qu’avec d’autres textes de la même langue ou d’une langue différente. Ceci reflète les très hautes performances des embeddings sémantiques multilingues de jina-embeddings-v5-text-small, repris tels quels dans jina-embeddings-v5-omni-small.

L’ajout du support multimédia à jina-embeddings-v5-omni signifie que nous pouvons étendre cette expérience à d’autres types de données. Par exemple, nous avons récupéré des scans des premières pages des deux romans à partir d’anciennes éditions imprimées :

Illustration 2 : Le Conte de deux cités, édition non datée du XIXe siècle, et Orgueil et préjugés, édition Macmillan de 1903.

Comparaison des deux textes avec les scans, à nouveau en utilisant l’adaptateur de similarité sémantique :

Scores de similarité sémantique entre textes et images

A Tale of Two Cities (numérisation)Pride and Prejudice (numérisation)
Tale of Two Cities (texte)0,73360,4891
Pride and Prejudice (texte)0,48040,7213

Vous voyez que les scores de similarité sémantique favorisent fortement les textes qui correspondent au contenu des images.

Nous pouvons également comparer les textes à une capture d’écran d’une publication sur les réseaux sociaux et d’un mème qui font référence à ces textes, en utilisant la même configuration :

Illustration 3 : Un tweet d’Elon Musk faisant référence à Le Conte de deux cités, et un mème faisant référence à la célèbre ouverture d’Orgueil et préjugés.

Scores de similarité sémantique entre textes et images

Le Conte de deux citésOrgueil et préjugés
Tweet de Musk (image)0,71560,4912
Mème Keep Calm (image)0,45550,6244

Nous pouvons faire la même chose pour la parole. Nous avons obtenu des enregistrements de lectures des deux textes, en anglais et en français :

Scores de similarité sémantique entre textes et fichiers audio dans différentes langues

A tale of two cities (audio en anglais)Le Conte de deux cités (audio en français)Pride and Prejudice (audio en anglais)Orgueil et préjugés (audio en français)
Le Conte de deux cités (texte anglais)0,38160,31060,16070,1774
Le Conte de deux cités (texte français)0,35280,32530,15980,1721
Pride and Prejudice (texte en anglais)0,19100,16820,35110,3398
Orgueil et préjugés (texte français)0,16670,14740,30180,3702

Cette capacité multilingue et multimédia s'étend à la récupération d'informations.

Les adaptateurs de récupération pour les modèles jina-embeddings-v5-omni implémentent une récupération asymétrique. Ils intègrent donc les requêtes différemment de la manière dont ils intègrent les documents cibles de récupération, de sorte que les requêtes intermodales sont toujours dans une certaine direction, avec des requêtes dans un média et des documents dans un autre, donnant des scores différents de ceux obtenus lorsqu’ils sont inversés.

Les tableaux ci-dessous montrent les scores de récupération pour le texte, l’audio et la numérisation de pages pour Le Conte de deux cités et Orgueil et préjugés, lorsque le texte de Le Conte de deux cités (en anglais) est codé comme requête :

Texte à texte

DocumentScore de récupération
L'histoire de deux villes (extrait du texte français)0,7597
Pride and Prejudice (extrait en anglais)0,1482
Orgueil et préjugés (extrait de texte en français)0,0523

Image en texte

DocumentScore de récupération
A Tale of Two Cities (scan de la page en anglais)0,5517
Le Conte de deux cités (scan de la page en français)0,3576
Pride and Prejudice (scan de la page en anglais)0,1917

Texte en audio

DocumentScore de récupération
A tale of two cities (audio en anglais)0,3277
Le Conte de deux cités (audio en français)0,1980
Pride and Prejudice (audio en anglais)0,1419
Orgueil et préjugés (audio en français)0,1759

Les utilisateurs peuvent également exécuter la requête dans l’autre sens, en effectuant une récupération audio-texte et image-texte.

Vous trouverez ci-dessous les scores en utilisant l’audio anglais de Le Conte de deux cités comme requête et différents textes comme documents :

Image en texte

DocumentScore de récupération
A Tale of Two Cities (extrait du texte anglais)0,3352
L'histoire de deux villes (extrait du texte français)0,2650
Pride and Prejudice (extrait en anglais)0,1626
Orgueil et préjugés (extrait de texte en français)0,1385

Et les scores utilisant une numérisation de la page un de Le Conte de deux cités (en anglais) comme requête :

Audio en texte

DocumentScore de récupération
A Tale of Two Cities (extrait du texte anglais)0,5304
L'histoire de deux villes (extrait du texte français)0,4845
Pride and Prejudice (extrait en anglais)0,1467
Orgueil et préjugés (extrait de texte en français)0,0761

Les capacités de jina-embeddings-v5-omnipour l’indexation et la recherche vidéo apportent de nouvelles possibilités aux bases de données Elasticsearch, mais elles sont soumises à de nombreuses mises en garde similaires à celles qui s’appliquent aux textes. Générer un embedding unique pour un long film revient à créer un embedding pour un très long roman : les informations détaillées seront noyées, et l’embedding résultant correspondra à de nombreuses requêtes non pertinentes.

Si vous intégrez l’intégralité du texte du Seigneur des anneaux (environ 500 000 mots), il est probable qu’il corresponde à la plupart des requêtes, quelle que soit la nature de votre recherche. De même, si vous indexez un film hollywoodien de deux heures, vous obtiendrez beaucoup de correspondances fallacieuses et de détails totalement manqués. jina-embeddings-v5-omni est optimal avec les clips courts.

Pour cet exemple, nous avons téléchargé la bande-annonce du film de 1961 Diamants sur canapé (Breakfast At Tiffany’s), qui ne dure que 158 secondes et est dans le domaine public. Vous pouvez voir la bande annonce sur Internet Archive.

Illustration 4 : L’affiche du film Diamants sur canapé (Breakfast At Tiffany’s).

Nous avons utilisé PySceneDetect pour diviser la bande-annonce en 28 scènes individuelles, dont la durée varie de 1,877 seconde (45 images) à 18,393 secondes (441 images). La détection des scènes est imparfaite, mais elle fournit un mécanisme adéquat pour diviser la vidéo en parties de taille réduite pour la récupération. Ensuite, nous avons généré des plongements de documents pour chacun des 28 segments, en utilisant jina-embeddings-v5-omni-small, afin de tester l’efficacité des requêtes textuelles pour trouver des éléments spécifiques dans la vidéo.

Par exemple, la requête pour « cat » (chat) a renvoyé les extraits suivants comme les trois premiers résultats. La seule scène avec un chat est en tête, avec un score de 0,1634:

Regardez le premier clip.

La correspondance suivante, avec un score de 0,1237, est bien plus faible :

Regardez l’extrait 2.

Vous pouvez également rechercher des actions. Si vous effectuez une requête avec la chaîne « kiss » (baiser), les quatre premiers résultats correspondent tous à des baisers :

Regardez le clip 3. Son score est de 0,2864.

Scores : pour le deuxième match (0,2494), le troisième match (0,2099) et le quatrième match (0,2068), respectivement.

Et vous pouvez rechercher du texte affiché dans les vidéos, comme pour « Buddy Ebsen », qui n’apparaît qu’une seule fois. jina-embeddings-v5-omni-small le considère facilement comme la meilleure correspondance avec un score de 0,3885, soit bien plus que la meilleure correspondance suivante :

Clip de Buddy Ebsen.

Récupération visuelle de documents

Les modèles d’intégration multimodale Jina AI sont les plus performants en traitement visuel de documents et sont à la pointe de la technologie en matière de traitement de documents visuels multilingues. Cela signifie gérer des données d’image contenant du texte, des illustrations et des informations structurées. Les données importantes prennent souvent la forme de scans imprimés, de fichiers PDF, de diagrammes, de dessins techniques, de captures d’écran, d’images, d’infographies, etc. Ces types d’images sont souvent composés mécaniquement ou générés par ordinateur. En général, ils ne peuvent pas être réduits à du texte sans perte de sens et sont peu adaptés aux modèles de vision par ordinateur conçus pour la photographie de scènes naturelles.

jina-embeddings-v5-omniLes embeddings englobent des informations sur les éléments de l’image, le texte qui y est imprimé et les relations entre les deux. La recherche de documents visuels permet d’indexer des images riches qui contiennent à la fois des objets et du texte pertinent, et ce, dans plusieurs langues.

Prenons comme exemple quatre images de produits provenant de différents sites web de commerce électronique :

Voyons maintenant comment jina-embeddings-v5-omni-small évalue ces quatre images pour la requête « nouilles ramen » :

Campbell’s Chunky Chicken Noodle (emballage canadien)Kraft Dinner (emballage canadien)Ramen frais saveur miso Maruchan (emballage japonais)Birkel Spaghetti (emballage allemand)
0,08720,07110,11230,0886

Il trouve facilement la correspondance japonaise.

Maintenant, essayons une requête pour « マカロニチーズ » (japonais pour macaronis au fromage) :

Campbell’s Chunky Chicken Noodle (emballage canadien)Kraft Dinner (emballage canadien)Ramen frais saveur miso Maruchan (emballage japonais)Birkel Spaghetti (emballage allemand)
0,22070,34870,27600,2674

Il trouve la correspondance correcte avec la même facilité qu’une requête en anglais.

jina-embeddings-v5-omni Il excelle également dans l’interprétation d’images riches en informations, comme les graphiques. Pour voir cela en action, regardez ces deux graphiques à barres :

Deux graphiques, le graphique 1 à gauche, sur la charge mondiale de morbidité, et le graphique 2 à droite, sur l’espérance de vie des races de chiens.

Voyons maintenant dans quelle mesure ils correspondent à deux questions textuelles potentielles, chacune étant pertinente pour l’un des graphiques mais pas pour les deux, en utilisant jina-embeddings-v5-omni-small pour la récupération :

Question en texteGraphique 1Tableau 2
« Quels sont les problèmes médicaux courants chez les personnes âgées ? »0,27870,1099
« Combien de temps vivent les chiens ? »0,13500,3564

Vous pouvez aussi inverser la recherche, en utilisant des images comme requêtes pour trouver des textes. Le tableau ci-dessous montre les documents cibles extraits des résumés d’articles scientifiques liés par thème et leurs scores de récupération, en utilisant les images de graphiques comme requêtes :

Texte 1Texte 2
La santé des populations vivant dans l’extrême pauvreté est depuis longtemps au cœur des efforts de développement mondiaux et reste une priorité à l’ère des objectifs de développement durable. Cependant, depuis près de vingt ans, aucune tentative systématique n’a été faite pour quantifier l’ampleur et les causes de ce problème dans cette population spécifique. Nous avons estimé les taux de maladies par cause pour le milliard le plus pauvre du monde et comparé ces taux à ceux des populations à hauts revenus.Le chien de compagnie est l’une des espèces les plus diversifiées sur le plan phénotypique. Les différences entre les races ne se limitent pas à la morphologie et aux aspects du comportement, mais concernent aussi la longévité. Malgré ce fait, peu de recherches ont été consacrées à l’évaluation des variations de l’espérance de vie entre les races ou à l’estimation du potentiel de caractérisation phylogénétique de la longévité.
Graphique 10,23770,1357
Tableau 20,06730,3576

Fonctionnalités

Embeddings tronquables

Nous avons formé les modèles de base jina-embeddings-v5-text qui sous-tendent jina-embeddings-v5-omni avec Matryoshka Representation Learning, afin que vous puissiez tronquer à la fois les textes et les embeddings multimédias de ces modèles.

Par défaut, jina-embeddings-v5-omni-small génère des embeddings à 1024 dimensions, ce qui nécessite 2 Ko pour les stocker avec une précision de 16 bits. Les embeddings de jina-embeddings-v5-omni-nanoont 768 dimensions, occupant environ 1,5 Ko. Vous pouvez réduire la taille de ces embeddings à 32 dimensions (64 octets) au détriment de la précision, mais avec un gain important en termes de vitesse de traitement et de réduction des coûts de ressources. En général, réduire de moitié les tailles d’embeddings diminue la précision d’environ 2 %, jusqu’à 128 dimensions, en dessous desquelles la précision chute beaucoup plus rapidement.

Les embeddings tronquables permettent aux utilisateurs de décider du compromis optimal entre précision, rapidité et coût, compte tenu de leurs propres cas d’utilisation.

Quantification

La famille jina-embeddings-v5-omni hérite également de solides performances en matière de quantification grâce à son architecture jina-embeddings-v5-text. Cela permet d’augmenter la vitesse et de réduire les coûts de calcul et de stockage en stockant des nombres moins précis. Nous les avons entraînés à fonctionner avec la Better Binary Quantization(BBQ) d’Elasticsearch afin d’obtenir des performances quasiment identiques à celles des intégrations non quantifiées. Sur la suite de benchmarks de récupération Massive Text Embedding Benchmark (MTEB), la binarisation réduit les performances de moins de 3 % par rapport aux valeurs complètes sur 16 bits, tout en économisant 93 % de l’espace et en augmentant considérablement les vitesses de traitement et de récupération.

Performance inter-langues

jina-embeddings-v5-textCet entraînement multilingue approfondi se retrouve dans jina-embeddings-v5-omni, avec près de 100 langues lors du pré-entraînement de jina-embeddings-v5-text-smallet 15 grandes langues mondiales lors de celui de jina-embeddings-v5-text-nano. Pour les médias audio, le modèle Whisper-large-v3 a été entraîné sur environ 100 langues, et les modèles de vision SigLip2 modifiés par Qwen, intégrés dans jina-embeddings-v5-omni-small et -nano, ont été entraînés à partir de données issues de 201 langues et dialectes distincts.

Performance des benchmarks

Texte

jina-embeddings-v5-omni Sont identiques aux modèles jina-embeddings-v5-text lorsqu’ils sont utilisés uniquement pour le texte. Ils sont les plus performants sur la suite MMTEB benchmark dans leurs catégories de taille respectives pour les embeddings textuels sémantiques.

Illustration 5 : Taille et performances de jina-embeddings-v5-omnisur des benchmarks de texte, comparées à celles des modèles concurrents. La taille citée ne tient pas compte du chargement des extensions pour les autres médias.

Similarité sémantique visuelle

Sur les benchmarks standard de similarité sémantique visuelle, jina-embeddings-v5-omni obtient les meilleurs scores parmi tous les modèles de taille comparable. Les modèles jina-embeddings-v5-omni affichent de loin les meilleures performances parmi les modèles publics open weights de taille comparable. jina-embeddings-v5-omni-small n'est battu que par un modèle trois fois plus grand sur les tâches de similarité sémantique visuelle, et jina-embeddings-v5-omni-nano n'est battu que par jina-embeddings-v5-omni-small et par des modèles de 10 à 25 fois plus grands.

Illustration 6 : Scores moyens de similarité sémantique visuelle pour jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano, et des modèles comparables, ainsi que leurs tailles incluant les extensions de vision.

Récupération visuelle de documents

jina-embeddings-v5-omni-small est compétitif avec des modèles de trois et sept milliards de paramètres tout en restant sous un milliard de paramètres. jina-embeddings-v5-omni-nano se distingue également par sa taille, devançant les modèles dix à soixante fois plus grands.

Illustration 7 : Scores moyens de récupération de documents visuels ViDoRe sur six benchmarks : DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad et TatDQA.

Récupération audio

Selon les critères de référence standard de la MAEB (Massive Audio Embedding Benchmark) en matière de récupération audio, jina-embeddings-v5-omni-small et jina-embeddings-v5-omni-nano se classent parmi les plus performants. Seuls les très grands modèles — plus de trois fois plus grands que jina-embeddings-v5-omni-small — ont battu son score.

Illustration 8 : Score moyen pour différents modèles sur les benchmarks de récupération audio MAEB.

Bien que le modèle larger_clap_general de LAION améliore le score de jina-embeddings-v5-omni-nano tout en ayant moins de paramètres, il s’agit d’un modèle uniquement audio sans aucune des fonctionnalités multimodales supplémentaires de la suite v5-omni.

Vidéo

Sur les vidéos, jina-embeddings-v5-omni-small excelle à repérer le passage dans une vidéo qui correspond à une requête textuelle. Les tests Charades-STA et MomentSeeker sont les études comparatives standard pour cette tâche, et comme le montrent les graphiques ci-dessous, jina-embeddings-v5-omni-small obtient le meilleur score parmi les modèles open-weight comparables, malgré une taille bien plus réduite.

Illustration 9 : Scores Charades-STA pour différents modèles, ainsi que leurs tailles.

Illustration 10 : Scores MomentSeeker pour différents modèles, ainsi que leurs tailles.

Nous avons également comparé jina-embeddings-v5-omni-small à Seed 1.6 de ByteDance, un modèle à poids fermé avec un nombre de paramètres non divulgué. Notre modèle beats largement la Seed 1.6 sur le benchmark Charades-STA et l’égale presque sur MomentSeeker.

ModèleScore Charades-STALe score de MomentSeeker
seed-1,6-embedding29,3059,30
jina-embeddings-v5-omni-small55,5758,93

Points forts et limites

jina-embeddings-v5-omni Les modèles améliorent la capacité des utilisateurs à indexer, rechercher et analyser des informations numérisées de plusieurs manières, notamment :

  • Récupération de parole multilingue à partir de requêtes textuelles.
  • PDF, scans et recherche visuelle de documents.
  • Ancrage temporel de vidéos, c'est-à-dire l'identification des parties de vidéos correspondant à des descriptions en langage naturel.
  • Classification des genres audio, y compris les genres musicaux.
  • Classification d’images basée sur les informations de scène et l’identification d’objets.

Les performances sont plus limitées dans certains autres domaines. Il est peut-être possible d’utiliser jina-embeddings-v5-omni pour effectuer ces tâches, mais nous n’avons pas effectué d’entraînement pour ces tâches et les résultats peuvent être médiocres.

Nous travaillons activement à l'amélioration de notre technologie dans ces domaines :

  • Trouver des vidéos spécifiques à partir de descriptions en langage naturel.
  • Similarité sémantique et recherche d’images.
  • Classification des intentions dans le discours, comme la reconnaissance de commandes verbales.
  • Traitement des entrées multimédias mixtes, c’est-à-dire des images et du texte d’accompagnement, ou de l’audio, des images et des textes combinés.

Utilisation

Cette suite de modèles prend en charge trois types d’entrée : texte, audio, images et vidéos combinées. jina-embeddings-v5-omni fonctionne dans un framework qui convertit une large gamme de formats standards et effectue d’autres prétraitements.

Nous traitons les images en utilisant la même approche NaFlex que celle fournie dans la version initiale de SigLip2 : si l’entrée est inférieure à 262 144 pixels (équivalent à 512x512), elle est mise à l’échelle jusqu’à ce qu’elle soit plus grande que ce minimum ; et si elle est supérieure à 3 072 000 pixels, elle est mise à l’échelle jusqu’à ce qu’elle soit plus petite que ce maximum. Le processus de conversion garantit que la hauteur et la largeur de l’image sont un multiple de 14 pixels, avec une distorsion du rapport hauteur/largeur aussi faible que possible pour atteindre cet objectif. Le résultat est divisé en carrés de 28x28 pixels, de sorte que le nombre total de carrés est égal au nombre de carrés de 28x28 nécessaires pour couvrir l’image. Chaque carré est traité comme un jeton unique au moment de l’inférence, et chaque entrée d’image est accompagnée de jetons spéciaux de début et de fin pour délimiter une image unique.

Les modèles jina-embeddings-v5-omni modifient la résolution vidéo de la même manière que les images (voir ci-dessus), et nous extrayons jusqu’à 32 images de la vidéo. Si la vidéo a plus de 32 images (ce qui est probable, puisque les formats standards sont généralement au moins 24 images par seconde), nous étalons uniformément les images extraites. Ensuite, pour chaque deux images, le préprocesseur vidéo génère un ensemble de jetons égal au nombre de 28x28 carrés nécessaires pour couvrir la vidéo.

Figure 11 : jina-embeddings-v5-omni extrait 32 images régulièrement espacées de la vidéo. Si votre vidéo est longue, cela signifie qu'une grande partie sera perdue.

Pour plus de détails sur le prétraitement vidéo, consultez la documentation technique de SigLip2.

La tokenisation audio suit l’approche intégrée à Qwen-2.5-Omni : Les fichiers sonores sont découpés en segments de 30 secondes. S’ils sont plus longs, ils sont rééchantillonnés à 16 kHz, transformés en spectrogramme Mel à 128 canaux. Chaque 40 ms est traité comme un seul jeton, donc chaque segment de 30 secondes est géré comme 750 jetons, un jeton par 40 ms d’audio, plus des jetons spéciaux de début et de fin pour délimiter un échantillon unique.

Pour plus de détails sur le prétraitement audio, consultez le rapport technique Qwen-2.5-Omni.

Disponibilité

[@portabletext/react] Unknown block type "block", specify a component for it in the `components.types` prop

Premiers pas

Pour utiliser les modèles jina-embeddings-v5-omni sur EIS, réglez le champ type sur semantic_text (même si le média n’est pas entièrement textuel) lors de la création de votre index et en spécifiant soit jina-embeddings-v5-omni-small, soit jina-embeddings-v5-omni-nano dans le champ inference_id. EIS sélectionne automatiquement l’adaptateur LoRA pour l’indexation et la recherche.

Pour le texte, la procédure est identique à jina-embeddings-v5-text :

Pour saisir d’autres médias, convertissez-les d’abord en chaîne Base64, puis placez cette chaîne dans le même champ que celui que vous utiliseriez pour le texte :

Faites de même pour les requêtes multimédias :

Pour y accéder via l’API Jina, consultez le site web de Jina AI.

Pour utiliser le classificateur, le clustering ou les adaptateurs de similarité sémantique, ou pour tronquer les embeddings à des tailles personnalisées, créez un endpoint d’inférence personnalisé pour votre projet et suivez les instructions qui s’y trouvent pour vous connecter aux modèles Jina AI et leur transmettre des paramètres.

Pour utiliser BBQ avec jina-embeddings-v5-omni, suivez les instructions pour l’indexation de BBQ.

Plus d'informations

Pour plus d’informations sur jina-embeddings-v5-omni, consultez le rapport technique et la page du modèle sur le site web de Jina AI. La page de la collection jina-embeddings-v5-omni sur Hugging Face contient également des informations techniques et des instructions pour télécharger et exécuter ces modèles localement. Les modèles jina-embeddings-v5-omni peuvent être téléchargés sous une licence CC-BY-NC-4.0, vous êtes donc libre de les essayer, mais pour un usage commercial, veuillez contacter le service commercial d’Elastic.

Ce contenu vous a-t-il été utile ?

Pas utile

Plutôt utile

Très utile

Pour aller plus loin

Prêt à créer des expériences de recherche d'exception ?

Une recherche suffisamment avancée ne se fait pas avec les efforts d'une seule personne. Elasticsearch est alimenté par des data scientists, des ML ops, des ingénieurs et bien d'autres qui sont tout aussi passionnés par la recherche que vous. Mettons-nous en relation et travaillons ensemble pour construire l'expérience de recherche magique qui vous permettra d'obtenir les résultats que vous souhaitez.

Jugez-en par vous-même