jina-embeddings-v5-omni reúne texto, imagens, vídeo e áudio em um único índice do Elasticsearch. Estendendo os modelos líderes da categoria jina-embeddings-v5-text, suíte v5-omni adiciona codificação visual e de áudio por meio de uma arquitetura inovadora que mantém a estrutura principal de texto inalterado, oferecendo desempenho de ponta em um único modelo de embedding muito compacto.
Agora você pode criar embeddings semânticos de alto desempenho para texto, imagens, vídeos e gravações de áudio, abrangendo quase 100 idiomas, e utilizá-los para classificação, clustering, medição de similaridade semântica e indexação para recuperação de informações. Se seus dados estão em PDFs, gravações e vídeos junto com texto, você não precisa mais de pipelines separados para cada um.
A família jina-embeddings-v5-omni é o modelo de embedding mais compacto atualmente no mercado, com suporte para imagens, fala, documentos impressos e vídeo. Ela oferece:
jina-embeddings-v5-textEmbeddings de texto de última geração para aplicações de recuperação, análise e agentes de IA.- Embeddings com o melhor desempenho da categoria em termos de tamanho para similaridade semântica visual, compreensão visual e recuperação de imagens.
jina-embeddings-v5-omni-smalltem o melhor desempenho em benchmarks de imagem de qualquer modelo nos parâmetros de 1 bilhão (10⁹) e é superior ao nosso própriojina-clip-v2anterior. Apenas alguns modelos com três a trinta vezes mais parâmetros conseguem superá-lo. - Embeddings de última geração para compreensão e recuperação visual multilíngue, superando modelos até 20 vezes maiores.
- Os melhores embeddings de áudio da categoria de tamanho, com apenas modelos que têm o dobro ou mais de parâmetros apresentando melhor desempenho em benchmarks padrão.
- Suporte a vídeo, especialmente para localizar objetos e eventos em vídeos.
Isso tem aplicações em todas as áreas de recuperação de informações, processamento de documentos e análise de dados. O jina-embeddings-v5-omni abre o acesso a informações bloqueadas em diferentes silos de mídia e as torna acessíveis para recuperação, análise e uso por agentes de IA. As informações em gravações de áudio e vídeo, PDF, digitalizações de páginas impressas e infográficos estão em pé de igualdade com os textos digitalizados em seu ecossistema de dados.
Assim como jina-embeddings-v5-text, esses modelos vêm em dois tamanhos: small e nano. Ambos os modelos estendem suas versões em texto com módulos adicionais que suportam entrada de áudio e vídeo. Os usuários podem selecionar módulos no momento do carregamento. Além disso, extensões específicas de tarefa para similaridade semântica, classificação, agrupamento e recuperação de informações são implementadas como adaptadores compactos de baixo nível (LoRAs) e todas são carregadas, para que os usuários possam selecioná-las no momento da inferência.
Ambos os modelos são muito compactos. jina-embeddings-v5-omni-small pode ser executado em servidores convencionais com GPU, e jina-embeddings-v5-omni-nano é pequeno o suficiente para executar em hardware comum. Isso representa uma grande economia potencial nos custos de computação e possibilita a instalação local licenciada e o processamento na borda, reduzindo a latência e aumentando o controle de seus próprios dados.
A suíte v5-omni usa técnicas inovadoras de design de modelos e Machine Learning para compor novos modelos de embedding a partir de modelos previamente treinados, sem precisar treiná-los novamente. Usamos codificadores de modelos pré-treinados, alinhados linguisticamente e incorporados para mídia de áudio e vídeo como pré-processadores de entrada para nosso conjunto de modelos jina-embeddings-v5-text existente. Os modelos resultantes geram embeddings para imagens e gravações de som que são semanticamente compatíveis com as embeddings gerados para textos.
Os modelos v5-omni produzem embeddings de texto idênticas a jina-embeddings-v5-text (isto é, jina-embeddings-v5-omni-small com jina-embeddings-v5-text-small; e jina-embeddings-v5-omni-nano com jina-embeddings-v5-text-nano), para que você possa estender repositórios de recuperação de texto existentes para aplicativos multimídia sem reconstruir seus índices.
Os codificadores integrados são todos derivados de modelos de pesos abertos. Para imagens e vídeos, utilizamos codificadores dos modelos Qwen3.5:
- Para
jina-embeddings-v5-omni-nano, o codificador SigLIP2 Base ajustado de Qwen3.5-0.8B. - Para
jina-embeddings-v5-omni-small, o codificador SigLIP2 So400m ajustado de Qwen3.5-2B. - Para suporte de áudio, adicionamos o codificador do Whisper-large-v3, extraído do Qwen2.5-Omni-7B, às versões small e nano.
Conectamos esses codificadores específicos de mídia ao backbone de processamento de texto com projetores multimodais treinados. Esses projetores traduzem suas saídas nativas para embeddings de entrada compatíveis com jina-embeddings-v5-text. As únicas partes recém-treinadas dos modelos jina-embeddings-v5-omni são os pesos nesses projetores.

Um esquema dos modelos jina-embeddings-v5-omni. Apenas os projetores multimídia têm novo treinamento.
Essa arquitetura significa que só precisamos treinar os projetores entre modelos, cerca de 5,5 milhões de parâmetros para jina-embeddings-v5-omni-small e menos de 3,5 milhões para jina-embeddings-v5-omni-nano, para cada um dos quatro adaptadores de Low-Rank Adaptation (LoRA). Essa abordagem minimiza o treinamento adicional necessário para conectar diferentes modelos de embedding, aproveitando o treinamento especializado de cada um para produzir um conjunto modular de embedding extremamente compacto e de alto desempenho.
Propriedades selecionadas do modelo
Entrada/saída
| Nome do modelo | Tamanho da janela de contexto de entrada | Tamanho do embedding |
|---|---|---|
| jina-embeddings-v5-omni-small | 32.768 tokens* | 1024 dimensões (mínimo: 32) |
| jina-embeddings-v5-omni-nano | 8.192 tokens* | 768 dimensões (mínimo: 32) |
* Consulte Usando jina-embeddings-v5-omni abaixo para obter mais informações sobre como mídias não textuais são tokenizadas.
Tamanho
| Nome do modelo | Tamanho total |
|---|---|
| jina-embeddings-v5-omni-small (modelo base apenas texto + 4 adaptadores LoRA) | 700M params |
| Suporte a imagens/vídeos (codificador SigLIP2 So400m extraído do Qwen3.5-2B) | 1.006B params |
| suporte a áudio (encoder Whisper-large-v3 extraído do Qwen2.5-Omni-7B) | 1.354B params |
| ambos | 1.660B params |
| adaptadores LoRA (cada) | 20M |
| jina-embeddings-v5-omni-nano (modelo base apenas texto + 4 adaptadores LoRA) | 266M params |
| Suporte a imagens/vídeos (codificador base SigLIP2 extraído de Qwen3.5-0,8B) | 354M params |
| suporte a áudio (encoder Whisper-large-v3 extraído do Qwen2.5-Omni-7B) | 916M params |
| ambos | 1.004B params |
| adaptadores LoRA (cada) | 7M |
* Consulte Usando jina-embeddings-v5-omni abaixo para obter mais informações sobre como mídias não textuais são tokenizadas.
Treinamento específico para tarefas
A família jina-embeddings-v5-omni dá suporte aos mesmos adaptadores LoRA específicos para tarefas que jina-embeddings-v5-text:
| Tarefa | Exemplos de uso |
|---|---|
| Recuperação | Recuperação de informações, isoladamente ou em conjunto com outras técnicas de recuperação e avaliação de resultados. Com os modelos v5-omni, você pode recuperar áudio, vídeo e imagens em uma única consulta de um único índice. |
| Clustering | Descoberta de tópicos e organização automática de conteúdos em todas as mídias. |
| Classificação | Categorização, análise de sentimento e tipos de tarefas relacionadas. |
| Similaridade semântica | Deduplicação de dados em diferentes mídias, sistemas de recomendação, mídias relacionadas, encontrar textos para corresponder à fala, identificar traduções e tarefas similares. |
Os embeddings de saída dependem da categoria de tarefa selecionada. Por exemplo, você não deve usar embeddings orientados à recuperação para agrupamento nem embeddings de similaridade semântica para classificação.
Multimídia, multimodal, multilíngue, multifuncional
Para mostrar o que jina-embeddings-v5-omni é capaz, vamos pegar as famosas passagens iniciais de dois romances e medir sua semelhança semântica:
Um Conto de Duas Cidades (Charles Dickens)
Orgulho e Preconceito (Jane Austen)
Usando jina-embeddings-v5-omni-small, com seu adaptador de similaridade semântica, esses textos têm uma similaridade de 0,5329.
Esse número não significa muito sem algo para comparar, então vamos comparar esses dois textos com suas traduções francesas usando o mesmo modelo e adaptador:
Pontuações de similaridade semântica para textos entre línguas
| Um Conto de Duas Cidades (inglês) | Orgulho e Preconceito (inglês) | |
|---|---|---|
| Um Conto de Duas Cidades (francês)(Paris et Londres en 1783, trad. H. Loreau) | 0,9095 | 0,5074 |
| Orgulho e Preconceito (Francês) (Orgueil et Préjugés, tr. Leconte et Pressoir) | 0,4826 | 0,8784 |
Os dois textos mostram muito mais similaridade com suas traduções do que com outros textos no mesmo idioma ou em outro idioma. Isso reflete os embeddings semânticos multilíngues de altíssimo desempenho de jina-embeddings-v5-text-small, incluídas inalteradas em jina-embeddings-v5-omni-small.
Adicionar suporte multimídia ao jina-embeddings-v5-omni significa que podemos estender este experimento para outros tipos de dados. Por exemplo, obtivemos digitalizações das primeiras páginas de ambos os romances em edições impressas antigas:

Figura 2: Um Conto de Duas Cidades, edição do século XIX sem data, e Orgulho e Preconceito, edição Macmillan de 1903.
Vamos comparar os dois textos com as digitalizações, usando novamente o adaptador de similaridade semântica:
Pontuações de similaridade semântica entre textos e imagens
| Um Conto de Duas Cidades (digitalização) | Orgulho e Preconceito (digitalização) | |
|---|---|---|
| Um Conto de Duas Cidades (texto) | 0,7336 | 0,4891 |
| Orgulho e Preconceito (texto) | 0,4804 | 0,7213 |
Você vê que as pontuações de similaridade semântica favorecem fortemente textos que correspondem ao conteúdo das imagens.
Podemos também comparar os textos com uma captura de tela de uma postagem nas redes sociais e um meme que fazem referência a esses textos, usando a mesma estrutura:


Figura 3: Um tuíte de Elon Musk que faz referência a A Tale of Two Cities (Um Conto de Duas Cidades) e um meme que faz referência à famosa abertura de Pride and Prejudice (Orgulho e Preconceito).
Pontuações de similaridade semântica entre textos e imagens
| Um Conto de Duas Cidades | Orgulho e Preconceito | |
|---|---|---|
| Tweet de Musk (imagem) | 0,7156 | 0,4912 |
| Meme Keep Calm (imagem) | 0,4555 | 0,6244 |
Podemos fazer o mesmo para a fala. Obtivemos gravações da leitura de ambos os textos, em inglês e francês:
- A Tale of Two Cities (áudio em inglês da Librivox).
- Um Conto de Duas Cidades (áudio em francês gerado pela OmniVoice AI).
- Orgulho e Preconceito (áudio em inglês da Librivox).
- Orgulho e Preconceito (áudio em francês gerado pela OmniVoice AI).
Pontuações de similaridade semântica entre textos e áudios entre línguas
| Um Conto de Duas Cidades (áudio em inglês) | Um Conto de Duas Cidades (áudio em francês) | Orgulho e Preconceito (áudio em inglês) | Orgulho e Preconceito (áudio em francês) | |
|---|---|---|---|---|
| Um Conto de Duas Cidades (texto em inglês) | 0,3816 | 0,3106 | 0,1607 | 0,1774 |
| Um Conto de Duas Cidades (texto em francês) | 0,3528 | 0,3253 | 0,1598 | 0,1721 |
| Orgulho e Preconceito (texto em inglês) | 0,1910 | 0,1682 | 0,3511 | 0,3398 |
| Orgulho e Preconceito (texto em francês) | 0,1667 | 0,1474 | 0,3018 | 0,3702 |
Essa capacidade multilíngue e multimídia se estende à recuperação de informações.
Os adaptadores de recuperação para os modelos jina-embeddings-v5-omni implementam recuperação assimétrica. Isso significa que eles codificam consultas de maneira diferente da forma como incorporam documentos-alvo de recuperação, então as consultas multimodais estão sempre em alguma direção, com consultas em uma mídia e documentos em outra, dando pontuações diferentes de quando são invertidas.
As tabelas abaixo mostram as pontuações de recuperação para texto, áudio e imagens de digitalização de páginas de Um Conto de Duas Cidades e Orgulho e Preconceito, quando o texto de Um Conto de Duas Cidades (em inglês) é codificado como a consulta:
Texto para texto
| Documento | Pontuação de recuperação |
|---|---|
| Um Conto de Duas Cidades (trecho de texto em francês) | 0,7597 |
| Orgulho e Preconceito (trecho do texto em inglês) | 0,1482 |
| Orgulho e Preconceito (trecho de texto em francês) | 0,0523 |
Texto para imagem
| Documento | Pontuação de recuperação |
|---|---|
| Um Conto de Duas Cidades (digitalização da página em inglês) | 0,5517 |
| Um Conto de Duas Cidades (digitalização da página em francês) | 0,3576 |
| Orgulho e Preconceito (digitalização da página em inglês) | 0,1917 |
Texto para áudio
| Documento | Pontuação de recuperação |
|---|---|
| Um Conto de Duas Cidades (áudio em inglês) | 0,3277 |
| Um Conto de Duas Cidades (áudio em francês) | 0,1980 |
| Orgulho e Preconceito (áudio em inglês) | 0,1419 |
| Orgulho e Preconceito (áudio em francês) | 0,1759 |
Os usuários também podem executar a consulta no sentido oposto, realizando recuperação de áudio-texto e imagem-texto.
Abaixo estão as pontuações usando o áudio em inglês de Um Conto de Duas Cidades como consulta e vários textos como documentos:
Imagem para texto
| Documento | Pontuação de recuperação |
|---|---|
| Um Conto de Duas Cidades (trecho do texto em inglês) | 0,3352 |
| Um Conto de Duas Cidades (trecho de texto em francês) | 0,2650 |
| Orgulho e Preconceito (trecho do texto em inglês) | 0,1626 |
| Orgulho e Preconceito (trecho de texto em francês) | 0,1385 |
E as pontuações usando uma digitalização da primeira página de Um Conto de Duas Cidades (em inglês) como consulta:
Áudio para texto
| Documento | Pontuação de recuperação |
|---|---|
| Um Conto de Duas Cidades (trecho do texto em inglês) | 0,5304 |
| Um Conto de Duas Cidades (trecho de texto em francês) | 0,4845 |
| Orgulho e Preconceito (trecho do texto em inglês) | 0,1467 |
| Orgulho e Preconceito (trecho de texto em francês) | 0,0761 |

Busca de vídeo
As capacidades do jina-embeddings-v5-omni para indexação de vídeo e busca trazem novas capacidades aos bancos de dados Elasticsearch, mas estão sujeitas a muitos dos mesmos avisos que se aplicam aos textos. Gerar um único embedding para um filme longo é como incorporar um romance muito longo: informações detalhadas serão diluídas, e o embedding resultante será uma boa correspondência para muitas consultas muito espúrias.
Se você incorporar o texto completo de O Senhor dos Anéis (aproximadamente 500.000 palavras), é provável que ele corresponda à maioria das consultas, independentemente do que você esteja procurando. Da mesma forma, se você indexar um filme de Hollywood de duas horas, obterá muitas correspondências espúrias e detalhes totalmente perdidos. jina-embeddings-v5-omni é ideal com clipes curtos.
Para este exemplo, baixamos o trailer do filme Bonequinha de Luxo, de 1961, que tem apenas 158 segundos de duração e está em domínio público. Você pode assistir ao trailer no Internet Archive.

Figura 4: O pôster teatral de Bonequinha de Luxo.
Nós usamos PySceneDetect para dividir o trailer em 28 cenas individuais, com durações variando de 1,877 segundos (45 quadros) a 18,393 segundos (441 quadros). A detecção de cena é imperfeita, mas fornece um mecanismo adequado para dividir o vídeo em trechos menores para recuperação. Então, geramos embeddings de documentos para cada um dos 28 segmentos, usando jina-embeddings-v5-omni-small, para que pudéssemos testar a eficácia das consultas de texto na localização de elementos específicos no vídeo.
Por exemplo, a consulta por “cat” retornou os seguintes trechos como os três principais resultados. A única cena com um gato está no topo, com uma pontuação de 0,1634:

A próxima melhor correspondência, com uma pontuação de 0,1237, é muito menor:

Você também pode buscar ações. Se você pesquisar por "beijo", as quatro melhores correspondências mostram beijos:

Assista ao clipe 3. Sua pontuação é 0,2864.



Pontuações: Para a segunda correspondência (0,2494), terceira correspondência (0,2099) e quarta correspondência (0,2068), respectivamente.
E você pode buscar textos exibidos em vídeos, como "Buddy Ebsen", que só aparece uma vez. jina-embeddings-v5-omni-small identifica-o prontamente como o melhor resultado com uma pontuação de 0,3885, consideravelmente maior do que o próximo melhor resultado:

Recuperação visual de documentos
Os modelos multimodais de embedding da Jina AI estão entre os melhores em processamento de documentos visuais e são de última geração em processamento visual multilíngue de documentos. Isso significa lidar com dados de imagens que contenham texto, figuras e informações estruturadas. Os dados importantes geralmente estão na forma de digitalizações impressas, arquivos PDF, diagramas, desenhos técnicos, capturas de tela, imagens, infográficos e similares. Esses tipos de imagens geralmente são compostos mecanicamente ou gerados por computador. Eles geralmente não podem ser reduzidos a texto sem perda de significado e são pouco adequados para modelos de visão computacional projetados para fotografar cenas naturais.
jina-embeddings-v5-omniOs embeddings abrangem informações sobre os objetos na imagem, o texto impresso neles e as relações entre eles. A recuperação visual de documentos possibilita indexar imagens ricas em informações que contêm tanto elementos quanto texto relevante, inclusive em diferentes idiomas.
Como exemplo, vamos usar quatro imagens de produtos de vários sites de comércio eletrônico:

Agora, vamos ver como jina-embeddings-v5-omni-small avalia essas quatro imagens para a consulta "miocarrão ramen":
| Campbell’s Frango com Macarrão Grosso (embalagem canadense) | Kraft Dinner (embalagem canadense) | Ramen fresco sabor Maruchan Miso (embalagem japonesa) | Birkel Spaghetti (embalagem alemã) |
|---|---|---|---|
| 0,0872 | 0,0711 | 0,1123 | 0,0886 |
Ele encontra facilmente a correspondência japonesa.
Agora, vamos tentar uma consulta para "マカロニチーズ" (japonês para macarrão com queijo):
| Campbell’s Frango com Macarrão Grosso (embalagem canadense) | Kraft Dinner (embalagem canadense) | Ramen fresco sabor Maruchan Miso (embalagem japonesa) | Birkel Spaghetti (embalagem alemã) |
|---|---|---|---|
| 0,2207 | 0,3487 | 0,2760 | 0,2674 |
Ele encontra a correspondência correta com a mesma facilidade que uma consulta em inglês.
jina-embeddings-v5-omni também se destaca na interpretação de imagens ricas em informações, como gráficos. Para ver isso em ação, veja estes dois gráficos de barras:


Dois gráficos, Gráfico 1 à esquerda, sobre a carga global de doenças, e Gráfico 2 à direita, sobre a longevidade das raças de cães.
Vamos ver como eles correspondem a duas questões de texto potenciais, cada uma relevante para um, mas não para ambos os gráficos, usando jina-embeddings-v5-omni-small para recuperação:
| Pergunta de texto | Gráfico 1 | Gráfico 2 |
|---|---|---|
| “Quais são alguns problemas médicos comuns para idosos?” | 0,2787 | 0,1099 |
| "Quanto tempo os cachorros vivem?" | 0,1350 | 0,3564 |
Você também pode reverter a busca, usando imagens como consultas para encontrar textos. A tabela abaixo mostra documentos-alvo extraídos dos resumos de artigos científicos relacionados ao tópico e suas pontuações de recuperação, usando as imagens do gráfico como consultas:
| Texto 1 | Texto 2 | |
|---|---|---|
| A saúde das populações que vivem em extrema pobreza tem sido um foco de longa data dos esforços de desenvolvimento global e continua sendo uma prioridade durante a era dos Objetivos de Desenvolvimento Sustentável. No entanto, não houve uma tentativa sistemática de quantificar a magnitude e as causas da carga nessa população específica por quase duas décadas. Estimamos as taxas de doenças por causa para o bilhão mais pobre do mundo e comparamos essas taxas com as de populações de alta renda. | O cão de companhia é uma das espécies mais fenotipicamente diversas. A variabilidade entre raças se estende não apenas à morfologia e aspectos do comportamento, mas também à longevidade. Apesar desse fato, poucas pesquisas têm sido dedicadas à avaliação da variação na expectativa de vida entre raças ou à avaliação do potencial para caracterização filogenética da longevidade. | |
| Gráfico 1 | 0,2377 | 0,1357 |
| Gráfico 2 | 0,0673 | 0,3576 |
Recursos
Embeddings truncáveis
Treinamos os modelos de base jina-embeddings-v5-text que sustentam jina-embeddings-v5-omni com Aprendizado de Representação Matryoshka, para que você possa truncar embeddings de texto e multimídia desses modelos.
Por padrão, jina-embeddings-v5-omni-small gera embeddings com 1.024 dimensões, consumindo 2KB para armazenar com precisão de 16 bits. Os embeddings do jina-embeddings-v5-omni-nano têm 768 dimensões, ocupando cerca de 1,5KB. Você pode reduzir o tamanho desses embeddings para 32 dimensões (64 bytes) a algum custo para a precisão, mas com grande ganho na velocidade de processamento e redução dos custos de recursos. Em geral, reduzir o tamanho dos embeddings pela metade diminui a precisão em cerca de 2%, até 128 dimensões, abaixo das quais a precisão cai muito mais rápido.
Embeddings truncáveis permitem que os usuários decidam o melhor compromisso entre precisão, velocidade e custo, de acordo com seus casos de uso.
Quantização
A família jina-embeddings-v5-omni também herda desempenho robusto com quantização de sua estrutura principal jina-embeddings-v5-text. Isso aumenta ainda mais a velocidade e reduz os custos de computação e armazenamento ao armazenar números menos precisos. Nós os treinamos para funcionar com Elasticsearche sua Quantização Binária Aprimorada (BBQ), para fornecer desempenho quase idêntico ao de embeddings não quantizados. No conjunto de benchmarks de recuperação Massive Text Embedding Benchmark (MTEB), a binarização reduz o desempenho em menos de 3% em comparação com valores completos de 16 bits, enquanto economiza 93% do espaço e aumenta drasticamente as velocidades de processamento e recuperação.
Desempenho multilíngue
jina-embeddings-v5-textO extenso treinamento multilíngue também está presente em jina-embeddings-v5-omni, com quase 100 idiomas na pré-formação de jina-embeddings-v5-text-small e 15 principais línguas globais em jina-embeddings-v5-text-nano. Para mídia de áudio, o modelo Whisper-large-v3 possui aproximadamente 100 idiomas em seu treinamento, e os modelos de visão SigLip2 modificados por Qwen, integrados em jina-embeddings-v5-omni-small e -nano, foram treinados com dados de 201 idiomas e dialetos distintos.
Desempenho em benchmarks
Texto
jina-embeddings-v5-omni Os modelos são idênticos aos modelos jina-embeddings-v5-text quando usados apenas para texto. São os modelos com melhor desempenho no conjunto de benchmarks MMTEB em suas respectivas categorias de tamanho para embeddings semânticos de texto.

Figura 5: Tamanho e desempenho de jina-embeddings-v5-omniem benchmarks de texto, em comparação com modelos concorrentes. O tamanho citado é sem carregar extensões para outras mídias.
Similaridade semântica visual
Nos benchmarks padrão de similaridade semântica visual, jina-embeddings-v5-omni apresenta as melhores pontuações de qualquer modelo próximo ao seu tamanho. jina-embeddings-v5-omni modelos apresentam, de longe, o melhor desempenho entre os modelos públicos de pesos abertos de tamanho comparável. jina-embeddings-v5-omni-small só é superado por um modelo três vezes maior em tarefas de similaridade semântica visual, e jina-embeddings-v5-omni-nano é superado apenas por jina-embeddings-v5-omni-small e por modelos 10 a 25 vezes maiores.

Figura 6: Benchmark de pontuação média de similaridade semântica visual para os modelos jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano e comparáveis, além de seus tamanhos, incluindo extensões de visão.
Recuperação visual de documentos
jina-embeddings-v5-omni-small é competitivo com modelos de três e sete bilhões de parâmetros, permanecendo abaixo de um bilhão de parâmetros. jina-embeddings-v5-omni-nano também se destaca pelo tamanho, superando modelos de dez a sessenta vezes maiores.

Figura 7: Pontuações médias de recuperação visual de documentos do ViDoRe em seis benchmarks: DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad e TatDQA.
Recuperação de áudio
Nos benchmarks padrão de recuperação de áudio MAEB (Massive Audio Embedding Benchmark), tanto jina-embeddings-v5-omni-small quanto jina-embeddings-v5-omni-nano estão entre os melhores desempenhos. Apenas modelos muito grandes — mais de três vezes maiores que jina-embeddings-v5-omni-small — superam sua pontuação.

Figura 8: Pontuação média para vários modelos nos benchmarks de recuperação de áudio MAEB.
Embora o modelo larger_clap_general da LAION melhore a pontuação do jina-embeddings-v5-omni-nano ao ter menos parâmetros, é um modelo apenas de áudio, sem nenhum dos recursos multimodais adicionais do conjunto v5-omni.
Vídeo
No vídeo, jina-embeddings-v5-omni-small se destaca em encontrar o lugar em um vídeo que corresponde a uma consulta de texto. Os testes Charades-STA e MomentSeeker são os benchmarks padrão para essa tarefa, e você pode ver nos gráficos abaixo que jina-embeddings-v5-omni-small é o modelo com melhor pontuação entre modelos de pesos abertos comparáveis, apesar de seu tamanho muito menor.

Figura 9: Pontuações Charades-STA para vários modelos, junto com seus tamanhos.

Figura 10: Pontuações do MomentSeeker para vários modelos, junto com seus tamanhos.
Também comparamos jina-embeddings-v5-omni-small com o Seed 1.6 da ByteDance, um modelo de peso fechado com contagem de parâmetros não divulgada. Nosso modelo supera o Seed 1.6 por uma grande margem no benchmark Charades-STA e quase iguala no MomentSeeker.
| Modelo | Pontuação Charades-STA | Pontuação do MomentSeeker |
|---|---|---|
| seed-1.6-embedding | 29,30 | 59,30 |
| jina-embeddings-v5-omni-small | 55,57 | 58,93 |
Pontos fortes e limitações
jina-embeddings-v5-omni Os modelos ampliam a capacidade dos usuários de indexar, buscar e analisar informações digitalizadas de várias maneiras, particularmente:
- Recuperação de fala multilíngue a partir de consultas de texto.
- PDF, digitalizações e busca visual de documentos.
- Localização temporal em vídeos, ou seja, identificar trechos dos vídeos que correspondem a descrições em linguagem natural.
- Classificação de gêneros de áudio, incluindo gêneros musicais.
- Classificação de imagem baseada em informações da cena e identificação de objetos.
O desempenho é mais limitado em outras áreas. Pode ser possível usar jina-embeddings-v5-omni para realizar essas tarefas, mas não treinamos para elas e os resultados podem ser ruins.
Estamos trabalhando ativamente para aprimorar nossa tecnologia nestas áreas:
- Encontrar vídeos específicos a partir de descrições em linguagem natural.
- Similaridade semântica e recuperação de imagens (imagem para imagem).
- Classificação de intenção na fala, como reconhecer comandos verbais.
- Processamento de entradas multimídia, ou seja, imagens e textos acompanhantes, ou áudio, imagens e textos combinados.
Usando
Este conjunto de modelos permite entrada por meio de três pontos de entrada: texto, áudio, imagens e vídeo juntos. jina-embeddings-v5-omni é executado em um framework que converte uma ampla variedade de formatos padronizados e realiza outros pré-processamentos.
Processamos as imagens usando a mesma abordagem NaFlex fornecida na versão inicial do SigLip2: se a entrada for menor que 262.144 pixels (equivalente a 512x512), ela é ampliada até ficar maior que esse mínimo; e se for maior que 3.072.000 pixels, ela é reduzida até ficar menor que esse máximo. O processo de conversão garante que a altura e a largura da imagem sejam múltiplas de 14 pixels, com a menor distorção possível na proporção para atingir esse objetivo. O resultado é dividido em patches de 28x28 pixels, então o número total de patches é quantos quadrados de 28x28 forem necessários para cobrir a imagem. Cada patch é tratado como um único token no momento da inferência, e cada entrada de imagem é acompanhada por tokens especiais de início e fim para delimitar uma única imagem.

Aviso Omni
Os modelos jina-embeddings-v5-omni modificam a resolução do vídeo da mesma forma que as imagens são modificadas (veja acima), e extraímos até 32 quadros do vídeo. Se o vídeo tiver mais de 32 quadros (o que é provável, já que os formatos padrão geralmente têm pelo menos 24 quadros por segundo), espaçaremos uniformemente os quadros que extraímos. Então, para cada dois quadros, o pré-processador de vídeo gera um conjunto de tokens igual ao número de quadrados 28x28 necessários para cobrir o vídeo.

Figura 11: jina-embeddings-v5-omni extrai 32 quadros igualmente espaçados do vídeo. Se você tiver um vídeo longo, isso significa que muita coisa será perdida.
Para mais detalhes sobre pré-processamento de vídeo, veja a documentação técnica do SigLip2.
A tokenização de áudio segue a abordagem incorporada ao Qwen-2.5-Omni: Os arquivos de som são cortados em segmentos de 30 segundos; se tiverem mais de 30 segundos, serão reamostrados para 16 kHz e transformados em um mel espectrograma de 128 canais Cada 40 ms é tratado como um único token, portanto, cada segmento de 30 segundos é tratado como 750 tokens, um token por 40 ms de áudio, além de tokens especiais de início e fim para delimitar uma única amostra.
Para mais detalhes sobre pré-processamento de áudio, veja o Relatório Técnico Qwen-2.5-Omni.
Disponibilidade
Para começar
Para usar jina-embeddings-v5-omni modelos no EIS, defina o campo type para semantic_text (mesmo que a mídia não seja toda texto) ao criar seu índice e especificar jina-embeddings-v5-omni-small e jina-embeddings-v5-omni-nano no campo inference_id. O EIS seleciona automaticamente o adaptador LoRA para indexação e recuperação.
Para textos, o procedimento é idêntico ao de jina-embeddings-v5-text:
Para inserir outras mídias, primeiro converta para uma string Base64 e depois coloque essa string no mesmo campo que você usaria para texto:
Repita o mesmo para consultas multimídia:
Para acesso via API Jina, consulte o website Jina AI.
Para usar os adaptadores de classificação, clustering ou similaridade semântica, ou para truncar embeddings para tamanhos personalizados, crie um endpoint de inferência personalizado para o seu projeto e siga as instruções ali presentes para conectar-se aos modelos da Jina AI e passar parâmetros para eles.
Para usar BBQ com jina-embeddings-v5-omni, siga as instruções para indexação BBQ.
Mais informações
Para mais informações sobre jina-embeddings-v5-omni, consulte o relatório técnico e a página do modelo no website da Jina AI. A página da coleção jina-embeddings-v5-omni no Hugging Face também contém informações técnicas e instruções para baixar e executar esses modelos localmente. Os modelos jina-embeddings-v5-omni podem ser baixados sob uma licença CC-BY-NC-4.0, portanto, você pode experimentá-los livremente, mas para uso comercial, por favor, entre em contato com a equipe de vendas da Elastic.




