jina-embeddings-v5-omni para texto, imagens, vídeo e áudio

jina-embeddings-v5-omni reúne texto, imagens, vídeo e áudio em um único índice do Elasticsearch. Estendendo os modelos líderes da categoria jina-embeddings-v5-text, suíte v5-omni adiciona codificação visual e de áudio por meio de uma arquitetura inovadora que mantém a estrutura principal de texto inalterado, oferecendo desempenho de ponta em um único modelo de embedding muito compacto.

Agora você pode criar embeddings semânticos de alto desempenho para texto, imagens, vídeos e gravações de áudio, abrangendo quase 100 idiomas, e utilizá-los para classificação, clustering, medição de similaridade semântica e indexação para recuperação de informações. Se seus dados estão em PDFs, gravações e vídeos junto com texto, você não precisa mais de pipelines separados para cada um.

A família jina-embeddings-v5-omni é o modelo de embedding mais compacto atualmente no mercado, com suporte para imagens, fala, documentos impressos e vídeo. Ela oferece:

jina-embeddings-v5-textEmbeddings de texto de última geração para aplicações de recuperação, análise e agentes de IA.
Embeddings com o melhor desempenho da categoria em termos de tamanho para similaridade semântica visual, compreensão visual e recuperação de imagens. jina-embeddings-v5-omni-small tem o melhor desempenho em benchmarks de imagem de qualquer modelo nos parâmetros de 1 bilhão (10⁹) e é superior ao nosso próprio jina-clip-v2 anterior. Apenas alguns modelos com três a trinta vezes mais parâmetros conseguem superá-lo.
Embeddings de última geração para compreensão e recuperação visual multilíngue, superando modelos até 20 vezes maiores.
Os melhores embeddings de áudio da categoria de tamanho, com apenas modelos que têm o dobro ou mais de parâmetros apresentando melhor desempenho em benchmarks padrão.
Suporte a vídeo, especialmente para localizar objetos e eventos em vídeos.

Isso tem aplicações em todas as áreas de recuperação de informações, processamento de documentos e análise de dados. O jina-embeddings-v5-omni abre o acesso a informações bloqueadas em diferentes silos de mídia e as torna acessíveis para recuperação, análise e uso por agentes de IA. As informações em gravações de áudio e vídeo, PDF, digitalizações de páginas impressas e infográficos estão em pé de igualdade com os textos digitalizados em seu ecossistema de dados.

Assim como jina-embeddings-v5-text, esses modelos vêm em dois tamanhos: small e nano. Ambos os modelos estendem suas versões em texto com módulos adicionais que suportam entrada de áudio e vídeo. Os usuários podem selecionar módulos no momento do carregamento. Além disso, extensões específicas de tarefa para similaridade semântica, classificação, agrupamento e recuperação de informações são implementadas como adaptadores compactos de baixo nível (LoRAs) e todas são carregadas, para que os usuários possam selecioná-las no momento da inferência.

Ambos os modelos são muito compactos. jina-embeddings-v5-omni-small pode ser executado em servidores convencionais com GPU, e jina-embeddings-v5-omni-nano é pequeno o suficiente para executar em hardware comum. Isso representa uma grande economia potencial nos custos de computação e possibilita a instalação local licenciada e o processamento na borda, reduzindo a latência e aumentando o controle de seus próprios dados.

A suíte v5-omni usa técnicas inovadoras de design de modelos e Machine Learning para compor novos modelos de embedding a partir de modelos previamente treinados, sem precisar treiná-los novamente. Usamos codificadores de modelos pré-treinados, alinhados linguisticamente e incorporados para mídia de áudio e vídeo como pré-processadores de entrada para nosso conjunto de modelos jina-embeddings-v5-text existente. Os modelos resultantes geram embeddings para imagens e gravações de som que são semanticamente compatíveis com as embeddings gerados para textos.

Os modelos v5-omni produzem embeddings de texto idênticas a jina-embeddings-v5-text (isto é, jina-embeddings-v5-omni-small com jina-embeddings-v5-text-small; e jina-embeddings-v5-omni-nano com jina-embeddings-v5-text-nano), para que você possa estender repositórios de recuperação de texto existentes para aplicativos multimídia sem reconstruir seus índices.

Os codificadores integrados são todos derivados de modelos de pesos abertos. Para imagens e vídeos, utilizamos codificadores dos modelos Qwen3.5:

Para jina-embeddings-v5-omni-nano, o codificador SigLIP2 Base ajustado de Qwen3.5-0.8B.
Para jina-embeddings-v5-omni-small, o codificador SigLIP2 So400m ajustado de Qwen3.5-2B.
Para suporte de áudio, adicionamos o codificador do Whisper-large-v3, extraído do Qwen2.5-Omni-7B, às versões small e nano.

Conectamos esses codificadores específicos de mídia ao backbone de processamento de texto com projetores multimodais treinados. Esses projetores traduzem suas saídas nativas para embeddings de entrada compatíveis com jina-embeddings-v5-text. As únicas partes recém-treinadas dos modelos jina-embeddings-v5-omni são os pesos nesses projetores.

Um esquema dos modelos `jina-embeddings-v5-omni`. Apenas os projetores multimídia têm novo treinamento.

Essa arquitetura significa que só precisamos treinar os projetores entre modelos, cerca de 5,5 milhões de parâmetros para jina-embeddings-v5-omni-small e menos de 3,5 milhões para jina-embeddings-v5-omni-nano, para cada um dos quatro adaptadores de Low-Rank Adaptation (LoRA). Essa abordagem minimiza o treinamento adicional necessário para conectar diferentes modelos de embedding, aproveitando o treinamento especializado de cada um para produzir um conjunto modular de embedding extremamente compacto e de alto desempenho.

Propriedades selecionadas do modelo

Entrada/saída

Nome do modelo	Tamanho da janela de contexto de entrada	Tamanho do embedding
jina-embeddings-v5-omni-small	32.768 tokens*	1024 dimensões (mínimo: 32)
jina-embeddings-v5-omni-nano	8.192 tokens*	768 dimensões (mínimo: 32)

* Consulte Usando jina-embeddings-v5-omni abaixo para obter mais informações sobre como mídias não textuais são tokenizadas.

Tamanho

Nome do modelo	Tamanho total
jina-embeddings-v5-omni-small (modelo base apenas texto + 4 adaptadores LoRA)	700M params
Suporte a imagens/vídeos (codificador SigLIP2 So400m extraído do Qwen3.5-2B)	1.006B params
suporte a áudio (encoder Whisper-large-v3 extraído do Qwen2.5-Omni-7B)	1.354B params
ambos	1.660B params
adaptadores LoRA (cada)	20M
jina-embeddings-v5-omni-nano (modelo base apenas texto + 4 adaptadores LoRA)	266M params
Suporte a imagens/vídeos (codificador base SigLIP2 extraído de Qwen3.5-0,8B)	354M params
suporte a áudio (encoder Whisper-large-v3 extraído do Qwen2.5-Omni-7B)	916M params
ambos	1.004B params
adaptadores LoRA (cada)	7M

* Consulte Usando jina-embeddings-v5-omni abaixo para obter mais informações sobre como mídias não textuais são tokenizadas.

Treinamento específico para tarefas

A família jina-embeddings-v5-omni dá suporte aos mesmos adaptadores LoRA específicos para tarefas que jina-embeddings-v5-text:

Tarefa	Exemplos de uso
Recuperação	Recuperação de informações, isoladamente ou em conjunto com outras técnicas de recuperação e avaliação de resultados. Com os modelos v5-omni, você pode recuperar áudio, vídeo e imagens em uma única consulta de um único índice.
Clustering	Descoberta de tópicos e organização automática de conteúdos em todas as mídias.
Classificação	Categorização, análise de sentimento e tipos de tarefas relacionadas.
Similaridade semântica	Deduplicação de dados em diferentes mídias, sistemas de recomendação, mídias relacionadas, encontrar textos para corresponder à fala, identificar traduções e tarefas similares.

Os embeddings de saída dependem da categoria de tarefa selecionada. Por exemplo, você não deve usar embeddings orientados à recuperação para agrupamento nem embeddings de similaridade semântica para classificação.

Multimídia, multimodal, multilíngue, multifuncional

Para mostrar o que jina-embeddings-v5-omni é capaz, vamos pegar as famosas passagens iniciais de dois romances e medir sua semelhança semântica:

Um Conto de Duas Cidades (Charles Dickens)

Orgulho e Preconceito (Jane Austen)

Usando jina-embeddings-v5-omni-small, com seu adaptador de similaridade semântica, esses textos têm uma similaridade de 0,5329.

Esse número não significa muito sem algo para comparar, então vamos comparar esses dois textos com suas traduções francesas usando o mesmo modelo e adaptador:

Pontuações de similaridade semântica para textos entre línguas

	Um Conto de Duas Cidades (inglês)	Orgulho e Preconceito (inglês)
Um Conto de Duas Cidades (francês)(Paris et Londres en 1783, trad. H. Loreau)	0,9095	0,5074
Orgulho e Preconceito (Francês) (Orgueil et Préjugés, tr. Leconte et Pressoir)	0,4826	0,8784

Os dois textos mostram muito mais similaridade com suas traduções do que com outros textos no mesmo idioma ou em outro idioma. Isso reflete os embeddings semânticos multilíngues de altíssimo desempenho de jina-embeddings-v5-text-small, incluídas inalteradas em jina-embeddings-v5-omni-small.

Adicionar suporte multimídia ao jina-embeddings-v5-omni significa que podemos estender este experimento para outros tipos de dados. Por exemplo, obtivemos digitalizações das primeiras páginas de ambos os romances em edições impressas antigas:

Duas páginas envelhecidas de livros exibem as passagens iniciais de "Um Conto de Duas Cidades" e "Orgulho e Preconceito", com a página da esquerda mostrando o início do primeiro capítulo de uma edição do século XIX sem data de "Um Conto de Duas Cidades" e a página da direita mostrando o início do primeiro capítulo da edição de 1903 da Macmillan de "Orgulho e Preconceito".

Figura 2: Um Conto de Duas Cidades, edição do século XIX sem data, e Orgulho e Preconceito, edição Macmillan de 1903.

Vamos comparar os dois textos com as digitalizações, usando novamente o adaptador de similaridade semântica:

Pontuações de similaridade semântica entre textos e imagens

	Um Conto de Duas Cidades (digitalização)	Orgulho e Preconceito (digitalização)
Um Conto de Duas Cidades (texto)	0,7336	0,4891
Orgulho e Preconceito (texto)	0,4804	0,7213

Você vê que as pontuações de similaridade semântica favorecem fortemente textos que correspondem ao conteúdo das imagens.

Podemos também comparar os textos com uma captura de tela de uma postagem nas redes sociais e um meme que fazem referência a esses textos, usando a mesma estrutura:

Uma postagem no Twitter na qual Elon Musk compartilha trechos de Um Conto de Duas Cidades, seguida de um comentário com um tweet citado abaixo discutindo elementos cíclicos e lineares da história.

Um gráfico azul brilhante exibe um texto bege onde se lê: “Não mantenha a calma! Ele é um homem solteiro com uma grande fortuna!”, com uma pequena fotografia na parte superior mostrando uma pessoa em roupas históricas, usando um gorro branco e traje de renda, com uma expressão de boca aberta.

Figura 3: Um tuíte de Elon Musk que faz referência a A Tale of Two Cities (Um Conto de Duas Cidades) e um meme que faz referência à famosa abertura de Pride and Prejudice (Orgulho e Preconceito).

Pontuações de similaridade semântica entre textos e imagens

	Um Conto de Duas Cidades	Orgulho e Preconceito
Tweet de Musk (imagem)	0,7156	0,4912
Meme Keep Calm (imagem)	0,4555	0,6244

Podemos fazer o mesmo para a fala. Obtivemos gravações da leitura de ambos os textos, em inglês e francês:

Pontuações de similaridade semântica entre textos e áudios entre línguas

	Um Conto de Duas Cidades (áudio em inglês)	Um Conto de Duas Cidades (áudio em francês)	Orgulho e Preconceito (áudio em inglês)	Orgulho e Preconceito (áudio em francês)
Um Conto de Duas Cidades (texto em inglês)	0,3816	0,3106	0,1607	0,1774
Um Conto de Duas Cidades (texto em francês)	0,3528	0,3253	0,1598	0,1721
Orgulho e Preconceito (texto em inglês)	0,1910	0,1682	0,3511	0,3398
Orgulho e Preconceito (texto em francês)	0,1667	0,1474	0,3018	0,3702

Essa capacidade multilíngue e multimídia se estende à recuperação de informações.

Os adaptadores de recuperação para os modelos jina-embeddings-v5-omni implementam recuperação assimétrica. Isso significa que eles codificam consultas de maneira diferente da forma como incorporam documentos-alvo de recuperação, então as consultas multimodais estão sempre em alguma direção, com consultas em uma mídia e documentos em outra, dando pontuações diferentes de quando são invertidas.

As tabelas abaixo mostram as pontuações de recuperação para texto, áudio e imagens de digitalização de páginas de Um Conto de Duas Cidades e Orgulho e Preconceito, quando o texto de Um Conto de Duas Cidades (em inglês) é codificado como a consulta:

Texto para texto

Documento	Pontuação de recuperação
Um Conto de Duas Cidades (trecho de texto em francês)	0,7597
Orgulho e Preconceito (trecho do texto em inglês)	0,1482
Orgulho e Preconceito (trecho de texto em francês)	0,0523

Texto para imagem

Documento	Pontuação de recuperação
Um Conto de Duas Cidades (digitalização da página em inglês)	0,5517
Um Conto de Duas Cidades (digitalização da página em francês)	0,3576
Orgulho e Preconceito (digitalização da página em inglês)	0,1917

Texto para áudio

Documento	Pontuação de recuperação
Um Conto de Duas Cidades (áudio em inglês)	0,3277
Um Conto de Duas Cidades (áudio em francês)	0,1980
Orgulho e Preconceito (áudio em inglês)	0,1419
Orgulho e Preconceito (áudio em francês)	0,1759

Os usuários também podem executar a consulta no sentido oposto, realizando recuperação de áudio-texto e imagem-texto.

Abaixo estão as pontuações usando o áudio em inglês de Um Conto de Duas Cidades como consulta e vários textos como documentos:

Imagem para texto

Documento	Pontuação de recuperação
Um Conto de Duas Cidades (trecho do texto em inglês)	0,3352
Um Conto de Duas Cidades (trecho de texto em francês)	0,2650
Orgulho e Preconceito (trecho do texto em inglês)	0,1626
Orgulho e Preconceito (trecho de texto em francês)	0,1385

E as pontuações usando uma digitalização da primeira página de Um Conto de Duas Cidades (em inglês) como consulta:

Áudio para texto

Documento	Pontuação de recuperação
Um Conto de Duas Cidades (trecho do texto em inglês)	0,5304
Um Conto de Duas Cidades (trecho de texto em francês)	0,4845
Orgulho e Preconceito (trecho do texto em inglês)	0,1467
Orgulho e Preconceito (trecho de texto em francês)	0,0761

Uma caixa de notificação retangular com fundo azul claro exibe um ícone amarelo de triângulo de advertência ao lado do texto, explicando que jina-embeddings-v5-omni é treinado para encontrar áudio, vídeo e imagens de consultas de texto e que consultas sem texto podem ser menos eficazes.

Busca de vídeo

As capacidades do jina-embeddings-v5-omni para indexação de vídeo e busca trazem novas capacidades aos bancos de dados Elasticsearch, mas estão sujeitas a muitos dos mesmos avisos que se aplicam aos textos. Gerar um único embedding para um filme longo é como incorporar um romance muito longo: informações detalhadas serão diluídas, e o embedding resultante será uma boa correspondência para muitas consultas muito espúrias.

Se você incorporar o texto completo de O Senhor dos Anéis (aproximadamente 500.000 palavras), é provável que ele corresponda à maioria das consultas, independentemente do que você esteja procurando. Da mesma forma, se você indexar um filme de Hollywood de duas horas, obterá muitas correspondências espúrias e detalhes totalmente perdidos. jina-embeddings-v5-omni é ideal com clipes curtos.

Para este exemplo, baixamos o trailer do filme Bonequinha de Luxo, de 1961, que tem apenas 158 segundos de duração e está em domínio público. Você pode assistir ao trailer no Internet Archive.

Um pôster vintage do filme Bonequinha de Luxo apresenta uma imagem ilustrada de corpo inteiro de Audrey Hepburn usando um vestido preto longo, luvas pretas, um colar de pérolas e um porta-cigarros, com um gato no ombro. Uma ilustração de fundo menor mostra um casal se abraçando perto de uma paisagem urbana, e o pôster inclui bordas coloridas junto com os créditos do elenco e da produção.

Figura 4: O pôster teatral de Bonequinha de Luxo.

Nós usamos PySceneDetect para dividir o trailer em 28 cenas individuais, com durações variando de 1,877 segundos (45 quadros) a 18,393 segundos (441 quadros). A detecção de cena é imperfeita, mas fornece um mecanismo adequado para dividir o vídeo em trechos menores para recuperação. Então, geramos embeddings de documentos para cada um dos 28 segmentos, usando jina-embeddings-v5-omni-small, para que pudéssemos testar a eficácia das consultas de texto na localização de elementos específicos no vídeo.

Por exemplo, a consulta por “cat” retornou os seguintes trechos como os três principais resultados. A única cena com um gato está no topo, com uma pontuação de 0,1634:

Uma miniatura de vídeo mostra uma pessoa ajoelhada no chão da cozinha estendendo a mão em direção a uma geladeira aberta enquanto um gato está por perto (pontuação 0,1634).

Assista ao primeiro vídeo.

A próxima melhor correspondência, com uma pontuação de 0,1237, é muito menor:

Uma miniatura de vídeo mostra uma pessoa segurando uma máscara colorida perto do rosto com o nome “GEORGE PEPPARD” sobreposto na imagem (pontuação 0,1237).

Assista ao clipe 2.

Você também pode buscar ações. Se você pesquisar por "beijo", as quatro melhores correspondências mostram beijos:

Uma miniatura de vídeo mostra três pessoas em um ambiente interno, com uma pessoa de pé à esquerda de costas para a câmera e duas pessoas à direita parecendo se abraçar perto de uma cortina e uma porta (pontuação: 0,2864).

Assista ao clipe 3. Sua pontuação é 0,2864.

Uma miniatura de vídeo mostra duas pessoas próximas, uma vestindo um terno escuro e a outra usando uma máscara felina (nota 0,2494).

Uma miniatura de vídeo mostra várias pessoas reunidas em um ambiente interno animado, incluindo uma pessoa segurando um violão enquanto outras parecem falar ou rir (pontuação 0,2099).

Uma miniatura de vídeo mostra duas pessoas de sobretudo se abraçando ao ar livre na chuva, com carros estacionados e prédios visíveis ao fundo (nota 0,1189).

Pontuações: Para a segunda correspondência (0,2494), terceira correspondência (0,2099) e quarta correspondência (0,2068), respectivamente.

E você pode buscar textos exibidos em vídeos, como "Buddy Ebsen", que só aparece uma vez. jina-embeddings-v5-omni-small identifica-o prontamente como o melhor resultado com uma pontuação de 0,3885, consideravelmente maior do que o próximo melhor resultado:

Uma miniatura de vídeo mostrando um homem de terno ao lado de uma escada com balaústres brancos e um corrimão escuro, com o texto sobreposto “Buddy Ebsen" (pontuação 0,3885).

Clipe do Buddy Ebsen.

Recuperação visual de documentos

Os modelos multimodais de embedding da Jina AI estão entre os melhores em processamento de documentos visuais e são de última geração em processamento visual multilíngue de documentos. Isso significa lidar com dados de imagens que contenham texto, figuras e informações estruturadas. Os dados importantes geralmente estão na forma de digitalizações impressas, arquivos PDF, diagramas, desenhos técnicos, capturas de tela, imagens, infográficos e similares. Esses tipos de imagens geralmente são compostos mecanicamente ou gerados por computador. Eles geralmente não podem ser reduzidos a texto sem perda de significado e são pouco adequados para modelos de visão computacional projetados para fotografar cenas naturais.

jina-embeddings-v5-omniOs embeddings abrangem informações sobre os objetos na imagem, o texto impresso neles e as relações entre eles. A recuperação visual de documentos possibilita indexar imagens ricas em informações que contêm tanto elementos quanto texto relevante, inclusive em diferentes idiomas.

Como exemplo, vamos usar quatro imagens de produtos de vários sites de comércio eletrônico:

Agora, vamos ver como jina-embeddings-v5-omni-small avalia essas quatro imagens para a consulta "miocarrão ramen":

Campbell’s Frango com Macarrão Grosso (embalagem canadense)	Kraft Dinner (embalagem canadense)	Ramen fresco sabor Maruchan Miso (embalagem japonesa)	Birkel Spaghetti (embalagem alemã)
0,0872	0,0711	0,1123	0,0886

Ele encontra facilmente a correspondência japonesa.

Agora, vamos tentar uma consulta para "マカロニチーズ" (japonês para macarrão com queijo):

Campbell’s Frango com Macarrão Grosso (embalagem canadense)	Kraft Dinner (embalagem canadense)	Ramen fresco sabor Maruchan Miso (embalagem japonesa)	Birkel Spaghetti (embalagem alemã)
0,2207	0,3487	0,2760	0,2674

Ele encontra a correspondência correta com a mesma facilidade que uma consulta em inglês.

jina-embeddings-v5-omni também se destaca na interpretação de imagens ricas em informações, como gráficos. Para ver isso em ação, veja estes dois gráficos de barras:

Um gráfico de barras compara as principais causas da carga de doenças em pessoas com 60 anos ou mais em 2010, mostrando os anos de vida ajustados por incapacidade (DALYs, na sigla em inglês) em milhões para doenças cardiovasculares, câncer, doenças respiratórias crônicas, doenças musculoesqueléticas, doenças neurológicas, lesões não intencionais, diabetes, doenças digestivas, infecções respiratórias e distúrbios sensoriais, com cada barra dividida em contribuições de países de baixa e média renda e de países de alta renda.

Um gráfico de barras intitulado “Expectativa de vida de diferentes raças” mostra a expectativa de vida média em anos para American Foxhound, Beagle, Basenji, Basset Hound, Black and tan C..., Bloodhound, Dachshund, English Foxhound e Harrier, com barras azuis variando de 10 a 14 anos.

Dois gráficos, Gráfico 1 à esquerda, sobre a carga global de doenças, e Gráfico 2 à direita, sobre a longevidade das raças de cães.

Vamos ver como eles correspondem a duas questões de texto potenciais, cada uma relevante para um, mas não para ambos os gráficos, usando jina-embeddings-v5-omni-small para recuperação:

Pergunta de texto	Gráfico 1	Gráfico 2
“Quais são alguns problemas médicos comuns para idosos?”	0,2787	0,1099
"Quanto tempo os cachorros vivem?"	0,1350	0,3564

Você também pode reverter a busca, usando imagens como consultas para encontrar textos. A tabela abaixo mostra documentos-alvo extraídos dos resumos de artigos científicos relacionados ao tópico e suas pontuações de recuperação, usando as imagens do gráfico como consultas:

	Texto 1	Texto 2
	A saúde das populações que vivem em extrema pobreza tem sido um foco de longa data dos esforços de desenvolvimento global e continua sendo uma prioridade durante a era dos Objetivos de Desenvolvimento Sustentável. No entanto, não houve uma tentativa sistemática de quantificar a magnitude e as causas da carga nessa população específica por quase duas décadas. Estimamos as taxas de doenças por causa para o bilhão mais pobre do mundo e comparamos essas taxas com as de populações de alta renda.	O cão de companhia é uma das espécies mais fenotipicamente diversas. A variabilidade entre raças se estende não apenas à morfologia e aspectos do comportamento, mas também à longevidade. Apesar desse fato, poucas pesquisas têm sido dedicadas à avaliação da variação na expectativa de vida entre raças ou à avaliação do potencial para caracterização filogenética da longevidade.
Gráfico 1	0,2377	0,1357
Gráfico 2	0,0673	0,3576

Recursos

Embeddings truncáveis

Treinamos os modelos de base jina-embeddings-v5-text que sustentam jina-embeddings-v5-omni com Aprendizado de Representação Matryoshka, para que você possa truncar embeddings de texto e multimídia desses modelos.

Por padrão, jina-embeddings-v5-omni-small gera embeddings com 1.024 dimensões, consumindo 2KB para armazenar com precisão de 16 bits. Os embeddings do jina-embeddings-v5-omni-nano têm 768 dimensões, ocupando cerca de 1,5KB. Você pode reduzir o tamanho desses embeddings para 32 dimensões (64 bytes) a algum custo para a precisão, mas com grande ganho na velocidade de processamento e redução dos custos de recursos. Em geral, reduzir o tamanho dos embeddings pela metade diminui a precisão em cerca de 2%, até 128 dimensões, abaixo das quais a precisão cai muito mais rápido.

Embeddings truncáveis permitem que os usuários decidam o melhor compromisso entre precisão, velocidade e custo, de acordo com seus casos de uso.

Quantização

A família jina-embeddings-v5-omni também herda desempenho robusto com quantização de sua estrutura principal jina-embeddings-v5-text. Isso aumenta ainda mais a velocidade e reduz os custos de computação e armazenamento ao armazenar números menos precisos. Nós os treinamos para funcionar com Elasticsearche sua Quantização Binária Aprimorada (BBQ), para fornecer desempenho quase idêntico ao de embeddings não quantizados. No conjunto de benchmarks de recuperação Massive Text Embedding Benchmark (MTEB), a binarização reduz o desempenho em menos de 3% em comparação com valores completos de 16 bits, enquanto economiza 93% do espaço e aumenta drasticamente as velocidades de processamento e recuperação.

Desempenho multilíngue

jina-embeddings-v5-textO extenso treinamento multilíngue também está presente em jina-embeddings-v5-omni, com quase 100 idiomas na pré-formação de jina-embeddings-v5-text-small e 15 principais línguas globais em jina-embeddings-v5-text-nano. Para mídia de áudio, o modelo Whisper-large-v3 possui aproximadamente 100 idiomas em seu treinamento, e os modelos de visão SigLip2 modificados por Qwen, integrados em jina-embeddings-v5-omni-small e -nano, foram treinados com dados de 201 idiomas e dialetos distintos.

Desempenho em benchmarks

Texto

jina-embeddings-v5-omni Os modelos são idênticos aos modelos jina-embeddings-v5-text quando usados apenas para texto. São os modelos com melhor desempenho no conjunto de benchmarks MMTEB em suas respectivas categorias de tamanho para embeddings semânticos de texto.

Um gráfico de barras e linhas compara as pontuações MMTEB e os tamanhos dos parâmetros para nove modelos de embedding, com jina-v3-omni-small alcançando a maior pontuação e snowflake-arctic-embed-l-v2 tendo o menor tamanho.

Figura 5: Tamanho e desempenho de jina-embeddings-v5-omniem benchmarks de texto, em comparação com modelos concorrentes. O tamanho citado é sem carregar extensões para outras mídias.

Similaridade semântica visual

Nos benchmarks padrão de similaridade semântica visual, jina-embeddings-v5-omni apresenta as melhores pontuações de qualquer modelo próximo ao seu tamanho. jina-embeddings-v5-omni modelos apresentam, de longe, o melhor desempenho entre os modelos públicos de pesos abertos de tamanho comparável. jina-embeddings-v5-omni-small só é superado por um modelo três vezes maior em tarefas de similaridade semântica visual, e jina-embeddings-v5-omni-nano é superado apenas por jina-embeddings-v5-omni-small e por modelos 10 a 25 vezes maiores.

Um gráfico de barras e linhas compara as pontuações visuais de similaridade semântica e os tamanhos dos parâmetros para sete modelos de embedding, com jina-embeddings-v5-omni-small alcançando a maior pontuação de similaridade e laion/CLIP-ViT-bigG-14 apresentando o maior tamanho de modelo.

Figura 6: Benchmark de pontuação média de similaridade semântica visual para os modelos jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano e comparáveis, além de seus tamanhos, incluindo extensões de visão.

Recuperação visual de documentos

jina-embeddings-v5-omni-small é competitivo com modelos de três e sete bilhões de parâmetros, permanecendo abaixo de um bilhão de parâmetros. jina-embeddings-v5-omni-nano também se destaca pelo tamanho, superando modelos de dez a sessenta vezes maiores.

Um gráfico de barras e linhas compara pontuações ViDoRe selecionadas e tamanhos de parâmetros para múltiplos modelos de embedding, com LCO‑Embedding‑Omni‑7B alcançando a maior pontuação e laion/CLIP‑ViT‑bigG‑14 com o maior tamanho de modelo. O foco está em dois modelos de jina-embeddings.

Figura 7: Pontuações médias de recuperação visual de documentos do ViDoRe em seis benchmarks: DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad e TatDQA.

Recuperação de áudio

Nos benchmarks padrão de recuperação de áudio MAEB (Massive Audio Embedding Benchmark), tanto jina-embeddings-v5-omni-small quanto jina-embeddings-v5-omni-nano estão entre os melhores desempenhos. Apenas modelos muito grandes — mais de três vezes maiores que jina-embeddings-v5-omni-small — superam sua pontuação.

Um gráfico de barras e linhas compara modelos de incorporação e de áudio ao longo do eixo x, mostrando barras azuis para o MAEB Score no eixo y esquerdo e uma linha vermelha para o tamanho do modelo em bilhões de parâmetros no eixo y direito. As barras variam de aproximadamente 20 a 55, e a linha varia de 0 a 10.

Figura 8: Pontuação média para vários modelos nos benchmarks de recuperação de áudio MAEB.

Embora o modelo larger_clap_general da LAION melhore a pontuação do jina-embeddings-v5-omni-nano ao ter menos parâmetros, é um modelo apenas de áudio, sem nenhum dos recursos multimodais adicionais do conjunto v5-omni.

Vídeo

No vídeo, jina-embeddings-v5-omni-small se destaca em encontrar o lugar em um vídeo que corresponde a uma consulta de texto. Os testes Charades-STA e MomentSeeker são os benchmarks padrão para essa tarefa, e você pode ver nos gráficos abaixo que jina-embeddings-v5-omni-small é o modelo com melhor pontuação entre modelos de pesos abertos comparáveis, apesar de seu tamanho muito menor.

Um gráfico de barras e linhas mostra as pontuações do Charades-STA e os tamanhos do modelo para seis modelos de embedding. O eixo X lista os modelos, o eixo Y esquerdo mostra as pontuações do Charades-STA de 20 a 60 e o eixo Y direito mostra o tamanho do modelo (em bilhões de parâmetros) de 0 a 10. As barras azuis representam as pontuações, e uma linha vermelha com marcadores representa os tamanhos dos modelos.

Figura 9: Pontuações Charades-STA para vários modelos, junto com seus tamanhos.

Um gráfico de barras e linhas compara seis modelos de embedding usando as pontuações do MomentSeeker e o tamanho do modelo. O eixo X lista os modelos, o eixo Y esquerdo mostra as pontuações do MomentSeeker de aproximadamente 44 a 60, e o eixo Y direito mostra o tamanho do modelo em bilhões de parâmetros de 0 a 10. As barras azuis representam as pontuações, e uma linha vermelha com marcadores representa os tamanhos dos modelos.

Figura 10: Pontuações do MomentSeeker para vários modelos, junto com seus tamanhos.

Também comparamos jina-embeddings-v5-omni-small com o Seed 1.6 da ByteDance, um modelo de peso fechado com contagem de parâmetros não divulgada. Nosso modelo supera o Seed 1.6 por uma grande margem no benchmark Charades-STA e quase iguala no MomentSeeker.

Modelo	Pontuação Charades-STA	Pontuação do MomentSeeker
seed-1.6-embedding	29,30	59,30
jina-embeddings-v5-omni-small	55,57	58,93

Pontos fortes e limitações

jina-embeddings-v5-omni Os modelos ampliam a capacidade dos usuários de indexar, buscar e analisar informações digitalizadas de várias maneiras, particularmente:

Recuperação de fala multilíngue a partir de consultas de texto.
PDF, digitalizações e busca visual de documentos.
Localização temporal em vídeos, ou seja, identificar trechos dos vídeos que correspondem a descrições em linguagem natural.
Classificação de gêneros de áudio, incluindo gêneros musicais.
Classificação de imagem baseada em informações da cena e identificação de objetos.

O desempenho é mais limitado em outras áreas. Pode ser possível usar jina-embeddings-v5-omni para realizar essas tarefas, mas não treinamos para elas e os resultados podem ser ruins.

Estamos trabalhando ativamente para aprimorar nossa tecnologia nestas áreas:

Encontrar vídeos específicos a partir de descrições em linguagem natural.
Similaridade semântica e recuperação de imagens (imagem para imagem).
Classificação de intenção na fala, como reconhecer comandos verbais.
Processamento de entradas multimídia, ou seja, imagens e textos acompanhantes, ou áudio, imagens e textos combinados.

Usando

Este conjunto de modelos permite entrada por meio de três pontos de entrada: texto, áudio, imagens e vídeo juntos. jina-embeddings-v5-omni é executado em um framework que converte uma ampla variedade de formatos padronizados e realiza outros pré-processamentos.

Processamos as imagens usando a mesma abordagem NaFlex fornecida na versão inicial do SigLip2: se a entrada for menor que 262.144 pixels (equivalente a 512x512), ela é ampliada até ficar maior que esse mínimo; e se for maior que 3.072.000 pixels, ela é reduzida até ficar menor que esse máximo. O processo de conversão garante que a altura e a largura da imagem sejam múltiplas de 14 pixels, com a menor distorção possível na proporção para atingir esse objetivo. O resultado é dividido em patches de 28x28 pixels, então o número total de patches é quantos quadrados de 28x28 forem necessários para cobrir a imagem. Cada patch é tratado como um único token no momento da inferência, e cada entrada de imagem é acompanhada por tokens especiais de início e fim para delimitar uma única imagem.

Os modelos jina-embeddings-v5-omni modificam a resolução do vídeo da mesma forma que as imagens são modificadas (veja acima), e extraímos até 32 quadros do vídeo. Se o vídeo tiver mais de 32 quadros (o que é provável, já que os formatos padrão geralmente têm pelo menos 24 quadros por segundo), espaçaremos uniformemente os quadros que extraímos. Então, para cada dois quadros, o pré-processador de vídeo gera um conjunto de tokens igual ao número de quadrados 28x28 necessários para cobrir o vídeo.

Uma colagem de quadros de vídeo sequenciais é organizada com setas mostrando a progressão, representando uma série de cenas com Audrey Hepburn em diferentes momentos, terminando com um quadro exibindo o título "Bonequinha de Luxo". O layout mostra que o modelo extrai 64 quadros igualmente espaçados de um vídeo, o que pode causar perda significativa de informações quando o vídeo é longo.

Figura 11: jina-embeddings-v5-omni extrai 32 quadros igualmente espaçados do vídeo. Se você tiver um vídeo longo, isso significa que muita coisa será perdida.

Para mais detalhes sobre pré-processamento de vídeo, veja a documentação técnica do SigLip2.

A tokenização de áudio segue a abordagem incorporada ao Qwen-2.5-Omni: Os arquivos de som são cortados em segmentos de 30 segundos; se tiverem mais de 30 segundos, serão reamostrados para 16 kHz e transformados em um mel espectrograma de 128 canais Cada 40 ms é tratado como um único token, portanto, cada segmento de 30 segundos é tratado como 750 tokens, um token por 40 ms de áudio, além de tokens especiais de início e fim para delimitar uma única amostra.

Para mais detalhes sobre pré-processamento de áudio, veja o Relatório Técnico Qwen-2.5-Omni.

Disponibilidade

Para começar

Para usar jina-embeddings-v5-omni modelos no EIS, defina o campo type para semantic_text (mesmo que a mídia não seja toda texto) ao criar seu índice e especificar jina-embeddings-v5-omni-small e jina-embeddings-v5-omni-nano no campo inference_id. O EIS seleciona automaticamente o adaptador LoRA para indexação e recuperação.

Para textos, o procedimento é idêntico ao de jina-embeddings-v5-text:

Para inserir outras mídias, primeiro converta para uma string Base64 e depois coloque essa string no mesmo campo que você usaria para texto:

Repita o mesmo para consultas multimídia:

Para acesso via API Jina, consulte o website Jina AI.

Para usar os adaptadores de classificação, clustering ou similaridade semântica, ou para truncar embeddings para tamanhos personalizados, crie um endpoint de inferência personalizado para o seu projeto e siga as instruções ali presentes para conectar-se aos modelos da Jina AI e passar parâmetros para eles.

Para usar BBQ com jina-embeddings-v5-omni, siga as instruções para indexação BBQ.

Mais informações

Para mais informações sobre jina-embeddings-v5-omni, consulte o relatório técnico e a página do modelo no website da Jina AI. A página da coleção jina-embeddings-v5-omni no Hugging Face também contém informações técnicas e instruções para baixar e executar esses modelos localmente. Os modelos jina-embeddings-v5-omni podem ser baixados sob uma licença CC-BY-NC-4.0, portanto, você pode experimentá-los livremente, mas para uso comercial, por favor, entre em contato com a equipe de vendas da Elastic.

Quão útil foi este conteúdo?

Não útil

Um pouco útil

Muito útil

Reportar um problema

Conteúdo relacionado

Jina embeddings v3 agora disponível no Gemini Enterprise Agent Platform Model Garden

Jina AI

22 de abril de 2026

Jina embeddings v3 agora disponível no Gemini Enterprise Agent Platform Model Garden

O modelo de busca Jina, jina-embeddings-v3, agora é autoimplantável na plataforma Gemini Enterprise Agent Platform Model Garden, com mais novidades por vir. Execute jina-embeddings-v3 em uma única GPU L4 dentro da sua própria VPC.

Por: Sa Zhang

jina-embeddings-v5-text: Incorporações de texto compactas e de última geração para busca e aplicações inteligentes

Jina AI

23 de fevereiro de 2026

jina-embeddings-v5-text: Incorporações de texto compactas e de última geração para busca e aplicações inteligentes

Apresentação dos modelos jina-embeddings-v5-text models, including jina-embeddings-v5-text-small e jina-embeddings-v5-text-nano explicando como usar esses modelos de incorporação multilíngue por meio do Elastic Inference Service (EIS).

SM SV

Por: Scott Martens e Sofia Vasileva

Uma introdução aos modelos Jina, sua funcionalidade e seus usos no Elasticsearch

Integrações Jina AI

1 de janeiro de 2026

Uma introdução aos modelos Jina, sua funcionalidade e seus usos no Elasticsearch

Confira os embeddings multimodais Jina, o Reranker v3 e os modelos semânticos de embedding, além de como usá-los nativamente no Elasticsearch.

Por: Scott Martens

Impulsionando o Elasticsearch: adicionando suporte nativo à API do Prometheus

Integrações

11 de maio de 2026

Impulsionando o Elasticsearch: adicionando suporte nativo à API do Prometheus

Consulte o Elasticsearch diretamente de clientes compatíveis com Prometheus via endpoints nativos de PromQL, descoberta e metadados. Envie dados para o Elasticsearch com Prometheus Remote Write.

Por: Felix Barnsteiner

Personalizando a busca de e-commerce: integrando o histórico de compras e de grupos de usuários

Operações

11 de maio de 2026

Personalizando a busca de e-commerce: integrando o histórico de compras e de grupos de usuários

Aprenda a criar uma experiência personalizada de busca em e-commerce no Elasticsearch sem comprometer a governança. Este post explica como destacar produtos que um cliente já comprou antes e como ativar políticas específicas de grupo com base nos perfis dos usuários.

AM HK TR

Por: Alexander Marquardt, Honza Král e Taylor Roy

Um índice, todas as mídias: Apresentando jina-embeddings-v5-omni

Propriedades selecionadas do modelo

Entrada/saída

Tamanho

Treinamento específico para tarefas

Multimídia, multimodal, multilíngue, multifuncional

Busca de vídeo

Recuperação visual de documentos

Recursos

Embeddings truncáveis

Quantização

Desempenho multilíngue

Desempenho em benchmarks

Texto

Similaridade semântica visual

Recuperação visual de documentos

Recuperação de áudio

Vídeo

Pontos fortes e limitações

Usando

Disponibilidade

Para começar

Mais informações

Quão útil foi este conteúdo?

Conteúdo relacionado

Jina embeddings v3 agora disponível no Gemini Enterprise Agent Platform Model Garden

jina-embeddings-v5-text: Incorporações de texto compactas e de última geração para busca e aplicações inteligentes

Uma introdução aos modelos Jina, sua funcionalidade e seus usos no Elasticsearch

Impulsionando o Elasticsearch: adicionando suporte nativo à API do Prometheus

Personalizando a busca de e-commerce: integrando o histórico de compras e de grupos de usuários

Pronto para criar buscas de última geração?