Um índice, todas as mídias: Apresentando jina-embeddings-v5-omni

O jina-embeddings-v5-omni permite incorporar texto, imagens, vídeos e áudio em um único índice do Elasticsearch e realizar consultas em todos eles simultaneamente.

jina-embeddings-v5-omni reúne texto, imagens, vídeo e áudio em um único índice do Elasticsearch. Estendendo os modelos líderes da categoria jina-embeddings-v5-text, suíte v5-omni adiciona codificação visual e de áudio por meio de uma arquitetura inovadora que mantém a estrutura principal de texto inalterado, oferecendo desempenho de ponta em um único modelo de embedding muito compacto.

Agora você pode criar embeddings semânticos de alto desempenho para texto, imagens, vídeos e gravações de áudio, abrangendo quase 100 idiomas, e utilizá-los para classificação, clustering, medição de similaridade semântica e indexação para recuperação de informações. Se seus dados estão em PDFs, gravações e vídeos junto com texto, você não precisa mais de pipelines separados para cada um.

A família jina-embeddings-v5-omni é o modelo de embedding mais compacto atualmente no mercado, com suporte para imagens, fala, documentos impressos e vídeo. Ela oferece:

  • jina-embeddings-v5-textEmbeddings de texto de última geração para aplicações de recuperação, análise e agentes de IA.
  • Embeddings com o melhor desempenho da categoria em termos de tamanho para similaridade semântica visual, compreensão visual e recuperação de imagens. jina-embeddings-v5-omni-small tem o melhor desempenho em benchmarks de imagem de qualquer modelo nos parâmetros de 1 bilhão (10⁹) e é superior ao nosso próprio jina-clip-v2 anterior. Apenas alguns modelos com três a trinta vezes mais parâmetros conseguem superá-lo.
  • Embeddings de última geração para compreensão e recuperação visual multilíngue, superando modelos até 20 vezes maiores.
  • Os melhores embeddings de áudio da categoria de tamanho, com apenas modelos que têm o dobro ou mais de parâmetros apresentando melhor desempenho em benchmarks padrão.
  • Suporte a vídeo, especialmente para localizar objetos e eventos em vídeos.

Isso tem aplicações em todas as áreas de recuperação de informações, processamento de documentos e análise de dados. O jina-embeddings-v5-omni abre o acesso a informações bloqueadas em diferentes silos de mídia e as torna acessíveis para recuperação, análise e uso por agentes de IA. As informações em gravações de áudio e vídeo, PDF, digitalizações de páginas impressas e infográficos estão em pé de igualdade com os textos digitalizados em seu ecossistema de dados.

Assim como jina-embeddings-v5-text, esses modelos vêm em dois tamanhos: small e nano. Ambos os modelos estendem suas versões em texto com módulos adicionais que suportam entrada de áudio e vídeo. Os usuários podem selecionar módulos no momento do carregamento. Além disso, extensões específicas de tarefa para similaridade semântica, classificação, agrupamento e recuperação de informações são implementadas como adaptadores compactos de baixo nível (LoRAs) e todas são carregadas, para que os usuários possam selecioná-las no momento da inferência.

Ambos os modelos são muito compactos. jina-embeddings-v5-omni-small pode ser executado em servidores convencionais com GPU, e jina-embeddings-v5-omni-nano é pequeno o suficiente para executar em hardware comum. Isso representa uma grande economia potencial nos custos de computação e possibilita a instalação local licenciada e o processamento na borda, reduzindo a latência e aumentando o controle de seus próprios dados.

A suíte v5-omni usa técnicas inovadoras de design de modelos e Machine Learning para compor novos modelos de embedding a partir de modelos previamente treinados, sem precisar treiná-los novamente. Usamos codificadores de modelos pré-treinados, alinhados linguisticamente e incorporados para mídia de áudio e vídeo como pré-processadores de entrada para nosso conjunto de modelos jina-embeddings-v5-text existente. Os modelos resultantes geram embeddings para imagens e gravações de som que são semanticamente compatíveis com as embeddings gerados para textos.

Os modelos v5-omni produzem embeddings de texto idênticas a jina-embeddings-v5-text (isto é, jina-embeddings-v5-omni-small com jina-embeddings-v5-text-small; e jina-embeddings-v5-omni-nano com jina-embeddings-v5-text-nano), para que você possa estender repositórios de recuperação de texto existentes para aplicativos multimídia sem reconstruir seus índices.

Os codificadores integrados são todos derivados de modelos de pesos abertos. Para imagens e vídeos, utilizamos codificadores dos modelos Qwen3.5:

Conectamos esses codificadores específicos de mídia ao backbone de processamento de texto com projetores multimodais treinados. Esses projetores traduzem suas saídas nativas para embeddings de entrada compatíveis com jina-embeddings-v5-text. As únicas partes recém-treinadas dos modelos jina-embeddings-v5-omni são os pesos nesses projetores.

Essa arquitetura significa que só precisamos treinar os projetores entre modelos, cerca de 5,5 milhões de parâmetros para jina-embeddings-v5-omni-small e menos de 3,5 milhões para jina-embeddings-v5-omni-nano, para cada um dos quatro adaptadores de Low-Rank Adaptation (LoRA). Essa abordagem minimiza o treinamento adicional necessário para conectar diferentes modelos de embedding, aproveitando o treinamento especializado de cada um para produzir um conjunto modular de embedding extremamente compacto e de alto desempenho.

Propriedades selecionadas do modelo

Entrada/saída

Nome do modeloTamanho da janela de contexto de entradaTamanho do embedding
jina-embeddings-v5-omni-small32.768 tokens*1024 dimensões (mínimo: 32)
jina-embeddings-v5-omni-nano8.192 tokens*768 dimensões (mínimo: 32)

* Consulte Usando jina-embeddings-v5-omni abaixo para obter mais informações sobre como mídias não textuais são tokenizadas.

Tamanho

Nome do modeloTamanho total
jina-embeddings-v5-omni-small (modelo base apenas texto + 4 adaptadores LoRA)700M params
Suporte a imagens/vídeos (codificador SigLIP2 So400m extraído do Qwen3.5-2B)1.006B params
suporte a áudio (encoder Whisper-large-v3 extraído do Qwen2.5-Omni-7B)1.354B params
ambos1.660B params
adaptadores LoRA (cada)20M
jina-embeddings-v5-omni-nano (modelo base apenas texto + 4 adaptadores LoRA)266M params
Suporte a imagens/vídeos (codificador base SigLIP2 extraído de Qwen3.5-0,8B)354M params
suporte a áudio (encoder Whisper-large-v3 extraído do Qwen2.5-Omni-7B)916M params
ambos1.004B params
adaptadores LoRA (cada)7M

* Consulte Usando jina-embeddings-v5-omni abaixo para obter mais informações sobre como mídias não textuais são tokenizadas.

Treinamento específico para tarefas

A família jina-embeddings-v5-omni dá suporte aos mesmos adaptadores LoRA específicos para tarefas que jina-embeddings-v5-text:

TarefaExemplos de uso
RecuperaçãoRecuperação de informações, isoladamente ou em conjunto com outras técnicas de recuperação e avaliação de resultados. Com os modelos v5-omni, você pode recuperar áudio, vídeo e imagens em uma única consulta de um único índice.
ClusteringDescoberta de tópicos e organização automática de conteúdos em todas as mídias.
ClassificaçãoCategorização, análise de sentimento e tipos de tarefas relacionadas.
Similaridade semânticaDeduplicação de dados em diferentes mídias, sistemas de recomendação, mídias relacionadas, encontrar textos para corresponder à fala, identificar traduções e tarefas similares.

Os embeddings de saída dependem da categoria de tarefa selecionada. Por exemplo, você não deve usar embeddings orientados à recuperação para agrupamento nem embeddings de similaridade semântica para classificação.

Multimídia, multimodal, multilíngue, multifuncional

Para mostrar o que jina-embeddings-v5-omni é capaz, vamos pegar as famosas passagens iniciais de dois romances e medir sua semelhança semântica:

Um Conto de Duas Cidades (Charles Dickens)

Orgulho e Preconceito (Jane Austen)

Usando jina-embeddings-v5-omni-small, com seu adaptador de similaridade semântica, esses textos têm uma similaridade de 0,5329.

Esse número não significa muito sem algo para comparar, então vamos comparar esses dois textos com suas traduções francesas usando o mesmo modelo e adaptador:

Pontuações de similaridade semântica para textos entre línguas

Um Conto de Duas Cidades (inglês)Orgulho e Preconceito (inglês)
Um Conto de Duas Cidades (francês)(Paris et Londres en 1783, trad. H. Loreau)0,90950,5074
Orgulho e Preconceito (Francês) (Orgueil et Préjugés, tr. Leconte et Pressoir)0,48260,8784

Os dois textos mostram muito mais similaridade com suas traduções do que com outros textos no mesmo idioma ou em outro idioma. Isso reflete os embeddings semânticos multilíngues de altíssimo desempenho de jina-embeddings-v5-text-small, incluídas inalteradas em jina-embeddings-v5-omni-small.

Adicionar suporte multimídia ao jina-embeddings-v5-omni significa que podemos estender este experimento para outros tipos de dados. Por exemplo, obtivemos digitalizações das primeiras páginas de ambos os romances em edições impressas antigas:

Figura 2: Um Conto de Duas Cidades, edição do século XIX sem data, e Orgulho e Preconceito, edição Macmillan de 1903.

Vamos comparar os dois textos com as digitalizações, usando novamente o adaptador de similaridade semântica:

Pontuações de similaridade semântica entre textos e imagens

Um Conto de Duas Cidades (digitalização)Orgulho e Preconceito (digitalização)
Um Conto de Duas Cidades (texto)0,73360,4891
Orgulho e Preconceito (texto)0,48040,7213

Você vê que as pontuações de similaridade semântica favorecem fortemente textos que correspondem ao conteúdo das imagens.

Podemos também comparar os textos com uma captura de tela de uma postagem nas redes sociais e um meme que fazem referência a esses textos, usando a mesma estrutura:

Figura 3: Um tuíte de Elon Musk que faz referência a A Tale of Two Cities (Um Conto de Duas Cidades) e um meme que faz referência à famosa abertura de Pride and Prejudice (Orgulho e Preconceito).

Pontuações de similaridade semântica entre textos e imagens

Um Conto de Duas CidadesOrgulho e Preconceito
Tweet de Musk (imagem)0,71560,4912
Meme Keep Calm (imagem)0,45550,6244

Podemos fazer o mesmo para a fala. Obtivemos gravações da leitura de ambos os textos, em inglês e francês:

Pontuações de similaridade semântica entre textos e áudios entre línguas

Um Conto de Duas Cidades (áudio em inglês)Um Conto de Duas Cidades (áudio em francês)Orgulho e Preconceito (áudio em inglês)Orgulho e Preconceito (áudio em francês)
Um Conto de Duas Cidades (texto em inglês)0,38160,31060,16070,1774
Um Conto de Duas Cidades (texto em francês)0,35280,32530,15980,1721
Orgulho e Preconceito (texto em inglês)0,19100,16820,35110,3398
Orgulho e Preconceito (texto em francês)0,16670,14740,30180,3702

Essa capacidade multilíngue e multimídia se estende à recuperação de informações.

Os adaptadores de recuperação para os modelos jina-embeddings-v5-omni implementam recuperação assimétrica. Isso significa que eles codificam consultas de maneira diferente da forma como incorporam documentos-alvo de recuperação, então as consultas multimodais estão sempre em alguma direção, com consultas em uma mídia e documentos em outra, dando pontuações diferentes de quando são invertidas.

As tabelas abaixo mostram as pontuações de recuperação para texto, áudio e imagens de digitalização de páginas de Um Conto de Duas Cidades e Orgulho e Preconceito, quando o texto de Um Conto de Duas Cidades (em inglês) é codificado como a consulta:

Texto para texto

DocumentoPontuação de recuperação
Um Conto de Duas Cidades (trecho de texto em francês)0,7597
Orgulho e Preconceito (trecho do texto em inglês)0,1482
Orgulho e Preconceito (trecho de texto em francês)0,0523

Texto para imagem

DocumentoPontuação de recuperação
Um Conto de Duas Cidades (digitalização da página em inglês)0,5517
Um Conto de Duas Cidades (digitalização da página em francês)0,3576
Orgulho e Preconceito (digitalização da página em inglês)0,1917

Texto para áudio

DocumentoPontuação de recuperação
Um Conto de Duas Cidades (áudio em inglês)0,3277
Um Conto de Duas Cidades (áudio em francês)0,1980
Orgulho e Preconceito (áudio em inglês)0,1419
Orgulho e Preconceito (áudio em francês)0,1759

Os usuários também podem executar a consulta no sentido oposto, realizando recuperação de áudio-texto e imagem-texto.

Abaixo estão as pontuações usando o áudio em inglês de Um Conto de Duas Cidades como consulta e vários textos como documentos:

Imagem para texto

DocumentoPontuação de recuperação
Um Conto de Duas Cidades (trecho do texto em inglês)0,3352
Um Conto de Duas Cidades (trecho de texto em francês)0,2650
Orgulho e Preconceito (trecho do texto em inglês)0,1626
Orgulho e Preconceito (trecho de texto em francês)0,1385

E as pontuações usando uma digitalização da primeira página de Um Conto de Duas Cidades (em inglês) como consulta:

Áudio para texto

DocumentoPontuação de recuperação
Um Conto de Duas Cidades (trecho do texto em inglês)0,5304
Um Conto de Duas Cidades (trecho de texto em francês)0,4845
Orgulho e Preconceito (trecho do texto em inglês)0,1467
Orgulho e Preconceito (trecho de texto em francês)0,0761

As capacidades do jina-embeddings-v5-omni para indexação de vídeo e busca trazem novas capacidades aos bancos de dados Elasticsearch, mas estão sujeitas a muitos dos mesmos avisos que se aplicam aos textos. Gerar um único embedding para um filme longo é como incorporar um romance muito longo: informações detalhadas serão diluídas, e o embedding resultante será uma boa correspondência para muitas consultas muito espúrias.

Se você incorporar o texto completo de O Senhor dos Anéis (aproximadamente 500.000 palavras), é provável que ele corresponda à maioria das consultas, independentemente do que você esteja procurando. Da mesma forma, se você indexar um filme de Hollywood de duas horas, obterá muitas correspondências espúrias e detalhes totalmente perdidos. jina-embeddings-v5-omni é ideal com clipes curtos.

Para este exemplo, baixamos o trailer do filme Bonequinha de Luxo, de 1961, que tem apenas 158 segundos de duração e está em domínio público. Você pode assistir ao trailer no Internet Archive.

Figura 4: O pôster teatral de Bonequinha de Luxo.

Nós usamos PySceneDetect para dividir o trailer em 28 cenas individuais, com durações variando de 1,877 segundos (45 quadros) a 18,393 segundos (441 quadros). A detecção de cena é imperfeita, mas fornece um mecanismo adequado para dividir o vídeo em trechos menores para recuperação. Então, geramos embeddings de documentos para cada um dos 28 segmentos, usando jina-embeddings-v5-omni-small, para que pudéssemos testar a eficácia das consultas de texto na localização de elementos específicos no vídeo.

Por exemplo, a consulta por “cat” retornou os seguintes trechos como os três principais resultados. A única cena com um gato está no topo, com uma pontuação de 0,1634:

Assista ao primeiro vídeo.

A próxima melhor correspondência, com uma pontuação de 0,1237, é muito menor:

Assista ao clipe 2.

Você também pode buscar ações. Se você pesquisar por "beijo", as quatro melhores correspondências mostram beijos:

Assista ao clipe 3. Sua pontuação é 0,2864.

Pontuações: Para a segunda correspondência (0,2494), terceira correspondência (0,2099) e quarta correspondência (0,2068), respectivamente.

E você pode buscar textos exibidos em vídeos, como "Buddy Ebsen", que só aparece uma vez. jina-embeddings-v5-omni-small identifica-o prontamente como o melhor resultado com uma pontuação de 0,3885, consideravelmente maior do que o próximo melhor resultado:

Clipe do Buddy Ebsen.

Recuperação visual de documentos

Os modelos multimodais de embedding da Jina AI estão entre os melhores em processamento de documentos visuais e são de última geração em processamento visual multilíngue de documentos. Isso significa lidar com dados de imagens que contenham texto, figuras e informações estruturadas. Os dados importantes geralmente estão na forma de digitalizações impressas, arquivos PDF, diagramas, desenhos técnicos, capturas de tela, imagens, infográficos e similares. Esses tipos de imagens geralmente são compostos mecanicamente ou gerados por computador. Eles geralmente não podem ser reduzidos a texto sem perda de significado e são pouco adequados para modelos de visão computacional projetados para fotografar cenas naturais.

jina-embeddings-v5-omniOs embeddings abrangem informações sobre os objetos na imagem, o texto impresso neles e as relações entre eles. A recuperação visual de documentos possibilita indexar imagens ricas em informações que contêm tanto elementos quanto texto relevante, inclusive em diferentes idiomas.

Como exemplo, vamos usar quatro imagens de produtos de vários sites de comércio eletrônico:

Agora, vamos ver como jina-embeddings-v5-omni-small avalia essas quatro imagens para a consulta "miocarrão ramen":

Campbell’s Frango com Macarrão Grosso (embalagem canadense)Kraft Dinner (embalagem canadense)Ramen fresco sabor Maruchan Miso (embalagem japonesa)Birkel Spaghetti (embalagem alemã)
0,08720,07110,11230,0886

Ele encontra facilmente a correspondência japonesa.

Agora, vamos tentar uma consulta para "マカロニチーズ" (japonês para macarrão com queijo):

Campbell’s Frango com Macarrão Grosso (embalagem canadense)Kraft Dinner (embalagem canadense)Ramen fresco sabor Maruchan Miso (embalagem japonesa)Birkel Spaghetti (embalagem alemã)
0,22070,34870,27600,2674

Ele encontra a correspondência correta com a mesma facilidade que uma consulta em inglês.

jina-embeddings-v5-omni também se destaca na interpretação de imagens ricas em informações, como gráficos. Para ver isso em ação, veja estes dois gráficos de barras:

Dois gráficos, Gráfico 1 à esquerda, sobre a carga global de doenças, e Gráfico 2 à direita, sobre a longevidade das raças de cães.

Vamos ver como eles correspondem a duas questões de texto potenciais, cada uma relevante para um, mas não para ambos os gráficos, usando jina-embeddings-v5-omni-small para recuperação:

Pergunta de textoGráfico 1Gráfico 2
“Quais são alguns problemas médicos comuns para idosos?”0,27870,1099
"Quanto tempo os cachorros vivem?"0,13500,3564

Você também pode reverter a busca, usando imagens como consultas para encontrar textos. A tabela abaixo mostra documentos-alvo extraídos dos resumos de artigos científicos relacionados ao tópico e suas pontuações de recuperação, usando as imagens do gráfico como consultas:

Texto 1Texto 2
A saúde das populações que vivem em extrema pobreza tem sido um foco de longa data dos esforços de desenvolvimento global e continua sendo uma prioridade durante a era dos Objetivos de Desenvolvimento Sustentável. No entanto, não houve uma tentativa sistemática de quantificar a magnitude e as causas da carga nessa população específica por quase duas décadas. Estimamos as taxas de doenças por causa para o bilhão mais pobre do mundo e comparamos essas taxas com as de populações de alta renda.O cão de companhia é uma das espécies mais fenotipicamente diversas. A variabilidade entre raças se estende não apenas à morfologia e aspectos do comportamento, mas também à longevidade. Apesar desse fato, poucas pesquisas têm sido dedicadas à avaliação da variação na expectativa de vida entre raças ou à avaliação do potencial para caracterização filogenética da longevidade.
Gráfico 10,23770,1357
Gráfico 20,06730,3576

Recursos

Embeddings truncáveis

Treinamos os modelos de base jina-embeddings-v5-text que sustentam jina-embeddings-v5-omni com Aprendizado de Representação Matryoshka, para que você possa truncar embeddings de texto e multimídia desses modelos.

Por padrão, jina-embeddings-v5-omni-small gera embeddings com 1.024 dimensões, consumindo 2KB para armazenar com precisão de 16 bits. Os embeddings do jina-embeddings-v5-omni-nano têm 768 dimensões, ocupando cerca de 1,5KB. Você pode reduzir o tamanho desses embeddings para 32 dimensões (64 bytes) a algum custo para a precisão, mas com grande ganho na velocidade de processamento e redução dos custos de recursos. Em geral, reduzir o tamanho dos embeddings pela metade diminui a precisão em cerca de 2%, até 128 dimensões, abaixo das quais a precisão cai muito mais rápido.

Embeddings truncáveis permitem que os usuários decidam o melhor compromisso entre precisão, velocidade e custo, de acordo com seus casos de uso.

Quantização

A família jina-embeddings-v5-omni também herda desempenho robusto com quantização de sua estrutura principal jina-embeddings-v5-text. Isso aumenta ainda mais a velocidade e reduz os custos de computação e armazenamento ao armazenar números menos precisos. Nós os treinamos para funcionar com Elasticsearche sua Quantização Binária Aprimorada (BBQ), para fornecer desempenho quase idêntico ao de embeddings não quantizados. No conjunto de benchmarks de recuperação Massive Text Embedding Benchmark (MTEB), a binarização reduz o desempenho em menos de 3% em comparação com valores completos de 16 bits, enquanto economiza 93% do espaço e aumenta drasticamente as velocidades de processamento e recuperação.

Desempenho multilíngue

jina-embeddings-v5-textO extenso treinamento multilíngue também está presente em jina-embeddings-v5-omni, com quase 100 idiomas na pré-formação de jina-embeddings-v5-text-small e 15 principais línguas globais em jina-embeddings-v5-text-nano. Para mídia de áudio, o modelo Whisper-large-v3 possui aproximadamente 100 idiomas em seu treinamento, e os modelos de visão SigLip2 modificados por Qwen, integrados em jina-embeddings-v5-omni-small e -nano, foram treinados com dados de 201 idiomas e dialetos distintos.

Desempenho em benchmarks

Texto

jina-embeddings-v5-omni Os modelos são idênticos aos modelos jina-embeddings-v5-text quando usados apenas para texto. São os modelos com melhor desempenho no conjunto de benchmarks MMTEB em suas respectivas categorias de tamanho para embeddings semânticos de texto.

Figura 5: Tamanho e desempenho de jina-embeddings-v5-omniem benchmarks de texto, em comparação com modelos concorrentes. O tamanho citado é sem carregar extensões para outras mídias.

Similaridade semântica visual

Nos benchmarks padrão de similaridade semântica visual, jina-embeddings-v5-omni apresenta as melhores pontuações de qualquer modelo próximo ao seu tamanho. jina-embeddings-v5-omni modelos apresentam, de longe, o melhor desempenho entre os modelos públicos de pesos abertos de tamanho comparável. jina-embeddings-v5-omni-small só é superado por um modelo três vezes maior em tarefas de similaridade semântica visual, e jina-embeddings-v5-omni-nano é superado apenas por jina-embeddings-v5-omni-small e por modelos 10 a 25 vezes maiores.

Figura 6: Benchmark de pontuação média de similaridade semântica visual para os modelos jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano e comparáveis, além de seus tamanhos, incluindo extensões de visão.

Recuperação visual de documentos

jina-embeddings-v5-omni-small é competitivo com modelos de três e sete bilhões de parâmetros, permanecendo abaixo de um bilhão de parâmetros. jina-embeddings-v5-omni-nano também se destaca pelo tamanho, superando modelos de dez a sessenta vezes maiores.

Figura 7: Pontuações médias de recuperação visual de documentos do ViDoRe em seis benchmarks: DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad e TatDQA.

Recuperação de áudio

Nos benchmarks padrão de recuperação de áudio MAEB (Massive Audio Embedding Benchmark), tanto jina-embeddings-v5-omni-small quanto jina-embeddings-v5-omni-nano estão entre os melhores desempenhos. Apenas modelos muito grandes — mais de três vezes maiores que jina-embeddings-v5-omni-small — superam sua pontuação.

Figura 8: Pontuação média para vários modelos nos benchmarks de recuperação de áudio MAEB.

Embora o modelo larger_clap_general da LAION melhore a pontuação do jina-embeddings-v5-omni-nano ao ter menos parâmetros, é um modelo apenas de áudio, sem nenhum dos recursos multimodais adicionais do conjunto v5-omni.

Vídeo

No vídeo, jina-embeddings-v5-omni-small se destaca em encontrar o lugar em um vídeo que corresponde a uma consulta de texto. Os testes Charades-STA e MomentSeeker são os benchmarks padrão para essa tarefa, e você pode ver nos gráficos abaixo que jina-embeddings-v5-omni-small é o modelo com melhor pontuação entre modelos de pesos abertos comparáveis, apesar de seu tamanho muito menor.

Figura 9: Pontuações Charades-STA para vários modelos, junto com seus tamanhos.

Figura 10: Pontuações do MomentSeeker para vários modelos, junto com seus tamanhos.

Também comparamos jina-embeddings-v5-omni-small com o Seed 1.6 da ByteDance, um modelo de peso fechado com contagem de parâmetros não divulgada. Nosso modelo supera o Seed 1.6 por uma grande margem no benchmark Charades-STA e quase iguala no MomentSeeker.

ModeloPontuação Charades-STAPontuação do MomentSeeker
seed-1.6-embedding29,3059,30
jina-embeddings-v5-omni-small55,5758,93

Pontos fortes e limitações

jina-embeddings-v5-omni Os modelos ampliam a capacidade dos usuários de indexar, buscar e analisar informações digitalizadas de várias maneiras, particularmente:

  • Recuperação de fala multilíngue a partir de consultas de texto.
  • PDF, digitalizações e busca visual de documentos.
  • Localização temporal em vídeos, ou seja, identificar trechos dos vídeos que correspondem a descrições em linguagem natural.
  • Classificação de gêneros de áudio, incluindo gêneros musicais.
  • Classificação de imagem baseada em informações da cena e identificação de objetos.

O desempenho é mais limitado em outras áreas. Pode ser possível usar jina-embeddings-v5-omni para realizar essas tarefas, mas não treinamos para elas e os resultados podem ser ruins.

Estamos trabalhando ativamente para aprimorar nossa tecnologia nestas áreas:

  • Encontrar vídeos específicos a partir de descrições em linguagem natural.
  • Similaridade semântica e recuperação de imagens (imagem para imagem).
  • Classificação de intenção na fala, como reconhecer comandos verbais.
  • Processamento de entradas multimídia, ou seja, imagens e textos acompanhantes, ou áudio, imagens e textos combinados.

Usando

Este conjunto de modelos permite entrada por meio de três pontos de entrada: texto, áudio, imagens e vídeo juntos. jina-embeddings-v5-omni é executado em um framework que converte uma ampla variedade de formatos padronizados e realiza outros pré-processamentos.

Processamos as imagens usando a mesma abordagem NaFlex fornecida na versão inicial do SigLip2: se a entrada for menor que 262.144 pixels (equivalente a 512x512), ela é ampliada até ficar maior que esse mínimo; e se for maior que 3.072.000 pixels, ela é reduzida até ficar menor que esse máximo. O processo de conversão garante que a altura e a largura da imagem sejam múltiplas de 14 pixels, com a menor distorção possível na proporção para atingir esse objetivo. O resultado é dividido em patches de 28x28 pixels, então o número total de patches é quantos quadrados de 28x28 forem necessários para cobrir a imagem. Cada patch é tratado como um único token no momento da inferência, e cada entrada de imagem é acompanhada por tokens especiais de início e fim para delimitar uma única imagem.

Os modelos jina-embeddings-v5-omni modificam a resolução do vídeo da mesma forma que as imagens são modificadas (veja acima), e extraímos até 32 quadros do vídeo. Se o vídeo tiver mais de 32 quadros (o que é provável, já que os formatos padrão geralmente têm pelo menos 24 quadros por segundo), espaçaremos uniformemente os quadros que extraímos. Então, para cada dois quadros, o pré-processador de vídeo gera um conjunto de tokens igual ao número de quadrados 28x28 necessários para cobrir o vídeo.

Figura 11: jina-embeddings-v5-omni extrai 32 quadros igualmente espaçados do vídeo. Se você tiver um vídeo longo, isso significa que muita coisa será perdida.

Para mais detalhes sobre pré-processamento de vídeo, veja a documentação técnica do SigLip2.

A tokenização de áudio segue a abordagem incorporada ao Qwen-2.5-Omni: Os arquivos de som são cortados em segmentos de 30 segundos; se tiverem mais de 30 segundos, serão reamostrados para 16 kHz e transformados em um mel espectrograma de 128 canais Cada 40 ms é tratado como um único token, portanto, cada segmento de 30 segundos é tratado como 750 tokens, um token por 40 ms de áudio, além de tokens especiais de início e fim para delimitar uma única amostra.

Para mais detalhes sobre pré-processamento de áudio, veja o Relatório Técnico Qwen-2.5-Omni.

Disponibilidade

[@portabletext/react] Unknown block type "block", specify a component for it in the `components.types` prop

Para começar

Para usar jina-embeddings-v5-omni modelos no EIS, defina o campo type para semantic_text (mesmo que a mídia não seja toda texto) ao criar seu índice e especificar jina-embeddings-v5-omni-small e jina-embeddings-v5-omni-nano no campo inference_id. O EIS seleciona automaticamente o adaptador LoRA para indexação e recuperação.

Para textos, o procedimento é idêntico ao de jina-embeddings-v5-text:

Para inserir outras mídias, primeiro converta para uma string Base64 e depois coloque essa string no mesmo campo que você usaria para texto:

Repita o mesmo para consultas multimídia:

Para acesso via API Jina, consulte o website Jina AI.

Para usar os adaptadores de classificação, clustering ou similaridade semântica, ou para truncar embeddings para tamanhos personalizados, crie um endpoint de inferência personalizado para o seu projeto e siga as instruções ali presentes para conectar-se aos modelos da Jina AI e passar parâmetros para eles.

Para usar BBQ com jina-embeddings-v5-omni, siga as instruções para indexação BBQ.

Mais informações

Para mais informações sobre jina-embeddings-v5-omni, consulte o relatório técnico e a página do modelo no website da Jina AI. A página da coleção jina-embeddings-v5-omni no Hugging Face também contém informações técnicas e instruções para baixar e executar esses modelos localmente. Os modelos jina-embeddings-v5-omni podem ser baixados sob uma licença CC-BY-NC-4.0, portanto, você pode experimentá-los livremente, mas para uso comercial, por favor, entre em contato com a equipe de vendas da Elastic.

Quão útil foi este conteúdo?

Não útil

Um pouco útil

Muito útil

Conteúdo relacionado

Pronto para criar buscas de última geração?

Uma pesquisa suficientemente avançada não se consegue apenas com o esforço de uma só pessoa. O Elasticsearch é impulsionado por cientistas de dados, especialistas em operações de aprendizado de máquina, engenheiros e muitos outros que são tão apaixonados por buscas quanto você. Vamos nos conectar e trabalhar juntos para construir a experiência de busca mágica que lhe trará os resultados desejados.

Experimente você mesmo(a)