모든 미디어, 단 하나의 인덱스: jina-embeddings-v5-omni

jina-embeddings-v5-omni를 사용하면 텍스트, 이미지, 동영상 및 오디오를 단일 Elasticsearch 인덱스에 임베드하고 모든 항목을 한 번에 쿼리할 수 있습니다.

jina-embeddings-v5-omni 텍스트, 이미지, 동영상 및 오디오를 단일 Elasticsearch 인덱스로 통합합니다. 동급 최강의 jina-embeddings-v5-text 모델을 확장한 v5-omni 제품군은 텍스트 백본을 동일하게 유지하는 혁신적인 아키텍처를 통해 시각 및 오디오 인코딩을 추가하여 하나의 매우 컴팩트한 임베딩 모델에서 프론티어급 성능을 제공합니다.

이제 거의 100개 언어에 걸쳐 텍스트, 이미지, 동영상, 오디오 녹음에 대해 고성능 시맨틱 임베딩을 생성할 수 있습니다. 이러한 임베딩은 분류, 클러스터링, 의미적 유사도 측정, 검색을 위한 색인에 사용할 수 있습니다. 데이터가 텍스트와 함께 PDF, 녹음, 동영상에 포함된 경우, 더 이상 각각에 대해 별도의 파이프라인을 사용하지 않아도 됩니다.

jina-embeddings-v5-omni 제품군은 사진, 음성, 인쇄, 동영상을 지원하는 현재 시중에서 가장 소형의 임베딩 모델입니다. 제공 내용:

  • jina-embeddings-v5-text검색, 분석 및 AI 에이전트 애플리케이션을 위한 프론티어급 텍스트 임베딩
  • 시각적 의미론적 유사도, 시각적 이해 및 이미지 검색을 위한 동급 최강의 임베딩 jina-embeddings-v5-omni-small은 매개변수 10억 개를 가진 모델 중 이미지 벤치마크에서 가장 우수한 성능을 보이며, 이전 모델인 jina-clip-v2보다 우수합니다. 매개변수가 3배~30배 더 많은 몇몇 모델만이 이를 능가할 수 있습니다.
  • 다국어 시각적 이해 및 검색을 위한 최첨단 임베딩으로, 최대 20배 더 큰 모델을 능가합니다.
  • 동급 최고의 오디오 임베딩, 표준 벤치마크에서 더 나은 성능을 보이는 모델은 매개변수 수가 두 배 이상인 모델뿐입니다.
  • 동영상 지원, 특히 동영상에서 물체와 이벤트를 찾는 데 사용됩니다.

이 기술은 정보 검색, 문서 처리 및 데이터 분석의 모든 분야에 적용될 수 있습니다. jina-embeddings-v5-omni를 사용하면 다양한 미디어 사일로에 잠겨 있는 정보에 접근해 AI 에이전트가 검색, 분석 및 사용하게 할 수 있습니다. 오디오 및 동영상 녹음, PDF, 인쇄된 페이지 스캔, 인포그래픽에 담긴 정보는 데이터 생태계에서 디지털화된 텍스트와 동등한 위치를 차지합니다.

jina-embeddings-v5-text와 마찬가지로 이 모델들도 smallnano 두 가지 크기로 제공됩니다. 두 모델 모두 해당 텍스트 버전에 오디오 및 시각적 입력을 지원하는 추가 모듈을 더하여 확장합니다. 로드 시 사용자가 모듈을 선택할 수 있습니다. 또한 의미적 유사도, 분류, 클러스터링, 정보 검색을 위한 작업별 확장 기능이 소형 로우랭크 어댑터(LoRA)로 구현되어 모두 로드되므로 사용자가 추론 시점에 선택할 수 있습니다.

두 모델 모두 매우 컴팩트합니다. jina-embeddings-v5-omni-small은 일반적인 GPU가 장착된 서버에서 실행될 수 있고, jina-embeddings-v5-omni-nano는 일반 하드웨어에서 실행될 만큼 충분히 작습니다. 이는 컴퓨팅 비용을 크게 절감할 수 있는 잠재력을 제공하며, 라이선스 기반의 로컬 설치 및 엣지 프로세싱을 지원하므로 지연 시간을 줄이고 데이터에 대한 제어권을 강화할 수 있습니다.

v5-omni 제품군은 혁신적인 모델 설계와 Machine Learning 기술을 사용하여 이전에 훈련된 모델에서 새로운 임베딩 모델을 구성하므로 다시 훈련할 필요가 없습니다. 사전 학습되고 언어에 맞춘 임베딩 모델의 인코더를 기존 jina-embeddings-v5-text 모델군의 입력 전처리기로 사용합니다. 결과로 생성된 모델은 텍스트에 생성하는 임베딩과 의미적으로 호환되는 이미지와 음성 녹음에 임베딩을 생성합니다.

v5-omni 모델은 jina-embeddings-v5-text와 동일한 텍스트 임베딩(즉, jina-embeddings-v5-omni-smalljina-embeddings-v5-text-small, jina-embeddings-v5-omni-nanojina-embeddings-v5-text-nano)을 생성하여 인덱스를 재구축하지 않고도 기존 텍스트 검색 저장소를 멀티미디어 애플리케이션으로 확장할 수 있습니다.

통합 인코더는 모두 오픈 가중치 소스에서 파생되었습니다. 이미지 및 동영상의 경우 Qwen3.5 모델의 인코더를 사용했습니다.

이러한 미디어별 인코더를 숙련된 크로스 모달 프로젝터를 통해 텍스트 처리 백본에 연결했습니다. 이 프로젝터는 고유 출력을 jina-embeddings-v5-text와 호환되는 입력 임베딩으로 변환합니다. jina-embeddings-v5-omni 모델에서 유일하게 새롭게 학습한 부분은 해당 프로젝터의 가중치 뿐입니다.

이 아키텍처를 사용하면 네 개의 LoRA 어댑터 각각에 대해 교차 모델 프로젝터(jina-embeddings-v5-omni-small의 경우 약 550만 개, jina-embeddings-v5-omni-nano의 경우 350만 개 미만의 매개변수)만 학습하면 됩니다. 이 접근 방식은 서로 다른 임베딩 모델을 연결하는 데 필요한 추가 학습을 최소화하면서, 각 모델의 특화된 학습을 활용하여 극도로 컴팩트하고 고성능의 모듈형 임베딩 제품군을 구현합니다.

선택된 모델 속성

입력/출력

모델 이름입력 컨텍스트 창 크기임베딩 크기
jina-embeddings-v5-omni-small32,768개의 토큰*1024차원(최소: 32)
jina-embeddings-v5-omni-nano8,192 토큰*768차원(최소: 32)

* 텍스트가 아닌 미디어를 토큰화하는 방법에 대한 자세한 내용은 아래 jina-embeddings-v5-omni 사용하기를 참조하세요.

크기

모델 이름전체 크기
jina-embeddings-v5-omni-small(텍스트 전용 기본 모델 + LoRA 어댑터 4개)700M 파라미터
이미지/동영상 지원(Qwen3.5-2B에서 추출된 SigLIP2 So400m 인코더)1.006B 매개변수
오디오 지원(Qwen2.5-Omni-7B에서 추출된 Whisper-large-v3 인코더)매개변수 13억 5400만 개
모두1.660B 매개변수
LoRA 어댑터(각)20M
jina-embeddings-v5-omni-nano(텍스트 전용 기본 모델 + 4개의 LoRA 어댑터)매개변수 2억 6600만 개
이미지/동영상 지원(Qwen3.5-0.8B에서 추출된 SigLIP2 기본 인코더)매개변수 3억 5400만 개
오디오 지원(Qwen2.5-Omni-7B에서 추출된 Whisper-large-v3 인코더)매개변수 9억 1,600만 개
모두매개변수 10억 400만 개
LoRA 어댑터(각)7M

* 텍스트가 아닌 미디어를 토큰화하는 방법에 대한 자세한 내용은 아래 jina-embeddings-v5-omni 사용하기를 참조하세요.

작업별 훈련

jina-embeddings-v5-omni 제품군은 jina-embeddings-v5-text와 동일한 작업별 LoRA 어댑터를 지원합니다.

작업사용 예시
검색정보 검색은 단독으로 또는 다른 검색 및 후보 평가 기술과 함께 수행됩니다. v5-omni 모델을 사용하면 하나의 인덱스에서 하나의 쿼리로 오디오, 비디오, 이미지를 검색할 수 있습니다.
클러스터링어느 미디어에서나 토픽 검색 및 자동 토픽 정리 가능
분류분류, 감정 분석 및 관련 작업
의미적 유사성데이터 중복 제거, 추천 시스템, 관련 미디어, 음성에 맞는 텍스트 찾기, 번역 식별 및 유사한 작업을 미디어 전반에 걸쳐 수행

출력 임베딩은 선택한 작업 범주에 따라 달라집니다. 예를 들어, 클러스터링에 검색 지향 임베딩을 사용하거나, 분류 작업에 의미적 유사도 임베딩을 사용하지 않는 것이 좋습니다.

멀티미디어, 멀티모달, 다국어, 다기능

jina-embeddings-v5-omni의 기능을 확인하기 위해 두 소설의 유명한 첫 구절을 가져와 의미적 유사도를 측정해 보겠습니다.

두 도시 이야기(찰스 디킨스)

오만과 편견(제인 오스틴)

jina-embeddings-v5-omni-small의 의미적 유사도 어댑터를 사용하면 이 텍스트의 유사도는 0.5329입니다.

그 숫자는 비교할 대상이 없으면 별 의미가 없으므로, 동일한 모델과 어댑터를 사용하여 이 두 텍스트를 프랑스어 번역과 비교해 보겠습니다:

언어 간 텍스트의 의미적 유사도 점수

두 도시 이야기(영어)오만과 편견(영어)
두 도시 이야기 (프랑스어)(Paris et Londres en 1783, 번역: H. Loreau)0.90950.5074
오만과 편견(프랑스어)(Orgueil et Préjugés, Leconte et Pressoir 번역)0.48260.8784

두 텍스트는 같은 언어 또는 다른 언어로 작성된 다른 텍스트보다 자신의 번역본과 훨씬 더 높은 유사도를 보입니다. 이는 jina-embeddings-v5-text-small에 변경 없이 포함된 jina-embeddings-v5-omni-small의 고성능 다국어 시맨틱 임베딩을 반영한 것입니다.

jina-embeddings-v5-omni에 멀티미디어 지원을 추가하면 이 실험을 다른 유형의 데이터로 확장할 수 있습니다. 예를 들어, 오래 전에 출판된 인쇄본에서 두 소설의 첫 페이지 스캔본을 가져왔습니다.

그림 2: 두 도시 이야기, 19세기 연도 미상 판본. 오만과 편견, 1903년 맥밀런 판본.

의미적 유사도 어댑터를 사용하여 두 텍스트를 다시 스캔한 결과와 비교해 보겠습니다.

텍스트와 이미지 간의 의미적 유사도 점수

두 도시 이야기(스캔본)오만과 편견(스캔본)
두 도시 이야기(원문)0.73360.4891
오만과 편견(원문)0.48040.7213

의미적 유사도 점수가 이미지 내용과 일치하는 텍스트에 높게 나타나는 것을 확인할 수 있습니다.

동일한 방식으로 해당 텍스트를 참조하는 소셜 미디어 게시물 스크린샷 및 밈과도 비교해 볼 수 있습니다.

그림 3: 두 도시 이야기를 언급한 일론 머스크의 트윗, 오만과 편견의 유명한 첫 문장을 언급한 밈.

텍스트와 이미지 간의 의미적 유사도 점수

두 도시 이야기오만과 편견
머스크 트윗(이미지)0.71560.4912
Keep calm 밈(이미지)0.45550.6244

발화에 대해서도 동일한 작업을 할 수 있습니다. 영어와 프랑스어로 된 두 텍스트의 낭독 녹음을 확보했습니다.

언어 간 텍스트와 오디오 간의 의미적 유사도 점수

두 도시 이야기 (영어 오디오)A Tale of Two Cities(프랑스어 오디오)오만과 편견(영어 오디오)오만과 편견 (프랑스어 오디오)
A Tale of Two Cities(영어 텍스트)0.38160.31060.16070.1774
A Tale of Two Cities(프랑스어 텍스트)0.35280.32530.15980.1721
Pride and Prejudice(영문)0.19100.16820.35110.3398
오만과 편견(프랑스어 원문)0.16670.14740.30180.3702

이러한 다국어 및 멀티미디어 기능은 정보 검색까지 확장됩니다.

jina-embeddings-v5-omni 모델의 검색 어댑터는 비대칭 검색을 구현합니다. 이는 쿼리와 검색 대상 문서를 서로 다른 방식으로 임베딩함을 의미합니다. 따라서 크로스 모달 쿼리는 항상 방향성을 가지며, 한쪽 미디어의 쿼리와 다른 미디어의 문서가 결합될 때 순서가 바뀌는 경우와 다른 점수가 산출됩니다.

아래 표는 두 도시 이야기(영어) 텍스트를 쿼리로 인코딩했을 때 두 도시 이야기오만과 편견의 텍스트, 오디오, 페이지 스캔 이미지에 대한 검색 점수를 보여줍니다.

텍스트 간 변환

문서검색 점수
두 도시 이야기(프랑스어 원문 발췌)0.7597
오만과 편견(영어 원문 발췌)0.1482
오만과 편견 (프랑스어 텍스트 발췌)0.0523

텍스트를 이미지로 변환

문서검색 점수
두 도시 이야기(영문 페이지 스캔)0.5517
두 도시 이야기(프랑스어 페이지 스캔)0.3576
오만과 편견(영문 페이지 스캔)0.1917

텍스트에서 오디오

문서검색 점수
두 도시 이야기 (영어 오디오)0.3277
A Tale of Two Cities(프랑스어 오디오)0.1980
오만과 편견(영어 오디오)0.1419
오만과 편견 (프랑스어 오디오)0.1759

또한 쿼리를 반대로 실행하여 오디오-텍스트 및 이미지-텍스트 검색을 수행할 수도 있습니다.

아래는 두 도시 이야기 영어 오디오를 쿼리로 사용하고, 다양한 텍스트를 문서로 사용한 점수입니다:

이미지를 텍스트로 변환

문서검색 점수
두 도시 이야기(영어 원문 발췌)0.3352
두 도시 이야기(프랑스어 원문 발췌)0.2650
오만과 편견(영어 원문 발췌)0.1626
오만과 편견 (프랑스어 텍스트 발췌)0.1385

그리고 점수는 두 도시 이야기(영어)의 첫 페이지 스캔을 쿼리로 사용하여 계산됩니다.

오디오를 텍스트로 변환

문서검색 점수
두 도시 이야기(영어 원문 발췌)0.5304
두 도시 이야기(프랑스어 원문 발췌)0.4845
오만과 편견(영어 원문 발췌)0.1467
오만과 편견 (프랑스어 텍스트 발췌)0.0761

jina-embeddings-v5-omni의 동영상 색인 및 검색 기능은 Elasticsearch 데이터베이스에 새로운 기능을 제공하지만, 텍스트에 적용되는 것과 동일한 주의사항이 많이 적용됩니다. 장편 영화 전체를 단일 임베딩으로 생성하는 것은 매우 긴 소설을 임베딩하는 것과 같습니다. 세부 정보가 희석되어 결과 임베딩이 다수의 엉뚱한 쿼리에도 높은 유사도를 보일 수 있습니다.

반지의 제왕 전체 텍스트(약 50만 단어)를 하나의 임베딩으로 처리하면 검색 내용과 무관하게 대부분의 쿼리에 높은 유사도를 보일 가능성이 높습니다. 마찬가지로, 2시간 분량의 영화를 인덱싱하면 엉뚱한 매칭이 많이 발생하고 세부 정보가 누락될 수 있습니다. jina-embeddings-v5-omni는 짧은 클립에 최적화되어 있습니다.

이 예시에서는 1961년 영화 티파니에서 아침을의 저작권이 적용되지 않는 예고편(158초 분량)을 다운로드하여 활용했습니다. 인터넷 아카이브에서 예고편을 볼 수 있습니다.

그림 4: 티파니에서 아침을의 극장용 포스터.

먼저 PySceneDetect를 사용하여 예고편을 1.877초(45프레임)에서 18.393초(441프레임)까지 다양한 길이의 28개의 개별 장면으로 분할했습니다. 장면 감지는 완벽하지 않지만, 동영상을 작은 크기로 나누어 검색할 수 있는 적절한 메커니즘을 제공합니다. 그런 다음 jina-embeddings-v5-omni-small를 사용하여 28개 세그먼트 각각에 대한 문서 임베딩을 생성했습니다. 이를 통해 동영상에서 특정 요소를 찾는 데 텍스트 쿼리의 효과를 테스트할 수 있었습니다.

예를 들어, '고양이'를 쿼리하면 다음 클립이 상위 3개 결과로 반환됩니다. 고양이가 등장하는 장면이 0.1634점으로 1위에 올랐습니다.

클립 1 보기.

그 다음 매칭은 0.1237점으로 훨씬 점수가 낮았습니다.

클립 2 보기.

또한 동작을 조회할 수도 있습니다. “kiss”라는 문자열로 쿼리하면 상위 4개의 일치 항목에 모두 키스가 포함됩니다.

클립 3 보기. 점수는 0.2864점입니다.

점수: 2위 매칭(0.2494), 3위 매칭(0.2099), 4위 매칭(0.2068)입니다.

그리고 "Buddy Ebsen"과 같이 동영상에서 한 번만 표시되는 텍스트를 검색할 수 있습니다. jina-embeddings-v5-omni-small은 2위보다 훨씬 높은 0.3885점으로 최고의 매칭임을 쉽게 알 수 있습니다.

Buddy Ebsen 클립.

Visual document retrieval

Jina AI의 멀티모달 임베딩 모델은 시각적 문서 처리 분야의 최고 성능 모델이자 다국어 시각적 문서 처리 분야의 최첨단 솔루션입니다. 이는 텍스트, 도형, 구조화된 정보가 포함된 이미지 데이터를 처리할 수 있다는 뜻입니다. 중요한 데이터는 종종 인쇄 스캔본, PDF 파일, 다이어그램, 기술 도면, 스크린샷, 사진, 인포그래픽 등의 형태로 제공됩니다. 이러한 종류의 이미지는 기계적으로 구성되거나 컴퓨터로 생성되는 경우가 많습니다. 일반적으로 이러한 이미지는 의미 손실 없이 텍스트로 변환하기가 어렵고, 실제 장면의 사진으로 설계된 컴퓨터 비전 모델에 적합하지 않습니다.

jina-embeddings-v5-omni임베딩은 이미지 내 물체, 그 위에 인쇄된 텍스트 및 둘 사이의 관계에 대한 정보를 포함합니다. 시각적 문서 검색을 통해 사물과 관련 텍스트가 모두 포함된 풍부한 이미지를 색인화하고, 이를 다국어로 처리할 수 있습니다.

예를 들어 다양한 전자상거래 웹사이트의 제품 이미지 4개를 사용하겠습니다.

이제 jina-embeddings-v5-omni-small 이 '라면 면' 쿼리에 대해 이 네 개의 이미지에 얼마나 정확하게 점수를 매기는지 알아보겠습니다.

캠벨 청키 치킨 누들(캐나다용 포장)Kraft Dinner(캐나다 포장)마루짱 된장맛 생라면(일본용 포장)비르켈 스파게티(독일용 포장)
0.08720.07110.11230.0886

쉽게 일본어 매치를 찾습니다.

이제 “マカロニチーズ”(일본어로 마카로니 앤 치즈)에 대해 쿼리를 실행해 보겠습니다:

캠벨 청키 치킨 누들(캐나다용 포장)Kraft Dinner(캐나다 포장)마루짱 된장맛 생라면(일본용 포장)비르켈 스파게티(독일용 포장)
0.22070.34870.27600.2674

영어 쿼리와 마찬가지로 손쉽게 정확히 일치하는 항목을 찾습니다.

jina-embeddings-v5-omni 또한 차트처럼 정보가 풍부한 이미지를 해석하는 데도 탁월합니다. 다음 두 개의 막대형 차트를 통해 실제로 확인해보겠습니다.

왼쪽에 있는 차트 1은 전 세계 질병 부담에 관한 내용이고, 오른쪽의 차트 2는 개 품종별 수명에 관한 내용입니다.

두 가지 잠재적 텍스트 질문이 각각 하나의 차트에만 해당하며 두 차트 모두에 해당하지 않는 경우, jina-embeddings-v5-omni-small 검색을 통해 얼마나 잘 일치하는지 확인해 보겠습니다.

텍스트 질문차트 1차트 2
"노인에게 흔히 발생하는 의학적 문제는 뭐야?"0.27870.1099
“개는 얼마나 오래 살아?”0.13500.3564

이미지를 검색어로 사용하여 텍스트를 찾는 역검색도 가능합니다. 아래 표는 주제별 관련 과학 논문의 초록에서 추출한 대상 문서와 그 검색 점수를 차트 이미지를 쿼리로 사용하여 보여줍니다.

텍스트 1텍스트 2
극심한 빈곤 속에서 살아가는 인구의 건강은 글로벌 개발 노력의 오랜 핵심 과제였으며, 지속가능발전목표(SDG) 시대에도 여전히 최우선 과제로 남아 있습니다. 그러나 이 특정 인구 집단의 질병 부담 규모와 원인을 체계적으로 정량화하려는 시도는 거의 20년간 이루어지지 않았습니다. 세계 최빈곤층 10억 명을 대상으로 원인별 질병 발생률을 추정하고, 이를 고소득 인구의 발생률과 비교했습니다.반려견은 표현형적으로 가장 다양한 종 중 하나입니다. 품종 간 차이는 형태학적 특성과 행동적 측면뿐만 아니라 수명에까지 나타납니다. 이러한 사실에도 불구하고, 품종 간 기대 수명의 차이를 평가하거나 수명의 계통발생학적 특성화 가능성을 검토하는 연구는 거의 이루어지지 않았습니다.
차트 10.23770.1357
차트 20.06730.3576

기능

잘라낼 수 있는 임베딩

jina-embeddings-v5-omni를 뒷받침하는 백본 jina-embeddings-v5-text 모델은 Matryoshka 표현 학습으로 학습되었기 때문에 이러한 모델에서 텍스트와 멀티미디어 임베딩을 모두 잘라낼 수 있습니다.

기본적으로 jina-embeddings-v5-omni-small은 1,024차원의 임베딩을 생성하며, 16비트 정밀도로 저장하는 데 2KB가 소요됩니다. jina-embeddings-v5-omni-nano의 임베딩은 768차원이며, 약 1.5KB를 차지합니다. 이러한 임베딩의 크기를 32차원(64바이트)까지 줄일 수 있으며, 이 경우 정확도는 다소 저하되지만 처리 속도가 크게 향상되고 리소스 비용이 절감됩니다. 일반적으로 임베딩 크기를 절반으로 줄이면 정확도가 약 2% 낮아지며, 128차원까지 내려가면 정확도가 훨씬 더 빠르게 떨어집니다.

잘라낼 수 있는 임베딩을 통해 사용자는 자신의 사용 사례에 맞춰 정확성, 속도 및 비용 간의 최적의 균형을 결정할 수 있습니다.

양자화

jina-embeddings-v5-omni 제품군은 또한 jina-embeddings-v5-text 백본의 강력한 양자화 성능을 그대로 이어받습니다. 이는 더 낮은 정밀도의 숫자를 저장함으로써 처리 속도를 더욱 높이고 컴퓨팅 및 스토리지 비용을 절감합니다. 이 모델들은 ElasticsearchBetter Binary Quantization(BBQ)과 함께 작동하도록 학습되어, 양자화되지 않은 임베딩과 거의 동일한 성능을 제공합니다. Massive Text Embedding Benchmark(MTEB) 검색 벤치마크 제품군에서 이진화는 전체 16비트 값 대비 성능을 3% 미만으로 저하시키면서 저장 공간을 93% 절감하고 처리 및 검색 속도를 크게 향상시킵니다.

다국어 성능

jina-embeddings-v5-text의 광범위한 다국어 학습은 jina-embeddings-v5-omni에도 적용되며, jina-embeddings-v5-text-small의 사전 학습에는 약 100개 언어가, jina-embeddings-v5-text-nano의 사전 학습에는 15개의 주요 글로벌 언어가 포함되어 있습니다. 오디오 미디어의 경우, Whisper-large-v3 모델은 약 100개의 언어로 학습되었으며, jina-embeddings-v5-omni-small-nano에 통합된 Qwen 수정 SigLip2 비전 모델은 201개의 서로 다른 언어 및 방언의 데이터로 학습되었습니다.

벤치마크 성능

텍스트

jina-embeddings-v5-omni 모델은 텍스트에만 사용할 경우 jina-embeddings-v5-text 모델과 동일합니다. 이들은 MMTEB 벤치마크 제품군에서 의미적 텍스트 임베딩 크기 카테고리에서 최고의 성능을 자랑합니다.

그림 5: jina-embeddings-v5-omni의 텍스트 벤치마크에서의 크기와 성능을 경쟁 모델과 비교한 결과. 인용된 크기는 다른 미디어의 확장자를 로드하지 않은 크기입니다.

시각적 의미적 유사도

표준 시각적 의미 유사도 벤치마크에서 jina-embeddings-v5-omni는 비슷한 크기의 모델 중 가장 높은 점수를 기록했습니다. jina-embeddings-v5-omni 모델은 비슷한 크기의 공개 오픈 가중치 모델 중 단연 최고의 성능을 보여줍니다. jina-embeddings-v5-omni-small은 시각적 의미 유사도 작업에서 3배 크기의 모델에만 뒤지며, jina-embeddings-v5-omni-nanojina-embeddings-v5-omni-small 및 10~25배 더 큰 모델에만 뒤집니다.

그림 6: 시각적 의미 유사도 벤치마크 평균 점수(jina-embeddings-v5-omni-small, jina-embeddings-v5-omni-nano, 및 비교 가능한 모델)와 시각 확장을 포함한 크기.

Visual document retrieval

jina-embeddings-v5-omni-small 30억 및 70억 개의 매개변수를 가진 모델과 경쟁력을 갖추면서도 10억 개 미만의 매개변수를 유지합니다. jina-embeddings-v5-omni-nano도 마찬가지로 10~60배 더 큰 모델을 제치고 크기 면에서 두각을 나타냈습니다.

그림 7: DocVQA, InfoVQA, ShiftProj, SynAI, Tabfquad, TatDQA 6개 벤치마크에서의 평균 ViDoRe 시각 문서 검색 점수.

오디오 검색

표준 MAEB(대규모 오디오 임베딩 벤치마크) 오디오 검색 벤치마크에서 jina-embeddings-v5-omni-smalljina-embeddings-v5-omni-nano 모두 상위권에 속합니다. jina-embeddings-v5-omni-small의 3배가 넘는 초대형 모델만이 이 점수를 넘어섰습니다.

그림 8: MAEB 오디오 검색 벤치마크에서 다양한 모델의 평균 점수.

비록 LAION의 larger_clap_general 모델이 더 적은 매개변수로 jina-embeddings-v5-omni-nano의 점수를 개선하지만, 이는 v5-omni 제품군의 추가적인 멀티모달 기능이 없는 오디오 전용 모델입니다.

동영상

jina-embeddings-v5-omni-small은 동영상에서 텍스트 검색어와 일치하는 동영상의 특정 위치를 찾는 데 탁월한 역량을 보입니다. 이 작업의 표준 벤치마크인 Charades-STA와 MomentSeeker 테스트 결과, 아래 차트에서 볼 수 있듯이 jina-embeddings-v5-omni-small은 크기가 훨씬 작음에도 불구하고 동급 오픈 가중치 모델 중 최고 점수를 기록했습니다.

그림 9: 다양한 모델의 Charades-STA 점수와 그 크기.

그림 10: 다양한 모델의 MomentSeeker 점수와 각 크기.

또한 jina-embeddings-v5-omni-small을 매개변수 수가 공개되지 않은 폐쇄 가중치 모델인 ByteDance의 Seed 1.6과도 비교했습니다. 저희 모델은 Charades-STA 벤치마크에서 Seed 1.6을 큰 차이로 앞섰고, MomentSeeker에서는 거의 동일합니다.

모델Charades-STA 점수MomentSeeker 점수
seed-1.6-embedding29.3059.30
jina-embeddings-v5-omni-small55.5758.93

장점과 한계

jina-embeddings-v5-omni 모델은 특히 다양한 방식으로 디지털화된 정보를 색인, 검색, 분석할 수 있는 사용자의 능력을 확장합니다.

  • 텍스트 쿼리 기반 다국어 음성 검색.
  • PDF, 스캔 및 시각적 문서 검색.
  • 동영상 시간적 그라운딩(동영상에서 자연어 텍스트 설명과 일치하는 부분 식별).
  • 음악 장르를 포함한 오디오 장르 분류.
  • 장면 정보 및 객체 식별을 기반으로 이미지를 분류합니다.

일부 다른 영역에서는 성능이 더 제한적일 수 있습니다. jina-embeddings-v5-omni를 사용하여 이러한 작업을 수행할 수도 있지만, 이에 대해 학습되지 않았으므로 결과가 좋지 않을 수 있습니다.

저희는 다음과 같은 분야의 기술을 개선하기 위해 적극적으로 노력하고 있습니다.

  • 자연어 설명에서 특정 동영상을 찾습니다.
  • 이미지 간 의미적 유사도와 검색 기능.
  • 음성 명령 인식과 같은 음성 의도 분류.
  • 이미지와 텍스트, 또는 오디오, 이미지, 텍스트가 결합된 혼합 미디어 입력 처리.

jina-embeddings-v5-omni

이 모델 제품군은 텍스트, 오디오, 이미지 및 동영상을 함께 입력하는 세 가지 입력 방식을 지원합니다. jina-embeddings-v5-omni는 광범위한 표준 형식을 변환하고 기타 전처리 작업을 수행하는 프레임워크 내에서 실행됩니다.

초기 SigLip2 릴리스에서 제공된 것과 같은 NaFlex 방식을 사용해 이미지를 처리합니다. 입력이 262,144픽셀(512x512에 해당)보다 작으면 그 최소 크기보다 커질 때까지 업스케일되고, 3,072,000픽셀보다 크면 그 최대 크기보다 작아질 때까지 축소됩니다. 변환 프로세스는 가능한 한 종횡비 왜곡을 최소화하면서 이미지의 높이와 너비가 모두 14픽셀의 배수가 되도록 합니다. 결과물은 28x28픽셀의 패치로 분할되며, 전체 패치 수는 이미지를 커버하는 데 필요한 28x28 정사각형의 수에 따라 결정됩니다. 각 패치는 추론 시 단일 토큰으로 처리되며, 각 이미지 입력에는 단일 이미지의 경계를 구분하기 위한 특수 시작 및 종료 토큰이 함께 제공됩니다.

jina-embeddings-v5-omni 모델은 이미지 수정과 마찬가지로 동영상 해상도를 수정하며(위 참조), 동영상에서 최대 32프레임까지 추출합니다. 동영상이 32프레임을 초과하는 경우(표준 형식은 보통 초당 최소 24프레임이므로 대부분 해당), 추출할 프레임을 균등한 간격으로 선택합니다. 그런 다음, 동영상 전처리기는 영상을 커버하기 위한 필요한 28x28 정사각형의 수에 해당하는 하나의 토큰 세트를 이후 매 2프레임마다 생성합니다.

그림 11: jina-embeddings-v5-omni가 동영상에서 동일한 간격으로 32개의 프레임 추출. 동영상이 길면 손실되는 양이 많다는 뜻입니다.

동영상 전처리에 대한 자세한 내용은 SigLip2 기술 문서를 참조하세요.

오디오 토큰화는 Qwen-2.5-Omni에 내장된 접근 방식을 따릅니다. 사운드 파일은 30초 세그먼트로 잘리고, 30초를 초과하는 경우 16kHz로 리샘플링되어 128채널 멜-스펙트로그램으로 변환됩니다. 40ms마다 하나의 토큰으로 처리되어 30초 분량의 세그먼트는 750개의 토큰(오디오 40ms당 1개의 토큰)으로 구성되며, 단일 샘플의 경계를 구분하기 위해 특수 시작 및 종료 토큰이 추가됩니다.

오디오 전처리에 대한 자세한 내용은 Qwen-2.5-Omni 기술 보고서를 참조하세요.

가용성

[@portabletext/react] Unknown block type "block", specify a component for it in the `components.types` prop

시작하기

EIS에서 jina-embeddings-v5-omni 모델을 사용하려면 색인을 생성할 때 type 필드를 semantic_text (미디어가 모두 텍스트가 아니더라도)로 설정하고 inference_id 필드에 jina-embeddings-v5-omni-small 또는 jina-embeddings-v5-omni-nano를 지정합니다. EIS는 인덱싱 및 검색을 위해 LoRA 어댑터를 자동으로 선택합니다.

텍스트의 경우에는 jina-embeddings-v5-text와 동일한 절차를 사용하세요.

다른 미디어를 입력하려면 먼저 Base64 문자열을 변환한 다음, 텍스트에 사용하는 필드와 동일한 필드에 해당 문자열을 입력합니다.

멀티미디어 쿼리에도 동일하게 수행하십시오:

Jina API를 통한 액세스를 위해 Jina AI 웹사이트를 참조하십시오.

분류기, 클러스터링 또는 의미적 유사도 어댑터를 사용하거나 임베딩을 사용자 지정 크기로 잘라내려면 프로젝트용 사용자 지정 추론 엔드포인트를 생성하고, 해당 안내에 따라 Jina AI 모델에 연결하고 매개변수를 전달하세요.

jina-embeddings-v5-omni와 BBQ를 함께 사용하려면 BBQ 색인 지침을 따르세요.

추가 정보

jina-embeddings-v5-omni에 대한 자세한 내용은 모델의 기술 보고서와 Jina AI 웹사이트 의 해당 페이지를 참조하세요. Hugging Face의 jina-embeddings-v5-omni 컬렉션 페이지에는 이 모델을 로컬에 다운로드하고 실행하는 방법에 대한 기술 정보와 안내가 포함되어 있습니다. jina-embeddings-v5-omni 모델은 CC-BY-NC-4.0 라이선스에 따라 다운로드할 수 있으므로 무료로 사용해 볼 수 있습니다. 그러나 상업적 용도로 사용하려면 Elastic 영업팀에 문의해 주시기 바랍니다.

이 콘텐츠가 얼마나 도움이 되었습니까?

도움이 되지 않음

어느 정도 도움이 됩니다

매우 도움이 됨

관련 콘텐츠

최첨단 검색 환경을 구축할 준비가 되셨나요?

충분히 고급화된 검색은 한 사람의 노력만으로는 달성할 수 없습니다. Elasticsearch는 여러분과 마찬가지로 검색에 대한 열정을 가진 데이터 과학자, ML 운영팀, 엔지니어 등 많은 사람들이 지원합니다. 서로 연결하고 협력하여 원하는 결과를 얻을 수 있는 마법 같은 검색 환경을 구축해 보세요.

직접 사용해 보세요