jina-embeddings-v5-omni 将文本、图像、视频和音频整合到单个 Elasticsearch 索引中。v5-omni 套件扩展了同类最佳的jina-embeddings-v5-text 模型,通过创新的架构增加了视觉和音频编码,使文本主干完全相同,在一个非常紧凑的嵌入模型中提供了前沿的性能。
您现在可以为文本、图像、视频和录音创建高性能语义嵌入,涵盖近 100 种语言,并将它们用于分类、聚类、语义相似度测量和检索索引。如果您的数据以 PDF、录音、视频和文本的形式存在,您不再需要为每种格式单独建立数据管道。
jina-embeddings-v5-omni 系列是目前市场上最紧凑的嵌入模型,支持图片、语音、文本和视频。它提供:
jina-embeddings-v5-text的前沿级文本嵌入,用于检索、分析和 AI 代理应用。- 用于视觉语义相似性、视觉理解和图像检索的同类最佳嵌入 。在所有参数规模为 10 亿(10⁹)的模型中,
jina-embeddings-v5-omni-small在图像基准测试中表现最佳,且优于我们之前的jina-clip-v2。只有少数几个具有 3 到 30 倍参数的模型可以击败它。 - 用于多语种视觉理解和检索的最先进嵌入技术,可击败规模比它大 20 倍的模型。
- 同类最佳的音频嵌入,在标准基准测试中,只有参数量是其两倍或更多的模型才能表现得更好。
- 支持视频,特别擅长定位视频片段中的物体和事件。
这项技术可应用于信息检索、文档处理和数据分析等各个领域。jina-embeddings-v5-omni 可打破存储在不同媒体孤岛中的信息壁垒,使其能够被 AI 智能体进行检索、分析和利用。在您的数据生态系统中,音频和视频、PDF、打印页面的扫描件以及信息图表中的信息,都与数字化文本处于同等地位。
和 jina-embeddings-v5-text 一样,这些模型有两种尺寸:small 和 nano。这两个模型都在其对应的纯文本版本基础上,通过增加额外的模块,实现了对音频和视觉输入的支持用户可以在加载时选择模块。此外,针对语义相似度、分类、聚类和信息检索等特定任务的扩展功能通过紧凑的低秩适配器 (LoRAs) 实现;这些适配器均已预载,用户可以在推理时直接选择使用。
两个模型的尺寸都非常精简。jina-embeddings-v5-omni-small 可以在配备常规 GPU 的服务器上运行,而 jina-embeddings-v5-omni-nano 的体积很小,可以在通用硬件上运行。这意味着可以节省大量的计算成本,并使得获得许可的本地安装及边缘处理成为可能,从而降低延迟并增强对自身数据的控制。
v5-omni 套件采用创新的模型设计和机器技术,能够通过已有的预训练模型来组合成新的嵌入模型,无需对它们进行重新训练。我们使用来自预训练且经过语言对齐的嵌入模型的编码器作为音频和视频媒体的输入预处理器,用于我们现有的 jina-embeddings-v5-text 模型套件。生成的模型能够为图像和录音生成嵌入,这些嵌入在语义上与其为文本生成的嵌入是兼容的。
v5-omni 模型生成的文本嵌入与 jina-embeddings-v5-text 相同(即,jina-embeddings-v5-omni-small 与 jina-embeddings-v5-text-small;以及 jina-embeddings-v5-omni-nano 与 jina-embeddings-v5-text-nano),因此您可以将现有的文本检索存储库扩展到多媒体应用程序,而无需重建索引。
集成的编码器全部源自开源权重模型。对于图像和视频,我们使用来自 Qwen3.5 模型的编码器:
- 对于
jina-embeddings-v5-omni-nano,我们使用来自 Qwen3.5-0.8B 中经过微调的 SigLIP2 Base 编码器。 - 对于
jina-embeddings-v5-omni-small,我们使用来自 Qwen3.5-2B 中经过微调的 SigLIP2 So400m 编码器。 - 为了实现音频支持,我们为 small 和 nano 版添加了从 Qwen2.5-Omni-7B 中提取的 Whisper-large-v3 编码器。
我们通过训练跨模态投影器,将这些媒体专用的编码器与文本处理主干网络连接了起来。这些投影器将其原生输出转换为与 jina-embeddings-v5-text 兼容的输入嵌入。jina-embeddings-v5-omni 模型中唯一新训练的部分是这些投影器中的权重。

jina-embeddings-v5-omni 模型的示意图。只有跨媒体投影器经过了新的训练。
这种架构意味着我们只需要为四个 LoRA 适配器中的每一个训练跨模态投影器,其参数量在 jina-embeddings-v5-omni-small 模型中约为 550 万,在 jina-embeddings-v5-omni-nano 模型中则低于 350 万。这种方法可最大限度地减少连接不同嵌入模型所需的额外训练,通过利用各模型原有的专业化训练成果,打造出了一套极其精简、高性能且模块化的嵌入套件。
选定的模型属性
输入/输出
| 型号名称 | 输入上下文窗口大小 | 嵌入大小 |
|---|---|---|
| jina-embeddings-v5-omni-small | 32,768 个词元* | 1024 维(最小值:32) |
| jina-embeddings-v5-omni-nano | 8,192 个标记* | 768 个维度(最小值:32) |
* 请参见下文的 使用 jina-embeddings-v5-omni 部分,了解非文本媒体如何进行切片化的更多信息。
大小
| 型号名称 | 总大小 |
|---|---|
| jina-embeddings-v5-omni-small(纯文本基础模型 + 4 个 LoRA 适配器) | 700M 参数 |
| 图像/视频支持(SigLIP2 So400m 编码器提取自 Qwen3.5-2B) | 1.006B 参数 |
| 音频支持(Whisper-large-v3 编码器提取自 Qwen2.5-Omni-7B) | 1.354B 参数 |
| 亦或是两种情况都有 | 1.660B 个参数 |
| LoRA适配器(每个) | 20M |
| jina-embeddings-v5-omni-nano(纯文本基础模型 + 4 个 LoRA 适配器) | 266M 参数 |
| 图像/视频支持(SigLIP2 Base 编码器提取自 Qwen 3.5-0.8B) | 354M 个参数 |
| 音频支持(Whisper-large-v3 编码器提取自 Qwen2.5-Omni-7B) | 916M 参数 |
| 亦或是两种情况都有 | 1.004B 个参数 |
| LoRA适配器(每个) | 7M |
* 请参见下文的 使用 jina-embeddings-v5-omni 部分,了解非文本媒体如何进行切片化的更多信息。
特定任务训练
jina-embeddings-v5-omni 系列支持与 jina-embeddings-v5-text 相同的任务专用 LoRA 适配器:
| 任务 | 示例用法 |
|---|---|
| 检索 | 信息检索既可以独立使用,也可以结合其他检索和候选评估技术共同使用。借助 v5-omni 模型,您只需通过一个索引、一次查询,即可同时检索音频、视频和图像。 |
| 聚类 | 跨所有媒体的主题发现与自动主题组织。 |
| 分类 | 分类、情感分析和相关任务。 |
| 语义相似度 | 跨媒体数据去重、推荐系统、相关媒体、查找与语音匹配的文本、识别翻译以及类似任务。 |
输出嵌入取决于选定的任务类别。例如,您不应该将检索导向的嵌入用于聚类任务,也不应该将语义相似度的嵌入用于分类任务。
多媒体、多模态、多语言、多功能
为了展示 jina-embeddings-v5-omni 的功能,我们以两部小说的著名开篇为例,并测量它们的语义相似度:
《双城记》(查尔·狄更斯)
《傲慢与偏见》(简·奥斯汀)
使用 jina-embeddings-v5-omni-small及其语义相似度适配器,这些文本的相似度为 0.5329。
如果不进行对比,这个数值就没有太大意义。因此,让我们使用相同的模型和适配器,将这两段文本与它们的法语翻译版本进行对比:
跨语言文本的语义相似度分数
| 《双城记》(英语) | 傲慢与偏见(英语) | |
|---|---|---|
| 《双城记》(法语)(《Paris et Londres en 1783》,翻译:H. Loreau) | 0.9095 | 0.5074 |
| 《傲慢与偏见》(法语)(《Orgueil et Préjugés》,翻译:Leconte 和 Pressoir) | 0.4826 | 0.8784 |
这两段文本与其对应的翻译版本之间表现出了极高的相似度,远高于它们与同语言或其他语言下的不同文本之间的相似度。这反映了 jina-embeddings-v5-text-small 极其出色的多语言语义嵌入性能,而这一性能已被原封不动地整合进了 jina-embeddings-v5-omni-small 中。
向 jina-embeddings-v5-omni 增加多媒体支持,意味着我们可以将这一实验扩展到完全不同类型的数据上。例如,我们从旧印刷版本中获取了两本小说的第一页扫描图:

图 2:《双城记》,19 世纪无日期版本;《傲慢与偏见》,1903 年麦克米伦版。
让我们再次使用语义相似度适配器,将文本与扫描件进行比较:
文本和图像之间的语义相似度评分
| 双城记》(扫描版) | 《傲慢与偏见》(扫描版) | |
|---|---|---|
| 《双城记》(文本) | 0.7336 | 0.4891 |
| 《傲慢与偏见》(文本) | 0.4804 | 0.7213 |
您会发现,语义相似度分值明显更倾向于那些与图像内容相匹配的文本。
我们还可以将文本与引用这些文本的社交媒体帖子和模因的截图进行比较,并使用相同的设置:


图 3:Elon Musk 引用《双城记》的推文,以及引用《傲慢与偏见》著名开篇的表情包。
文本和图像之间的语义相似度评分
| 双城记 | 傲慢与偏见 | |
|---|---|---|
| 马斯克推文(图片) | 0.7156 | 0.4912 |
| Keep Calm 梗图(图片) | 0.4555 | 0.6244 |
我们也可以对语音执行相同的操作。我们获得了两种文本的英语和法语朗读录音:
- 《双城记》(Librivox 英文音频)。
- 《双城记》(由 OmniVoice AI 生成的法语音频)。
- 《傲慢与偏见》(Librivox 英文音频)。
- 《傲慢与偏见》(由 OmniVoice AI 生成的法语音频)。
跨语言的文本与音频之间的语义相似度分值
| 双城记(英语音频) | 双城记 (法语有声) | 傲慢与偏见(英语音频) | 傲慢与偏见(法语配音) | |
|---|---|---|---|---|
| 《双城记》(英文文本) | 0.3816 | 0.3106 | 0.1607 | 0.1774 |
| 《双城记》(法语文本) | 0.3528 | 0.3253 | 0.1598 | 0.1721 |
| 《傲慢与偏见》(英语文本) | 0.1910 | 0.1682 | 0.3511 | 0.3398 |
| 《傲慢与偏见》(法语文本) | 0.1667 | 0.1474 | 0.3018 | 0.3702 |
这种多语言和多媒体能力也延伸到信息检索。
jina-embeddings-v5-omni 模型的检索适配器实现了非对称检索。这意味着它们嵌入查询的方式与嵌入检索目标文档的方式不同,因此跨模式查询总是具有“方向性”的,即查询在一种媒体中,文档在另一种媒体中,这导致如果您将两者调换(即反向查询),得到的分值也会有所不同。
下表显示了《双城记》和《傲慢与偏见》的文本、音频和页面扫描图像的检索得分,其中《双城记》的文本(英文)被编码为查询:
(文本搜文本)
| 文档 | 检索得分 |
|---|---|
| 《双城记》(法语文本节选) | 0.7597 |
| 《傲慢与偏见》(英文文本节选) | 0.1482 |
| 《傲慢与偏见》(法语文本节选) | 0.0523 |
文本搜图像
| 文档 | 检索得分 |
|---|---|
| 《双城记》(英文页面扫描件) | 0.5517 |
| 《双城记》(法文版扫描) | 0.3576 |
| 《傲慢与偏见》(英文版扫描图) | 0.1917 |
文本到音频
| 文档 | 检索得分 |
|---|---|
| 双城记(英语音频) | 0.3277 |
| 双城记 (法语有声) | 0.1980 |
| 傲慢与偏见(英语音频) | 0.1419 |
| 傲慢与偏见(法语配音) | 0.1759 |
用户还可以反向运行查询,进行音频搜文本和图像搜文本的检索。
以下是使用《双城记》的英语音频作为查询以及各种文本作为文档的分数:
图片搜文本
| 文档 | 检索得分 |
|---|---|
| 《双城记》(英文文本节选) | 0.3352 |
| 《双城记》(法语文本节选) | 0.2650 |
| 《傲慢与偏见》(英文文本节选) | 0.1626 |
| 《傲慢与偏见》(法语文本节选) | 0.1385 |
使用《双城记》(英文)第一页扫描页作为查询得出的分数:
音频转文本
| 文档 | 检索得分 |
|---|---|
| 《双城记》(英文文本节选) | 0.5304 |
| 《双城记》(法语文本节选) | 0.4845 |
| 《傲慢与偏见》(英文文本节选) | 0.1467 |
| 《傲慢与偏见》(法语文本节选) | 0.0761 |

视频搜索
jina-embeddings-v5-omni的视频索引与搜索功能为 Elasticsearch 数据库带来了新的能力,但它也受到许多与处理文本时相同的限制/警告约束。为一部长篇电影生成单一的嵌入就像为一部长篇小说生成单一的嵌入一样:详细的信息会被淹没,导致生成的嵌入可能会与许多风马牛不相及的查询产生虚假匹配。
如果您对《指环王》的全文(约 50 万字)进行嵌入,无论您搜什么,它可能都会显示“高度匹配”。同样,如果您为一部两小时的好莱坞电影编制索引,您会得到很多虚假的匹配并丢失所有细节。因此 jina-embeddings-v5-omni 是处理短视频剪辑的理想选择。
在这个示例中,我们下载了 1961 年电影《蒂凡尼的早餐》的预告片。这段预告片时长仅为 158 秒,且属于公共领域。您可以在互联网档案馆上观看这段预告片。

图 4:《蒂凡尼的早餐》剧场版海报。
我们使用 PySceneDetect 将预告片分割成 28 个独立场景,长度从 1.877 秒(45 帧)到 18.393 秒(441 帧)不等。场景检测虽然不完美,但它提供了一种足够的机制,可以将视频分割成易于检索的小片段。然后我们使用 jina-embeddings-v5-omni-small 为 28 个片段中的每个片段生成了文档嵌入,以便测试文本查询在寻找视频中特定元素的有效性。
例如,查询 “cat” 会返回以下片段作为前三个结果。包含猫的那一个场景位于顶部,得分为 0.1634:

次高匹配的片段得分为 0.1237,要低得多:

您还可以查询动作。如果使用字符串“kiss”进行查询,前四个匹配结果都包含亲吻动作:

观看片段三。 其得分为0.2864。



分数:分别对应第二匹配项(0.2494)、第三匹配项(0.2099)和第四匹配项(0.2068)
而且您可以搜索视频中显示的文本,比如“Buddy Ebsen”,它只出现一次。jina-embeddings-v5-omni-small 能够轻松将其识别为最佳匹配项,得分为 0.3885,显著高于次佳匹配项:

可视化文档检索
Jina AI 多模态嵌入模型在视觉文档处理方面表现优异,在多语言视觉文档处理方面处于最先进水平。这意味着要处理包含文本、图形和结构化信息的图像数据。重要数据通常以印刷扫描件、PDF文件、图表、技术图纸、截图、图片、信息图表等形式存在。这类图像通常是机械合成或计算机生成的。它们通常无法在不损失含义的情况下还原为文本,且不适合那些专为自然场景摄影设计的计算机视觉模型。
jina-embeddings-v5-omni的嵌入包括图像中的事物、印在图像上的文字以及两者之间的关系。视觉文档检索使得对包含物体和相关文本的丰富图像进行索引成为可能,并且可以跨语言进行索引。
我们使用来自不同电子商务网站的四张产品图片举例:

现在,让我们看看 jina-embeddings-v5-omni-small 对这四张图片在“拉面”这个查询词上的得分表现如何:
| Campbell's Chunky 鸡肉面(加拿大包装) | Kraft Dinner (加拿大包装) | Maruchan 味噌口味新鲜拉面(日本包装) | Birkel 意面(德国包装) |
|---|---|---|---|
| 0.0872 | 0.0711 | 0.1123 | 0.0886 |
它很快就找到了日本产品的匹配项。
现在,让我们尝试查询“マカロニチーズ”(日语的通心粉和奶酪):
| Campbell's Chunky 鸡肉面(加拿大包装) | Kraft Dinner (加拿大包装) | Maruchan 味噌口味新鲜拉面(日本包装) | Birkel 意面(德国包装) |
|---|---|---|---|
| 0.2207 | 0.3487 | 0.2760 | 0.2674 |
它能像英语查询一样轻松地找到正确的匹配。
jina-embeddings-v5-omni 也擅长解读信息丰富的图像,例如图表。如需查看实际效果,请参阅以下两个柱状图:


两张图表,左边的图表 1 关于全球疾病负担,右边的图表 2 关于犬种寿命。
让我们看看使用 jina-embeddings-v5-omni-small 进行检索时,这两张图表与两个特定的文本问题(每个问题仅与其中一张图表相关)的匹配程度如何:
| 文本问题 | 图表 1 | 图表2 |
|---|---|---|
| “老年人常见的健康问题有哪些?” | 0.2787 | 0.1099 |
| “狗能活多久?” | 0.1350 | 0.3564 |
您还可以反向搜索,使用图像作为查询来查找文本。下表显示了从主题相关的科学论文摘要中提取的目标文档及其检索分数,使用图表图像作为查询:
| 文本 1 | 文本2 | |
|---|---|---|
| 长期以来,生活在极端贫困中的人群健康一直是全球发展工作的重点,在可持续发展目标时代,这仍然是一个优先事项。然而,近二十年来,尚未有人系统地尝试量化这一特定人群中疾病负担的程度和原因。我们按病因估算了全球最贫困的十亿人口的患病率,并将其与高收入人群的相应患病率进行比较。 | 伴侣犬是表型多样性最为丰富的物种之一。品种间的差异不仅体现在形态和行为方面,还体现在寿命上。尽管如此,很少有研究致力于评估不同品种之间的寿命期望变化或评估长寿的系统发育特征的潜力。 | |
| 图表 1 | 0.2377 | 0.1357 |
| 图表2 | 0.0673 | 0.3576 |
功能
可截断嵌入
我们利用 Matryoshka 表征学习技术训练了支撑 jina-embeddings-v5-omni 的骨干 jina-embeddings-v5-text 模型,因此您可以从这些模型中截断文本和多媒体嵌入。
默认情况下,jina-embeddings-v5-omni-small 生成 1024 维的嵌入,以 16 位精度存储时,每个嵌入占用 2KB 的存储空间。jina-embeddings-v5-omni-nano 的嵌入有 768 个维度,占用大约 1.5KB。您可以将这些嵌入的大小减少到 32 维(64 字节),在一定程度上牺牲了准确性,但大大提高了处理速度并降低了资源使用成本。通常情况下,将嵌入大小减半会使准确率下降约 2%,降至 128 维以下时,准确率下降速度会更快。
截断嵌入允许用户根据自身的用例,在准确性、速度和成本之间做出最佳权衡。
量化
jina-embeddings-v5-omni 系列还继承了其 jina-embeddings-v5-text骨干在量化处理下的强大性能。通过存储精度较低的数值,这能进一步提升速度,并降低计算和存储成本。我们已经训练他们使用 Elasticsearch 的 Better Binary Quantization (BBQ) ,以提供与未量化嵌入几乎相同的性能。在大规模文本嵌入基准测试 (MTEB) 检索基准套件中,二值化与完整的 16 位值相比,性能降低不到 3%,却节省了 93% 的空间,并显著提升了处理和检索速度。
跨语言性能
jina-embeddings-v5-text的广泛多语言训练延续到了 jina-embeddings-v5-omni 中,其中 jina-embeddings-v5-text-small 的预训练涵盖近 100 种语言,而 jina-embeddings-v5-text-nano 则涵盖了 15 种主要全球语言。对于音频媒体,Whisper-large-v3 模型在其训练中大约涵盖了 100 种语言,而集成在 jina-embeddings-v5-omni-small 和 -nano 中经过 Qwen 修改后的 SigLip2 视觉模型则使用来自 201 种不同语言和方言的数据进行训练。
基准性能
文本
jina-embeddings-v5-omni 模型在仅用于文本时与 jina-embeddings-v5-text 模型相同。在语义文本嵌入领域,它们在各自的参数规模类别中,均是 MMTEB 基准测试套件中的佼佼者。

图 5:与竞争模型相比,jina-embeddings-v5-omni 在文本基准测试中的大小和性能。所引用的大小未加载其他媒体的扩展。
视觉语义相似度
在标准的视觉语义相似度基准测试中,jina-embeddings-v5-omni 的得分在同等规模的模型中名列前茅。jina-embeddings-v5-omni 模型在同等规模的公开开放权重模型中表现出迄今为止最佳的性能。jina-embeddings-v5-omni-small 在视觉语义相似度任务中仅被三倍其大小的模型击败,而 jina-embeddings-v5-omni-nano 仅被 jina-embeddings-v5-omni-small 和比它大 10–25 倍的模型击败。

图 6:jina-embeddings-v5-omni-small 、jina-embeddings-v5-omni-nano 和可比模型的视觉语义相似度基准平均得分,以及它们的大小(包括视觉扩展)。
可视化文档检索
jina-embeddings-v5-omni-small 在参数量保持在 10 亿以下的同时,它的性能足以媲美参数量为 30 亿和 70 亿的模型。jina-embeddings-v5-omni-nano 在同类规模中同样表现出众,其性能甚至超越了规模比它大 10 到 60 倍的模型。

图 7:ViDoRe 视觉文档检索在六个基准测试中的平均得分:DocVQA、InfoVQA、ShiftProj、SynAI、Tabfquad 和 TatDQA。
音频检索
在标准 MAEB(大规模音频嵌入基准测)音频检索基准测试中,jina-embeddings-v5-omni-small 和 jina-embeddings-v5-omni-nano 均名列前茅。只有非常大的模型——比 jina-embeddings-v5-omni-small 大三倍以上——才能超过它的得分。

图 8:MAEB 音频检索基准测试中各种模型的平均分数。
虽然LAION的 larger_clap_general 模型在参数更少的情况下比jina-embeddings-v5-omni-nano的分数有所提升,但它是一个纯音频模型,没有v5-omni套件中额外的多模态功能。
视频
在视频方面,jina-embeddings-v5-omni-small 擅长找到视频中与文本查询匹配的位置。Charades-STA 和 MomentSeeker 测试是该任务的标准基准测试。从下方图表可以看出,尽管 jina-embeddings-v5-omni-small 的尺寸要小得多, 但它在同类开放权重模型中得分最高。

图 9:不同模型的 Charades-STA 分数及大小。

图 10:不同模型的 MomentSeeker 分数及大小。
我们还将 jina-embeddings-v5-omni-small 与 ByteDance 的 Seed 1.6 进行比较,后者是一个参数规模未披露的封闭权重模型。在 Charades-STA 基准测试中,我们的模型大幅领先于 Seed 1.6;在 MomentSeeker 上我们的模型则几乎与其持平。
| 模型 | Charades-STA 得分 | MomentSeeker 分数 |
|---|---|---|
| seed-1.6-embedding | 29.30 | 59.30 |
| jina-embeddings-v5-omni-small | 55.57 | 58.93 |
优势与局限性
jina-embeddings-v5-omni 模型通过多种方式扩展用户对数字化信息的索引、搜索和分析能力,特别是:
- 从文本查询中进行多语言语音检索。
- PDF、扫描和可视化文档搜索。
- 视频时序定位,即从视频中识别出与自然语言文本描述相匹配的部分。
- 音频类型分类,包括音乐类型。
- 基于场景信息与目标识别的图像分类。
在其他一些领域的表现则较为有限。也许可以使用 jina-embeddings-v5-omni 来完成这些任务,但我们尚未进行相关训练,结果可能不佳。
我们正在积极改进这些领域的技术:
- 根据自然语言描述查找特定视频。
- 图像到图像的语义相似度与检索。
- 语音中的意图分类,例如识别语音指令。
- 处理混合媒体输入,即图像和随附的文本,或音频、图像和文本的组合。
使用
此模型套件支持通过三个入口点输入:文本、音频以及图像和视频。jina-embeddings-v5-omni 运行于一个框架内,该框架可转换各种标准格式并进行其他预处理。
我们使用初始 SigLip2 版本中提供的相同 NaFlex 方法来处理图像:如果输入图像小于 262,144 像素(相当于 512x512 分辨率),则会将其放大,直到超过这个最小值;如果图像大于 3,072,000 像素,则会将其缩小,直到小于这个最大值。转换过程确保图像的高度和宽度均为 14 像素的倍数,并尽可能减少宽高比变形以实现这一目标。结果被分割成 28x28 像素的块,因此总块数是覆盖图像所需的 28x28 方块的数量。每一块在推理时被视为单个词元,并且每个图像输入都由特殊的开始和结束词元来划分单个图像。

Omni 警告
jina-embeddings-v5-omni 模型修改视频分辨率的方式与修改图像的方式相同(见上文),我们从视频中最多提取 32 个帧。如果视频有超过 32 帧(这很可能,因为标准格式通常至少每秒 24 帧),我们会均匀分布我们提取的帧。然后,视频预处理器每两帧生成一组词元,这组词元的数量等同于覆盖视频画面所需的 28x28 像素方块的总数。

图11:jina-embeddings-v5-omni 从视频中提取 32 个等距帧。如果您的视频很长,这意味着会丢失很多内容。
有关视频预处理的更多详细信息,请参阅 Siglip 2 技术文档。
音频词元化遵循 Qwen-2.5-Omni 内置的方法:声音文件被切割成 30 秒的段落;如果长于 30 秒,则重新采样到 16kHz,转换为 128 通道的梅尔频谱图。每 40 毫秒被视为一个词元,因此每 30 秒的片段被处理为 750 个词元,每 40 毫秒音频一个词元,此外还带有专门的开始和结束标记,用以划分单个样本。
有关音频预处理的更多详细信息,请参阅 Qwen-2.5-Omni 技术报告。
可用性
开始使用
如要在 EIS 上使用 jina-embeddings-v5-omni 模型,在创建索引时请将 type 字段设置为 semantic_text (即使媒体并非全部是文本),在 inference_id 字段中指定 jina-embeddings-v5-omni-small 或 jina-embeddings-v5-omni-nano 。EIS 会自动选择 LoRA 适配器进行索引和检索。
对于文本,该流程与 jina-embeddings-v5-text 相同:
如要输入其他媒体,请先将其转换为 Base64 字符串,然后将该字符串放在通常用于文本的同一字段中:
对多媒体查询执行相同操作:
如需通过 Jina API 访问,请访问 Jina AI 网站。
如要使用分类器、聚类或语义相似度适配器,或将嵌入截断为自定义大小,请为您的项目创建自定义推理终端,并按照那里的说明连接到 Jina AI 模型并向它们传递参数。
如要通过 jina-embeddings-v5-omni 使用 BBQ,请按照 BBQ 索引的说明操作。
更多信息
如需有关 jina-embeddings-v5-omni 的更多信息,请参阅模型技术报告及 Jina AI 网站上的页面。Hugging Face 上的 jina-embeddings-v5-omni 系列页面还包含下载和本地运行这些模型的技术信息和说明。jina-embeddings-v5-omni 模型可以在 CC-BY-NC-4.0 许可下下载,因此您可以自由试用,但如需商业用途,请联系 Elastic 销售人员。




