jina-embeddings-v5-omni 适用于文本、图像、视频和音频

jina-embeddings-v5-omni 将文本、图像、视频和音频整合到单个 Elasticsearch 索引中。v5-omni 套件扩展了同类最佳的jina-embeddings-v5-text 模型，通过创新的架构增加了视觉和音频编码，使文本主干完全相同，在一个非常紧凑的嵌入模型中提供了前沿的性能。

您现在可以为文本、图像、视频和录音创建高性能语义嵌入，涵盖近 100 种语言，并将它们用于分类、聚类、语义相似度测量和检索索引。如果您的数据以 PDF、录音、视频和文本的形式存在，您不再需要为每种格式单独建立数据管道。

jina-embeddings-v5-omni 系列是目前市场上最紧凑的嵌入模型，支持图片、语音、文本和视频。它提供：

jina-embeddings-v5-text的前沿级文本嵌入，用于检索、分析和 AI 代理应用。
用于视觉语义相似性、视觉理解和图像检索的同类最佳嵌入 。在所有参数规模为 10 亿（10⁹）的模型中，jina-embeddings-v5-omni-small 在图像基准测试中表现最佳，且优于我们之前的 jina-clip-v2 。只有少数几个具有 3 到 30 倍参数的模型可以击败它。
用于多语种视觉理解和检索的最先进嵌入技术，可击败规模比它大 20 倍的模型。
同类最佳的音频嵌入，在标准基准测试中，只有参数量是其两倍或更多的模型才能表现得更好。
支持视频，特别擅长定位视频片段中的物体和事件。

这项技术可应用于信息检索、文档处理和数据分析等各个领域。jina-embeddings-v5-omni 可打破存储在不同媒体孤岛中的信息壁垒，使其能够被 AI 智能体进行检索、分析和利用。在您的数据生态系统中，音频和视频、PDF、打印页面的扫描件以及信息图表中的信息，都与数字化文本处于同等地位。

和 jina-embeddings-v5-text 一样，这些模型有两种尺寸：small 和 nano。这两个模型都在其对应的纯文本版本基础上，通过增加额外的模块，实现了对音频和视觉输入的支持用户可以在加载时选择模块。此外，针对语义相似度、分类、聚类和信息检索等特定任务的扩展功能通过紧凑的低秩适配器 (LoRAs) 实现；这些适配器均已预载，用户可以在推理时直接选择使用。

两个模型的尺寸都非常精简。jina-embeddings-v5-omni-small 可以在配备常规 GPU 的服务器上运行，而 jina-embeddings-v5-omni-nano 的体积很小，可以在通用硬件上运行。这意味着可以节省大量的计算成本，并使得获得许可的本地安装及边缘处理成为可能，从而降低延迟并增强对自身数据的控制。

v5-omni 套件采用创新的模型设计和机器技术，能够通过已有的预训练模型来组合成新的嵌入模型，无需对它们进行重新训练。我们使用来自预训练且经过语言对齐的嵌入模型的编码器作为音频和视频媒体的输入预处理器，用于我们现有的 jina-embeddings-v5-text 模型套件。生成的模型能够为图像和录音生成嵌入，这些嵌入在语义上与其为文本生成的嵌入是兼容的。

v5-omni 模型生成的文本嵌入与 jina-embeddings-v5-text 相同（即，jina-embeddings-v5-omni-small 与 jina-embeddings-v5-text-small；以及 jina-embeddings-v5-omni-nano 与 jina-embeddings-v5-text-nano），因此您可以将现有的文本检索存储库扩展到多媒体应用程序，而无需重建索引。

集成的编码器全部源自开源权重模型。对于图像和视频，我们使用来自 Qwen3.5 模型的编码器：

对于jina-embeddings-v5-omni-nano ，我们使用来自 Qwen3.5-0.8B 中经过微调的 SigLIP2 Base 编码器。
对于 jina-embeddings-v5-omni-small ，我们使用来自 Qwen3.5-2B 中经过微调的 SigLIP2 So400m 编码器。
为了实现音频支持，我们为 small 和 nano 版添加了从 Qwen2.5-Omni-7B 中提取的 Whisper-large-v3 编码器。

我们通过训练跨模态投影器，将这些媒体专用的编码器与文本处理主干网络连接了起来。这些投影器将其原生输出转换为与 jina-embeddings-v5-text 兼容的输入嵌入。jina-embeddings-v5-omni 模型中唯一新训练的部分是这些投影器中的权重。

`jina-embeddings-v5-omni` 模型的示意图。只有跨媒体投影器经过了新的训练。

这种架构意味着我们只需要为四个 LoRA 适配器中的每一个训练跨模态投影器，其参数量在 jina-embeddings-v5-omni-small 模型中约为 550 万，在 jina-embeddings-v5-omni-nano 模型中则低于 350 万。这种方法可最大限度地减少连接不同嵌入模型所需的额外训练，通过利用各模型原有的专业化训练成果，打造出了一套极其精简、高性能且模块化的嵌入套件。

选定的模型属性

输入/输出

型号名称	输入上下文窗口大小	嵌入大小
jina-embeddings-v5-omni-small	32,768 个词元*	1024 维（最小值：32）
jina-embeddings-v5-omni-nano	8,192 个标记*	768 个维度（最小值：32）

* 请参见下文的 使用 jina-embeddings-v5-omni 部分，了解非文本媒体如何进行切片化的更多信息。

大小

型号名称	总大小
jina-embeddings-v5-omni-small（纯文本基础模型 + 4 个 LoRA 适配器）	700M 参数
图像/视频支持（SigLIP2 So400m 编码器提取自 Qwen3.5-2B）	1.006B 参数
音频支持（Whisper-large-v3 编码器提取自 Qwen2.5-Omni-7B）	1.354B 参数
亦或是两种情况都有	1.660B 个参数
LoRA适配器（每个）	20M
jina-embeddings-v5-omni-nano（纯文本基础模型 + 4 个 LoRA 适配器）	266M 参数
图像/视频支持（SigLIP2 Base 编码器提取自 Qwen 3.5-0.8B）	354M 个参数
音频支持（Whisper-large-v3 编码器提取自 Qwen2.5-Omni-7B）	916M 参数
亦或是两种情况都有	1.004B 个参数
LoRA适配器（每个）	7M

* 请参见下文的 使用 jina-embeddings-v5-omni 部分，了解非文本媒体如何进行切片化的更多信息。

特定任务训练

jina-embeddings-v5-omni 系列支持与 jina-embeddings-v5-text 相同的任务专用 LoRA 适配器：

任务	示例用法
检索	信息检索既可以独立使用，也可以结合其他检索和候选评估技术共同使用。借助 v5-omni 模型，您只需通过一个索引、一次查询，即可同时检索音频、视频和图像。
聚类	跨所有媒体的主题发现与自动主题组织。
分类	分类、情感分析和相关任务。
语义相似度	跨媒体数据去重、推荐系统、相关媒体、查找与语音匹配的文本、识别翻译以及类似任务。

输出嵌入取决于选定的任务类别。例如，您不应该将检索导向的嵌入用于聚类任务，也不应该将语义相似度的嵌入用于分类任务。

多媒体、多模态、多语言、多功能

为了展示 jina-embeddings-v5-omni 的功能，我们以两部小说的著名开篇为例，并测量它们的语义相似度：

《双城记》（查尔·狄更斯）

《傲慢与偏见》（简·奥斯汀）

使用 jina-embeddings-v5-omni-small及其语义相似度适配器，这些文本的相似度为 0.5329。

如果不进行对比，这个数值就没有太大意义。因此，让我们使用相同的模型和适配器，将这两段文本与它们的法语翻译版本进行对比：

跨语言文本的语义相似度分数

	《双城记》（英语）	傲慢与偏见（英语）
《双城记》（法语）（《Paris et Londres en 1783》，翻译：H. Loreau）	0.9095	0.5074
《傲慢与偏见》（法语）（《Orgueil et Préjugés》，翻译：Leconte 和 Pressoir）	0.4826	0.8784

这两段文本与其对应的翻译版本之间表现出了极高的相似度，远高于它们与同语言或其他语言下的不同文本之间的相似度。这反映了 jina-embeddings-v5-text-small 极其出色的多语言语义嵌入性能，而这一性能已被原封不动地整合进了 jina-embeddings-v5-omni-small 中。

向 jina-embeddings-v5-omni 增加多媒体支持，意味着我们可以将这一实验扩展到完全不同类型的数据上。例如，我们从旧印刷版本中获取了两本小说的第一页扫描图：

两页古老的书页展示了《双城记》和《傲慢与偏见》的开篇段落，左页显示了一本未注明日期的19世纪版《双城记》第一章的开头，右页显示了1903年麦克米伦版《傲慢与偏见》第一章的开头。

图 2：《双城记》，19 世纪无日期版本；《傲慢与偏见》，1903 年麦克米伦版。

让我们再次使用语义相似度适配器，将文本与扫描件进行比较：

文本和图像之间的语义相似度评分

	双城记》（扫描版）	《傲慢与偏见》（扫描版）
《双城记》（文本）	0.7336	0.4891
《傲慢与偏见》（文本）	0.4804	0.7213

您会发现，语义相似度分值明显更倾向于那些与图像内容相匹配的文本。

我们还可以将文本与引用这些文本的社交媒体帖子和模因的截图进行比较，并使用相同的设置：

一条 Elon Musk 发布的推文。在该推文中，Musk 分享了《双城记》中的几句名言并附带了一条评论，下方还引用了另一条推文，讨论了历史的周期性与线性元素。

一张亮蓝色的图表，上面显示着米色文字：“别保持冷静！他是一个家财万贯的单身汉！”。图表顶部有一张小照片，显示一个穿着历史服饰、戴着白色软帽和蕾丝服装的人，正张着嘴巴。

图 3：Elon Musk 引用《双城记》的推文，以及引用《傲慢与偏见》著名开篇的表情包。

文本和图像之间的语义相似度评分

	双城记	傲慢与偏见
马斯克推文（图片）	0.7156	0.4912
Keep Calm 梗图（图片）	0.4555	0.6244

我们也可以对语音执行相同的操作。我们获得了两种文本的英语和法语朗读录音：

跨语言的文本与音频之间的语义相似度分值

	双城记（英语音频）	双城记 (法语有声)	傲慢与偏见（英语音频）	傲慢与偏见（法语配音）
《双城记》（英文文本）	0.3816	0.3106	0.1607	0.1774
《双城记》（法语文本）	0.3528	0.3253	0.1598	0.1721
《傲慢与偏见》（英语文本）	0.1910	0.1682	0.3511	0.3398
《傲慢与偏见》（法语文本）	0.1667	0.1474	0.3018	0.3702

这种多语言和多媒体能力也延伸到信息检索。

jina-embeddings-v5-omni 模型的检索适配器实现了非对称检索。这意味着它们嵌入查询的方式与嵌入检索目标文档的方式不同，因此跨模式查询总是具有“方向性”的，即查询在一种媒体中，文档在另一种媒体中，这导致如果您将两者调换（即反向查询），得到的分值也会有所不同。

下表显示了《双城记》和《傲慢与偏见》的文本、音频和页面扫描图像的检索得分，其中《双城记》的文本（英文）被编码为查询：

（文本搜文本）

文档	检索得分
《双城记》（法语文本节选）	0.7597
《傲慢与偏见》（英文文本节选）	0.1482
《傲慢与偏见》（法语文本节选）	0.0523

文本搜图像

文档	检索得分
《双城记》（英文页面扫描件）	0.5517
《双城记》（法文版扫描）	0.3576
《傲慢与偏见》（英文版扫描图）	0.1917

文本到音频

文档	检索得分
双城记（英语音频）	0.3277
双城记 (法语有声)	0.1980
傲慢与偏见（英语音频）	0.1419
傲慢与偏见（法语配音）	0.1759

用户还可以反向运行查询，进行音频搜文本和图像搜文本的检索。

以下是使用《双城记》的英语音频作为查询以及各种文本作为文档的分数：

图片搜文本

文档	检索得分
《双城记》（英文文本节选）	0.3352
《双城记》（法语文本节选）	0.2650
《傲慢与偏见》（英文文本节选）	0.1626
《傲慢与偏见》（法语文本节选）	0.1385

使用《双城记》（英文）第一页扫描页作为查询得出的分数：

音频转文本

文档	检索得分
《双城记》（英文文本节选）	0.5304
《双城记》（法语文本节选）	0.4845
《傲慢与偏见》（英文文本节选）	0.1467
《傲慢与偏见》（法语文本节选）	0.0761

一个浅蓝色背景的矩形通知框显示黄色警告三角形图标，旁边的文本解释：jina-embeddings-v5-omni 的训练重点是“以文本搜音频”、“以文本搜视频”和“以文本搜图片”，因此使用“非文本”作为查询词时，效果可能会稍逊一筹。

视频搜索

jina-embeddings-v5-omni的视频索引与搜索功能为 Elasticsearch 数据库带来了新的能力，但它也受到许多与处理文本时相同的限制/警告约束。为一部长篇电影生成单一的嵌入就像为一部长篇小说生成单一的嵌入一样：详细的信息会被淹没，导致生成的嵌入可能会与许多风马牛不相及的查询产生虚假匹配。

如果您对《指环王》的全文（约 50 万字）进行嵌入，无论您搜什么，它可能都会显示“高度匹配”。同样，如果您为一部两小时的好莱坞电影编制索引，您会得到很多虚假的匹配并丢失所有细节。因此 jina-embeddings-v5-omni 是处理短视频剪辑的理想选择。

在这个示例中，我们下载了 1961 年电影《蒂凡尼的早餐》的预告片。这段预告片时长仅为 158 秒，且属于公共领域。您可以在互联网档案馆上观看这段预告片。

一张复古的《蒂凡尼的早餐》电影海报印着奥黛丽·赫本的全身插图，她身穿黑色长裙，戴着黑色手套和珍珠项链，手里拿着烟嘴，肩上趴着一只猫。一幅较小的背景插图显示了一对情侣在城市景观附近相拥，海报上附有彩色边框以及演员和制作人员名单。

图 4：《蒂凡尼的早餐》剧场版海报。

我们使用 PySceneDetect 将预告片分割成 28 个独立场景，长度从 1.877 秒（45 帧）到 18.393 秒（441 帧）不等。场景检测虽然不完美，但它提供了一种足够的机制，可以将视频分割成易于检索的小片段。然后我们使用 jina-embeddings-v5-omni-small 为 28 个片段中的每个片段生成了文档嵌入，以便测试文本查询在寻找视频中特定元素的有效性。

例如，查询 “cat” 会返回以下片段作为前三个结果。包含猫的那一个场景位于顶部，得分为 0.1634：

视频缩略图显示一个人跪在厨房的地板上向打开的冰箱伸出手，一只猫站在附近（得分 0.1634）。

观看片段一。

次高匹配的片段得分为 0.1237，要低得多：

视频缩略图显示一个人手持彩色面具靠近脸部，图像上覆盖了 “GEORGE PEPPARD” 的名字（得分 0.1237）。

观看片段二。

您还可以查询动作。如果使用字符串“kiss”进行查询，前四个匹配结果都包含亲吻动作：

视频缩略图显示了三个人在室内，其中一个人站在左边，背对着摄像机，右边的两个人似乎在窗帘和门口附近拥抱 (得分 0.2864)。

观看片段三。其得分为0.2864。

视频缩略图显示两个人靠得很近，一个穿着深色西装、另一个戴着类似猫的面具（得分 0.2494）。

视频缩略图显示了几个人紧密聚集在热闹的室内环境中，包括一个人拿着吉他，而其他人似乎在说话或笑（得分 0.2099）。

视频缩略图显示两个穿着风衣的人在户外的雨中拥抱，背景中可以看到停放的汽车和建筑物（得分 0.1189）。

分数：分别对应第二匹配项（0.2494）、第三匹配项（0.2099）和第四匹配项（0.2068）

而且您可以搜索视频中显示的文本，比如“Buddy Ebsen”，它只出现一次。jina-embeddings-v5-omni-small 能够轻松将其识别为最佳匹配项，得分为 0.3885，显著高于次佳匹配项：

视频缩略图显示一名穿西装的男子站在带有白色栏杆和深色扶手的楼梯旁，叠加文字“Buddy Ebsen”（得分 0.3885）。

巴迪·埃布森剪辑。

可视化文档检索

Jina AI 多模态嵌入模型在视觉文档处理方面表现优异，在多语言视觉文档处理方面处于最先进水平。这意味着要处理包含文本、图形和结构化信息的图像数据。重要数据通常以印刷扫描件、PDF文件、图表、技术图纸、截图、图片、信息图表等形式存在。这类图像通常是机械合成或计算机生成的。它们通常无法在不损失含义的情况下还原为文本，且不适合那些专为自然场景摄影设计的计算机视觉模型。

jina-embeddings-v5-omni的嵌入包括图像中的事物、印在图像上的文字以及两者之间的关系。视觉文档检索使得对包含物体和相关文本的丰富图像进行索引成为可能，并且可以跨语言进行索引。

我们使用来自不同电子商务网站的四张产品图片举例：

现在，让我们看看 jina-embeddings-v5-omni-small 对这四张图片在“拉面”这个查询词上的得分表现如何：

Campbell's Chunky 鸡肉面（加拿大包装）	Kraft Dinner (加拿大包装)	Maruchan 味噌口味新鲜拉面（日本包装）	Birkel 意面（德国包装）
0.0872	0.0711	0.1123	0.0886

它很快就找到了日本产品的匹配项。

现在，让我们尝试查询“マカロニチーズ”（日语的通心粉和奶酪）：

Campbell's Chunky 鸡肉面（加拿大包装）	Kraft Dinner (加拿大包装)	Maruchan 味噌口味新鲜拉面（日本包装）	Birkel 意面（德国包装）
0.2207	0.3487	0.2760	0.2674

它能像英语查询一样轻松地找到正确的匹配。

jina-embeddings-v5-omni 也擅长解读信息丰富的图像，例如图表。如需查看实际效果，请参阅以下两个柱状图：

一张柱状图比较了 2010 年 60 岁及以上人群疾病负担的主要原因，显示了心血管疾病、癌症、慢性呼吸系统疾病、肌肉骨骼疾病、神经系统疾病、意外伤害、糖尿病、消化系统疾病、呼吸系统感染和感觉障碍的失能调整生命年（单位：百万），每个柱状图分为来自低收入和中等收入国家以及高收入国家的贡献。

一个名为“不同品种寿命”的柱状图显示了美国猎狐犬、比格犬、巴森吉犬、巴塞特猎犬、黑褐猎浣熊犬C...血猎犬、腊肠犬、英国猎狐犬和鹞犬的平均寿命（单位：年），蓝色柱状图显示约为 10–14 年。

两张图表，左边的图表 1 关于全球疾病负担，右边的图表 2 关于犬种寿命。

让我们看看使用 jina-embeddings-v5-omni-small 进行检索时，这两张图表与两个特定的文本问题（每个问题仅与其中一张图表相关）的匹配程度如何：

文本问题	图表 1	图表2
“老年人常见的健康问题有哪些？”	0.2787	0.1099
“狗能活多久？”	0.1350	0.3564

您还可以反向搜索，使用图像作为查询来查找文本。下表显示了从主题相关的科学论文摘要中提取的目标文档及其检索分数，使用图表图像作为查询：

	文本 1	文本2
	长期以来，生活在极端贫困中的人群健康一直是全球发展工作的重点，在可持续发展目标时代，这仍然是一个优先事项。然而，近二十年来，尚未有人系统地尝试量化这一特定人群中疾病负担的程度和原因。我们按病因估算了全球最贫困的十亿人口的患病率，并将其与高收入人群的相应患病率进行比较。	伴侣犬是表型多样性最为丰富的物种之一。品种间的差异不仅体现在形态和行为方面，还体现在寿命上。尽管如此，很少有研究致力于评估不同品种之间的寿命期望变化或评估长寿的系统发育特征的潜力。
图表 1	0.2377	0.1357
图表2	0.0673	0.3576

功能

可截断嵌入

我们利用 Matryoshka 表征学习技术训练了支撑 jina-embeddings-v5-omni 的骨干 jina-embeddings-v5-text 模型，因此您可以从这些模型中截断文本和多媒体嵌入。

默认情况下，jina-embeddings-v5-omni-small 生成 1024 维的嵌入，以 16 位精度存储时，每个嵌入占用 2KB 的存储空间。jina-embeddings-v5-omni-nano 的嵌入有 768 个维度，占用大约 1.5KB。您可以将这些嵌入的大小减少到 32 维（64 字节），在一定程度上牺牲了准确性，但大大提高了处理速度并降低了资源使用成本。通常情况下，将嵌入大小减半会使准确率下降约 2%，降至 128 维以下时，准确率下降速度会更快。

截断嵌入允许用户根据自身的用例，在准确性、速度和成本之间做出最佳权衡。

量化

jina-embeddings-v5-omni 系列还继承了其 jina-embeddings-v5-text骨干在量化处理下的强大性能。通过存储精度较低的数值，这能进一步提升速度，并降低计算和存储成本。我们已经训练他们使用 Elasticsearch 的 Better Binary Quantization (BBQ) ，以提供与未量化嵌入几乎相同的性能。在大规模文本嵌入基准测试 (MTEB) 检索基准套件中，二值化与完整的 16 位值相比，性能降低不到 3%，却节省了 93% 的空间，并显著提升了处理和检索速度。

跨语言性能

jina-embeddings-v5-text的广泛多语言训练延续到了 jina-embeddings-v5-omni 中，其中 jina-embeddings-v5-text-small 的预训练涵盖近 100 种语言，而 jina-embeddings-v5-text-nano 则涵盖了 15 种主要全球语言。对于音频媒体，Whisper-large-v3 模型在其训练中大约涵盖了 100 种语言，而集成在 jina-embeddings-v5-omni-small 和 -nano 中经过 Qwen 修改后的 SigLip2 视觉模型则使用来自 201 种不同语言和方言的数据进行训练。

基准性能

文本

jina-embeddings-v5-omni 模型在仅用于文本时与 jina-embeddings-v5-text 模型相同。在语义文本嵌入领域，它们在各自的参数规模类别中，均是 MMTEB 基准测试套件中的佼佼者。

柱状图和折线图比较了九种嵌入模型的 MMTEB 分数和参数大小，其中 jina-v3-omni-small 分数最高，snowflake-arctic-embed-l-v2 的参数最小。

图 5：与竞争模型相比，jina-embeddings-v5-omni 在文本基准测试中的大小和性能。所引用的大小未加载其他媒体的扩展。

视觉语义相似度

在标准的视觉语义相似度基准测试中，jina-embeddings-v5-omni 的得分在同等规模的模型中名列前茅。jina-embeddings-v5-omni 模型在同等规模的公开开放权重模型中表现出迄今为止最佳的性能。jina-embeddings-v5-omni-small 在视觉语义相似度任务中仅被三倍其大小的模型击败，而 jina-embeddings-v5-omni-nano 仅被 jina-embeddings-v5-omni-small 和比它大 10–25 倍的模型击败。

图 6：jina-embeddings-v5-omni-small 、jina-embeddings-v5-omni-nano 和可比模型的视觉语义相似度基准平均得分，以及它们的大小（包括视觉扩展）。

可视化文档检索

jina-embeddings-v5-omni-small 在参数量保持在 10 亿以下的同时，它的性能足以媲美参数量为 30 亿和 70 亿的模型。jina-embeddings-v5-omni-nano 在同类规模中同样表现出众，其性能甚至超越了规模比它大 10 到 60 倍的模型。

柱状图和折线图比较了选定的 ViDoRe 分数和多个嵌入模型的参数大小，其中 LCO-Embedding-Omni-7B 得分最高，laion/CLIP-ViT-bigG-14 拥有最大的模型大小。重点是两个 jina-embeddings 模型。

图 7：ViDoRe 视觉文档检索在六个基准测试中的平均得分：DocVQA、InfoVQA、ShiftProj、SynAI、Tabfquad 和 TatDQA。

音频检索

在标准 MAEB（大规模音频嵌入基准测）音频检索基准测试中，jina-embeddings-v5-omni-small 和 jina-embeddings-v5-omni-nano 均名列前茅。只有非常大的模型——比 jina-embeddings-v5-omni-small 大三倍以上——才能超过它的得分。

柱状图和折线图沿 X 轴比较嵌入和音频模型，左侧 Y 轴显示蓝色条形表示 MAEB 得分，右侧 Y 轴显示红色线条表示模型大小（以十亿个参数为单位）。柱状图的数值范围约为 20 到 55，线条的数值范围为 0 到 10。

图 8：MAEB 音频检索基准测试中各种模型的平均分数。

虽然LAION的 larger_clap_general 模型在参数更少的情况下比jina-embeddings-v5-omni-nano的分数有所提升，但它是一个纯音频模型，没有v5-omni套件中额外的多模态功能。

视频

在视频方面，jina-embeddings-v5-omni-small 擅长找到视频中与文本查询匹配的位置。Charades-STA 和 MomentSeeker 测试是该任务的标准基准测试。从下方图表可以看出，尽管 jina-embeddings-v5-omni-small 的尺寸要小得多，但它在同类开放权重模型中得分最高。

条形图和折线图显示了六个嵌入模型的 Charades‑STA 得分和模型大小。X 轴列出模型，左 Y 轴显示 20–60 的 Charades‑STA 分数，右 Y 轴显示 0–10 的模型大小（以十亿为单位）。蓝色条代表分数，带标记的红线代表模型大小。

图 9：不同模型的 Charades-STA 分数及大小。

条形图和折线图使用 MomentSeeker 分数和模型大小比较了六个嵌入模型。X 轴列出模型，左 Y 轴显示 MomentSeeker 分数，大约从 44 到 60，右 Y 轴显示 0 到 10 D 模型大小（单位为十亿）。蓝色条代表分数，带标记的红线代表模型大小。

图 10：不同模型的 MomentSeeker 分数及大小。

我们还将 jina-embeddings-v5-omni-small 与 ByteDance 的 Seed 1.6 进行比较，后者是一个参数规模未披露的封闭权重模型。在 Charades-STA 基准测试中，我们的模型大幅领先于 Seed 1.6；在 MomentSeeker 上我们的模型则几乎与其持平。

模型	Charades-STA 得分	MomentSeeker 分数
seed-1.6-embedding	29.30	59.30
jina-embeddings-v5-omni-small	55.57	58.93

优势与局限性

jina-embeddings-v5-omni 模型通过多种方式扩展用户对数字化信息的索引、搜索和分析能力，特别是：

从文本查询中进行多语言语音检索。
PDF、扫描和可视化文档搜索。
视频时序定位，即从视频中识别出与自然语言文本描述相匹配的部分。
音频类型分类，包括音乐类型。
基于场景信息与目标识别的图像分类。

在其他一些领域的表现则较为有限。也许可以使用 jina-embeddings-v5-omni 来完成这些任务，但我们尚未进行相关训练，结果可能不佳。

我们正在积极改进这些领域的技术：

根据自然语言描述查找特定视频。
图像到图像的语义相似度与检索。
语音中的意图分类，例如识别语音指令。
处理混合媒体输入，即图像和随附的文本，或音频、图像和文本的组合。

使用

此模型套件支持通过三个入口点输入：文本、音频以及图像和视频。jina-embeddings-v5-omni 运行于一个框架内，该框架可转换各种标准格式并进行其他预处理。

我们使用初始 SigLip2 版本中提供的相同 NaFlex 方法来处理图像：如果输入图像小于 262,144 像素（相当于 512x512 分辨率），则会将其放大，直到超过这个最小值；如果图像大于 3,072,000 像素，则会将其缩小，直到小于这个最大值。转换过程确保图像的高度和宽度均为 14 像素的倍数，并尽可能减少宽高比变形以实现这一目标。结果被分割成 28x28 像素的块，因此总块数是覆盖图像所需的 28x28 方块的数量。每一块在推理时被视为单个词元，并且每个图像输入都由特殊的开始和结束词元来划分单个图像。

jina-embeddings-v5-omni 模型修改视频分辨率的方式与修改图像的方式相同（见上文），我们从视频中最多提取 32 个帧。如果视频有超过 32 帧（这很可能，因为标准格式通常至少每秒 24 帧），我们会均匀分布我们提取的帧。然后，视频预处理器每两帧生成一组词元，这组词元的数量等同于覆盖视频画面所需的 28x28 像素方块的总数。

一张由连续视频帧组成的拼贴图，画面按箭头指示的顺序排列，描绘了奥黛丽·赫本在不同时刻的一系列场景，并以显示“《蒂凡尼的早餐》”片名卡的画面作为结尾。该布局图展示了模型是从视频中提取 64 帧等间距的画面，当视频较长时，这种方式会导致严重的内容丢失。

图11：jina-embeddings-v5-omni 从视频中提取 32 个等距帧。如果您的视频很长，这意味着会丢失很多内容。

有关视频预处理的更多详细信息，请参阅 Siglip 2 技术文档。

音频词元化遵循 Qwen-2.5-Omni 内置的方法：声音文件被切割成 30 秒的段落；如果长于 30 秒，则重新采样到 16kHz，转换为 128 通道的梅尔频谱图。每 40 毫秒被视为一个词元，因此每 30 秒的片段被处理为 750 个词元，每 40 毫秒音频一个词元，此外还带有专门的开始和结束标记，用以划分单个样本。

有关音频预处理的更多详细信息，请参阅 Qwen-2.5-Omni 技术报告。

可用性

开始使用

如要在 EIS 上使用 jina-embeddings-v5-omni 模型，在创建索引时请将 type 字段设置为 semantic_text （即使媒体并非全部是文本），在 inference_id 字段中指定 jina-embeddings-v5-omni-small 或 jina-embeddings-v5-omni-nano 。EIS 会自动选择 LoRA 适配器进行索引和检索。

对于文本，该流程与 jina-embeddings-v5-text 相同：

如要输入其他媒体，请先将其转换为 Base64 字符串，然后将该字符串放在通常用于文本的同一字段中：

对多媒体查询执行相同操作：

如需通过 Jina API 访问，请访问 Jina AI 网站。

如要使用分类器、聚类或语义相似度适配器，或将嵌入截断为自定义大小，请为您的项目创建自定义推理终端，并按照那里的说明连接到 Jina AI 模型并向它们传递参数。

如要通过 jina-embeddings-v5-omni 使用 BBQ，请按照 BBQ 索引的说明操作。

一个索引，涵盖所有媒体：jina-embeddings-v5-omni 正式发布

选定的模型属性

输入/输出

大小

特定任务训练

多媒体、多模态、多语言、多功能

视频搜索

可视化文档检索

功能

可截断嵌入

量化

跨语言性能

基准性能

文本

视觉语义相似度

可视化文档检索

音频检索

视频

优势与局限性

使用

可用性

开始使用

更多信息

这些内容对您有多大帮助？

相关内容

Jina Embeddings v3 现已登陆 Gemini Enterprise Agent Platform Model Garden

jina-embeddings-v5-text：用于搜索和智能应用的紧凑且最先进的文本嵌入

为 Elasticsearch 注入活力：添加对原生 Prometheus API 的支持

个性化电子商务搜索：整合购买历史记录和用户群组

用于电子商务搜索治理的 Elasticsearch percolator：将模糊查询转化为受控检索策略

准备好打造最先进的搜索体验了吗？