如今的智能体，已经像人一样「浏览」视频了，国内就有

siyushenqi.com • 2025 年 8 月 13 日下午9:27 • 行业动态 • 阅读 309

AI 技术能够提高视频搜索效率，扩展人与数字世界的互动方式，使得机器能够理解视频内容和剧情。

摘要

英伟达发布的预训练、可自定义 AI 工作流，为开发者提供构建和部署生成式 AI 应用程序的解决方案，用于视频问答等典型用例。

一个开源的多模态智能体框架，旨在简化面向设备智能体系统的开发，支持视频问答功能，并能够将智能体直接应用在硬件设备上。

遵循基于图的工作流编排、原生多模态和设备中心化的三个基本原则，支持多种设备连接和交互，提供示例项目展示智能体的构建过程。

在视频问答和硬件设备应用方面的测试表明，OmAgent 能够有效处理复杂视频内容，提供准确的问答结果，并在实际硬件设备上运行智能体应用，如穿衣搭配推荐。

当你正在观看一部紧张刺激的动作电影，忽然好奇：

“那个角色到底是在哪一集说的那句话？”

“这里的背景音乐是什么？”

又或者在一场足球比赛中，你错过了那个决定性的进球，却又想再次回放。诸如此类的需求，如果仅凭人力寻找，无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑，让它们能够看懂视频、理解剧情，对于普通人来说，这不仅是提高了搜索效率，更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流，他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中，你可以选择三个视频片段中的一个进行内容问答。

在几轮测试过后，我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间，也可以提问某个对象的状态。

例如当我们提问 “工人在什么时候掉落了箱子”，Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题，Blueprint 也可以轻松应答。

不过对于某些细节，例如 “谁捡起了掉在地上的箱子”，Blueprint 则给出了错误的答案。

尤其令人遗憾的是，在试用过程中我们不断遇到流量限制，无限验证等问题，试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段，没有办法快速进行使用。

Blueprint 之外，我们还有什么选择？

经过一番搜索和调研，我们在 Github 上发现了 OmAgent 这个项目，这是一个多模态智能体框架，提供了同样强大的视频问答功能。

项目地址：https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架，支持简单快速地面向设备进行智能体系统的开发，为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念，并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程，使每个人都能基于设备建立最有趣的 AI 应用。

OmAgent 的设计架构遵循三个基本原则：

1. 基于图的工作流编排，支持分支、循环、并行等复杂逻辑操作；

2. 原生多模态，提供对音视图文等多种模态数据的支持；

3. 设备中心化，提供便捷的设备连接和交互方法。

简单来说，开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机，智能可穿戴设备（智能眼镜等），智能家居，还包括命令行以及 web 端，开发者只需要专注于智能体本身，而不用分神处理设备。

OmAgent 项目里提供了 6 个示例项目，由浅入深展示了如何搭建一个智能体的完整过程，其中视频理解智能体工作流被 EMNLP 2024 主会收录，实现了和 Blueprint Demo 相似的功能。

OmAgent 表现如何？

根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理，在这个阶段视频会被分解为若干个片段，每个片段会被大模型进行总结，并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试，可以看到智能体可以正确定位事件以及发生的时间。

Q: When did the worker drop the box?

Q: Which direction did the forklift go?

Q: Who picked up the box that fell on the ground?

接下来我们进行更复杂的测试，OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材，基于其中的画面和剧情进行提问。

Q: 凯特琳收到的钥匙代表了什么？

Q: 凯特琳和蔚在争执些什么？

Q: 视频最后几个议员在讨论什么？

Q: 议员开会的时候谁闯入了进来？

可以看到，即使面对如此复杂的视频素材，OmAgent 依然可以游刃有余。

除了视频问答之外，OmAgent 的最大特点是可以将智能体直接应用在硬件设备上，我们也对此进行了测试。使用项目提供的 app，我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求，以及你已有的衣橱信息，为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求，并最终返回最合适的搭配。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.siyushenqi.com/32702.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

13.7K 文章

0 评论

425 问题

17 粉丝

私域神器：海外私域营销拓客软件

OpenAI 与全世界最新锐的团队，想要用 AI 完成对浏览器的「复兴」

上一篇 2025 年 8 月 13 日下午9:27

官方出品，OpenAI手把手教你写，ChatGPT提示词

下一篇 2025 年 8 月 13 日下午9:27

行业动态

出海巴西的热潮背后，中国企业要面对哪些挑战？

2024 年中国对巴西直接投资 42 亿美元、同比增 113%，巴西跃升为中国全球第三大目的地，全年登记 39 个大型项目，为 2006 年以来新高。

siyushenqi.com
2025 年 12 月 29 日
223000
行业动态

同一赛道的Shein，会放弃与Temu正面竞争吗？

面对Temu和Shein的竞争，亚马逊采取了“下沉”策略，通过在印度推出低价电商平台Bazaar和计划在主站增设“低价商店”来应对市场竞争。

siyushenqi.com
2025 年 8 月 5 日
369000
行业动态

国产AI应用持续霸榜海外，背后的字节如何稳步铺开AI出海版图？

字节AI出海应用大家族，C位竟是它。

siyushenqi.com
2025 年 11 月 17 日
381000
巨头破冰！亚马逊向Shopify卖家开放物流网络

亚马逊和Shopify欲打破僵局，正式“联姻”。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
306000
行业动态

年销9亿，服装红海杀出又一亿级品牌

定义您的舒适。

siyushenqi.com
2025 年 8 月 12 日
350000
行业动态

国产视频模型批量崛起，匿名"欢乐马"屠榜

OpenAI关停Sora后，国产视频模型强势崛起。匿名模型HappyHorse-1.0登顶AI视频榜单，力压字节、快手、谷歌等头部厂商。视频模型赛道竞争转向成本、效率与真实感比拼，行业进入全模态发展趋势。

转自扬帆出海
2026 年 4 月 10 日
136000
TiKToK为啥这么猛？

海外社交应用巨头为何没能“掐死”TiKToK？

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
312000
行业动态

私域神器每周合作精选No.114｜寻海外短剧资源；卡牌、IAA、小游戏寻海外发行；韩国游戏发行商寻手游产品

本期精选的合作类型涵盖寻海外短剧资源；卡牌、IAA、小游戏寻海外发行；韩国游戏发行商寻手游产品等。接下来就一起看看吧~

siyushenqi.com
2025 年 8 月 18 日
326000
行业动态

“大晓”机器人来了

商汤再下一城，推出“大晓机器人”专攻具身智能“超级大脑”，12月18日发布ACE技术范式、具身超级大脑模组A1及开源“开悟”世界模型3.0。

siyushenqi.com
2025 年 12 月 8 日
323000
中东社交大厂上市两月股价涨45% 游戏增长迅猛 | 中东出海秀

在本期榜单上，《PUBG Mobile》又当仁不让地拿下了沙特和土耳其两国畅销榜冠军。

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
387000
行业动态

被网易盯上，下一个营收破10亿美元的爆款要来了吗？

《Project OC》实际是一款怎样的产品？在如今这个“群狼环伺”的大环境下，它又有什么值得一瞧的内容，足以构成它参与竞争的资本？

siyushenqi.com
2025 年 8 月 18 日
326000
行业动态

OpenAI内部信"摊牌"：微软联盟已成枷锁，将押注亚马逊合作突围

OpenAI首席营收官内部信披露，公司与亚马逊合作成业务增长关键，同时指出与微软合作存在限制。面对企业市场竞争及即将启动的IPO，OpenAI正加速拓展多云合作与算力布局。

转自扬帆出海
2026 年 4 月 18 日
168000
行业动态

影响2024年的十大科技应用趋势｜2万字全文

一个充满韧性和重塑的全新时代即将揭开序幕。

siyushenqi.com
2025 年 8 月 3 日
326000
行业动态

群核科技华南大区营销总经理江双厘确认担任 PAGC 2025丨第五届全球产品与增长展会 AIGC出海增长峰会演讲嘉宾！

群核科技华南大区营销总经理江双厘确认担任 PAGC 2025丨第五届全球产品与增长展会 AIGC出海增长峰会演讲嘉宾！

siyushenqi.com
2025 年 8 月 17 日
346000
行业动态

亚马逊开打美国生鲜外卖大战

亚马逊宣布已在1000+城镇上线生鲜杂货“当日达”，年底扩至2300+地区，并允许与百货同单合送。

siyushenqi.com
2025 年 8 月 15 日
334000
行业动态

ChatGPT新增Tasks功能，能自动查询股票、写小说

OpenAI宣布ChatGPT正在测试新增功能tasks，用户只需简单说明需求，就能让ChatGPT在特定时间自动化完成任务。

siyushenqi.com
2025 年 8 月 13 日
293000
行业动态

WhatsApp群发号批量消息管理与精准营销技巧

优化消息内容以吸引用户使用标签进行精准分类分析用户反馈调整策略定期更新群发号码遵循WhatsApp使用政策优化消息内容以吸引用户在WhatsApp群发号批量消息管理过程中，优化消息内容是提升营销效果的第一步。有效的消息内容应该简洁、有吸引力，并且能够直接传达给用户相关的信息。为了提高消息的打开率和互动率，可以通过以下几个方面来优化消息内容：首先，…

siyushenqi.com
2025 年 12 月 26 日
251000
行业动态

一周卖出3.6万单！这款护发单品如何在TikTok上大爆？

单品总销量破13万，该产品如何成为TikTok新宝藏护发神器？

siyushenqi.com
2025 年 8 月 12 日
384000
行业动态

Manus和它的“8000万名员工”

Manus 的“8000 万虚拟机”，人类史上最大数字员工团队。

siyushenqi.com
2026 年 1 月 15 日
310000
在修仙品类的空档期，这款争议作品悄悄拿下热销榜一

《太荒初境》上线首日就有两万的用户在线量，在后面也有日益增加的趋势；Steam热销新品中也排行第一，社区的讨论度也是非常的高，不过在Steam上的用户评价却是差评如潮

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
327000
三度登顶日本畅销榜，《FGO》的CP带着一款新游戏杀回来了！

在六个月前，由迪士尼与那家做动画起家、曾打造多个爆款的日本知名游戏开发商Aniplex共同制作的《迪士尼扭曲仙境》

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
356000
行业动态

这45个名字，代表了短剧的未来| 2024年短剧新锐势力榜解析

今年，国家广电总局下发《关于微短剧备案最新工作提示》，从2024年6月1日起，未经审核且备案的短剧不得上网传播。

siyushenqi.com
2025 年 8 月 18 日
342000
行业动态

赤子城科技公布财报24年财报预告社交、游戏业务营收均实现大幅增长

奔跑的赤子城。

siyushenqi.com
2025 年 8 月 17 日
330000
一个“奇葩”国产经营游戏是怎么在美国市场突围的

又一个品类逐渐成长为出海的新生力量。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
393000
超休闲SLG成就黑马？合成+策略《口袋奇兵》排名出海收入第26位

近日，出海霸主级SLG手游《万国觉醒》的强势回归引起了一阵热议

siyushenqi.com
2025 年 8 月 26 日 • 行业动态
385000
行业动态

AI视频时代，如何才能不掉队？

AI技术的发展使得视频创作门槛降低，用户从内容消费者转变为生产者、消费者和拥有者的三位一体，视频数据量飞速增长。

siyushenqi.com
2025 年 8 月 13 日
320000
一周要闻 NO.68丨30天生效！美芯片禁令升级苹果应用商店员工被曝性侵米哈游员工

英伟达H800/A800禁售，30天生效！苹果应用商店员工性侵米哈游员工？

siyushenqi.com
2025 年 8 月 14 日 • 行业动态
310000
行业动态

亚马逊裁员狼人杀：邮件突袭+权限秒关，会议室到下周三全部订满

11 月 18 日 17:30 内部信官宣全球白领净减 1.4 万（= 裁员数－新增招聘），范围与节奏均超预期，当晚 18:30 起陆续关闭被裁人员系统权限。

siyushenqi.com
2025 年 10 月 30 日
299000
《曲中剑》：用古曲与水墨，讲一个与命运和解的故事

近日，腾讯旗下天美工作室一款水墨武侠音游在TapTap 上开启了测试，并在各玩家社区中获得了广泛的好评。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
312000
行业动态

暴利的短剧已经被盯上

树大招风。

siyushenqi.com
2025 年 8 月 18 日
352000