摘要
英伟达发布的预训练、可自定义 AI 工作流,为开发者提供构建和部署生成式 AI 应用程序的解决方案,用于视频问答等典型用例。
一个开源的多模态智能体框架,旨在简化面向设备智能体系统的开发,支持视频问答功能,并能够将智能体直接应用在硬件设备上。
遵循基于图的工作流编排、原生多模态和设备中心化的三个基本原则,支持多种设备连接和交互,提供示例项目展示智能体的构建过程。
在视频问答和硬件设备应用方面的测试表明,OmAgent 能够有效处理复杂视频内容,提供准确的问答结果,并在实际硬件设备上运行智能体应用,如穿衣搭配推荐。
当你正在观看一部紧张刺激的动作电影,忽然好奇:
“那个角色到底是在哪一集说的那句话?”
“这里的背景音乐是什么?”
又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。
但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。
英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。
比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/32702.html