今年下半年,Sora的出现再次将AI视频推至全球讨论的焦点。基于用户提供的图像信息,AI能够复刻人物形象,并生成高度逼真的视频内容,生成式视频能力的边界被进一步延展。
随着AI“生成”能力不断成熟,视频是否能够进一步承载更高层级的智能驱动机制,正在成为行业关注的新方向。近日,一家创立约一年的初创AI公司Lemon Slice获得了由Matrix Partners、Y Combinator领投的1050万美元(折合人民币约3.41亿元)种子投资。与Sora聚焦的生产AI视频内容不同,Lemon Slice的方向,是将单一静态图像转化为完全交互式的会话视频角色,重点是在人与AI的交互。
Lemon Slice由Lina Colucci、Sidney Primas和Andrew Weitz联合创立。三位创始人均长期深耕机器学习与产品落地,曾共同或分别创办机器学习技术服务与产品型公司,其中,已有项目实现年收入数百万美元规模,为团队提供了从算法研发到商业化变现的完整经验。
当产品需要进一步切入教育、企业培训、客户服务等场景,Lemon Slice对“虚拟数字人”的押注,可看作是在尝试回答一个问题:在视频生成能力已经能够复刻现实之后,AI的下一步进化方向在哪里?
要理解这一逻辑,需要将视角从视频生成本身,切换到AI Agent的进化路径上。
AI Agent进化:从“文本回复”到“Video Agent”
过去两年,AI Agent已经从实验室概念快速渗透进各类商业形态中。Gartner 预计,到2026年约有40%的企业应用将集成任务型AI代理(agentic AI)功能,这一比例远高于当前水平。这种潜在的渗透速度,表明智能代理正逐渐从辅助工具向能够执行复杂任务的功能模块演进。
图源:Gartner(2025年8月)
与此同时,Gartner还预测,到2030年约80%的企业软件与应用将具备多模态AI能力。这意味着未来企业级交互将不仅依赖文本和语音,还会涵盖图像、视频等多种交互形式,从而推动更丰富的用户体验和业务流程革新。在这种趋势下,交互效能本身开始成为影响AI应用深度与长期留存的重要变量。
当前,大多数AI Agent仍以文本或语音作为主要交互方式。尽管文本在信息组织与传播成本方面具备优势,但在建立用户信任、情感反馈和长期使用粘性方面存在一定局限,特别是在教育辅导、心理咨询、客户服务等对交互质量要求较高的场景中,这种局限性更为显著。
多项行业观察显示,相较于纯文本互动,视觉反馈与情感化的互动媒介更有助于信息理解和心理投入,这也是业界开始重新审视视频、动态形象等更实时交互内容的根本原因之一。
在这一背景下,视频从“内容消费载体”逐步转向可能的“交互载体”。它不仅承载信息输出,还能同时反映表情、肢体语言与语音语调,这些因素共同拉近了人与AI之间“能看得到”的距离。当AI Agent不再是单向的问答系统,而是具备“被观察、被对话”的形态时,交互本身便成为了新的竞争变量。
一张图即可创建数字人物,还能让AI与AI面对面聊?
如果说AI Agent的上半场是在比拼“大脑”的智商,那么以Lemon Slice为代表的公司则试图在“感官层”建立差异化。目前,平台支持用户创建写实风格、卡通风格等各种类型的数字角色。从其产品架构来看,Lemon Slice围绕“实时可交互的视频形象”这一核心能力,拆分出了两条相对清晰的产品路径。
Lemon Slice可创建的各种风格数字角色
首先,是面向开发者与企业用户的Video Agents(视频智能体)。该产品的核心目标,并非单纯生成可展示的虚拟形象,而是为网站或应用提供一个可嵌入、可对话、可接入业务逻辑的交互界面。企业还可以通过API或嵌入式组件,将生成的视频形象直接部署到官网、产品后台或业务系统中,使其承担客服答疑、知识讲解、流程引导等角色。
其次,是面向更广泛创作者与个人用户的Creative Studio(创意工作室)。这一功能强调“低门槛”和“可玩性”,用户仅需上传一张图片和音频,便可快速生成对应的数字虚拟人,并进一步用于AI视频内容创作。
与此同时,Lemon Slice还引入了多角色同场互动的能力,允许用户生成多个AI角色,并让它们在同一场景中进行对话或互动。
支撑Lemon Slice产品功能的是其自研的Lemon Slice-2视频扩散转换器模型。在技术参数上,该模型规模为200亿,虽然在参数量级上无法与通用的超大规模多模态模型相比,但其核心竞争力在于“能效比”。据悉,通过自回归架构,它能在单块GPU上维持每秒20帧的实时生成。
在商业模式上,Lemon Slice采取了从Starter到Enterprise的分层订阅制,向个人创作者、团队以及企业开放,月订阅价格按级别依次为8美元/mo、40美元/mo、100美元/mo、240美元/mo。
给AI视频“注入灵魂”,这个“虚拟人”有何不同?
将Video Agents与Creative Studio放在同一产品体系中来看,Lemon Slice的关键在于它如何围绕实时视频交互这一能力,构建出一套可被反复调用的底层机制。
首先可以看到的是,它刻意压缩了“从想法到可用形态”的距离。无论是企业将视频智能体嵌入官网,还是个人用户在创意工作室中生成虚拟角色,同样基于单张图像完成角色生成,同样通过API或内置逻辑驱动对话与动作。这种高度统一的生成与交互流程,使产品不必为不同使用人群维护多套系统,也让视频形象更像一种“随取随用”的能力模块,而非一次性制作的内容资产。
进一步来看,Lemon Slice在场景适配上的选择,同样体现出对通用性的偏好。其视频形象并未被限定在单一用途之中,而是通过全身动作、语义驱动与背景切换,在不同场景中完成快速迁移。对企业而言,这意味着同一视频角色可以承担客服、讲解或培训等不同任务,依赖的是同一套实时生成与调度能力。
同时,多角色同场互动的设计,也进一步放大了这一能力的可扩展性。当多个AI角色能够在同一画面中进行对话时,视频开始具备多元化交互的可能性。对于内容创作而言,这提供了更丰富的表达空间。而在实际应用中,多角色之间的分工与协作,也为复杂流程的可视化呈现留下了接口。
在这些设计背后,视频并未被当作最终内容,而更像是一种持续运转的交互状态。角色的表情、动作、语音与对话逻辑被同时调度,使用户无论是“观看”还是“对话”,都处在同一个系统之内。
从这一层面来看,Lemon Slice所尝试的,更多是围绕“视频是否可以成为一种长期存在的交互形态”这一问题,给出了一个工程化的实现路径。
结语
Lemon Slice联合创始人兼CEOLina Colucci认为:“人们对人工智能虚拟形象的主要抱怨是它们缺乏真实感,降低了价值。未来,所有视频都将是互动式的,并根据观看者的需求进行个性化定制。”从这一观点出发,Lemon Slice正在围绕一个更具体的问题展开:当模型能力逐渐标准化,视频是否可以成为一种真正可被反复使用的交互形态,从单图生成、实时对话到多角色同场互动,其产品路径更像是在不断压缩“技术复杂度”与“实际可用性”之间的距离。
在这一过程中,视频不再只是内容的呈现方式,而被重新放置到交互链路之中。至于这种形态最终会在多少场景中成立,或许仍有待时间验证,但可以确定的是,围绕交互形式、用户体验、用户感官的重新设计,已经开始成为AI应用中不可回避的一部分。
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/71167.html


微信扫一扫
支付宝扫一扫 