全球首个自主进化多模态MoE震撼登场！写真视频击败Sora，人大系团队自研底座VDT

siyushenqi.com • 2025 年 8 月 13 日下午11:15 • 行业动态 • 阅读 305

人大系初创公司智子引擎发布的全新多模态大模型Awaker 1.0，直接迈向了AGI！它是业界首个真正实现自主更新的大模型，在写真视频效果上，居然击败了Sora。

在4月27日召开的中关村论坛通用人工智能平行论坛上，人大系初创公司智子引擎隆重发布全新的多模态大模型Awaker 1.0，向AGI迈出至关重要的一步。

相对于智子引擎前代的ChatImg序列模型，Awaker 1.0采用全新的MOE架构并具备自主更新能力，是业界首个实现「真正」自主更新的多模态大模型。

在视觉生成方面，Awaker 1.0采用完全自研的视频生成底座VDT，在写真视频生成上取得好于Sora的效果，打破大模型「最后一公里」落地难的困境。

Awaker 1.0是一个将视觉理解与视觉生成进行超级融合的多模态大模型。

在理解侧，Awaker 1.0与数字世界和现实世界进行交互，在执行任务的过程中将场景行为数据反哺给模型，以实现持续更新与训练；在生成侧，Awaker 1.0可以生成高质量的多模态内容，对现实世界进行模拟，为理解侧模型提供更多的训练数据。

尤其重要的是，因为具备「真正」的自主更新能力，Awaker 1.0适用于更广泛的行业场景，能够解决更复杂的实际任务，比如AI Agent、具身智能、综合治理、安防巡检等。

Awaker的MOE基座模型

在理解侧，Awaker 1.0的基座模型主要解决了多模态多任务预训练存在严重冲突的问题。

受益于精心设计的多任务MOE架构，Awaker 1.0的基座模型既能继承智子引擎前代多模态大模型ChatImg的基础能力，还能学习各个多模态任务所需的独特能力。

相对于前代多模态大模型ChatImg，Awaker 1.0的基座模型能力在多个任务上都有了大幅提升。

鉴于主流的多模态评测榜单存在评测数据泄露的问题，我们采取严格的标准构建自有的评测集，其中大部分的测试图片来自个人的手机相册。

在该多模态评测集上，我们对Awaker 1.0和国内外最先进的三个多模态大模型进行公平的人工评测，详细的评测结果如下表所示。

注意到GPT-4V和Intern-VL并不直接支持检测任务，它们的检测结果是通过要求模型使用语言描述物体方位得到的。

可以看到，Awaker 1.0的基座模型在视觉问答和业务应用任务上超过了GPT-4V、Qwen-VL-Max和Intern-VL，同时它在描述、推理和检测任务上也达到了次好的效果。

总体而言，Awaker 1.0的平均得分超过国内外最先进的三个模型，验证了多任务MOE架构的有效性。下面是几个具体的对比分析例子。

从这些对比例子可以看到，在计数和OCR问题上，Awaker 1.0能正确地给出答案，而其它三个模型均回答错误（或部分错误）。

在详细描述任务上，Qwen-VL-Max比较容易出现幻觉，Intern-VL能够准确地描述图片的内容但在某些细节上不够准确和具体。

GPT-4V和Awaker 1.0不但能够详细地描述图片的内容，而且能够准确地识别出图片中的细节，如图中展示的可口可乐。

Awaker+具身智能：迈向AGI

多模态大模型与具身智能的结合是非常自然的，因为多模态大模型所具有的视觉理解能力可以天然与具身智能的摄像头进行结合。

在人工智能领域，「多模态大模型+具身智能」甚至被认为是实现通用人工智能（AGI）的可行路径。

一方面，人们期望具身智能拥有适应性，即智能体能够通过持续学习来适应不断变化的应用环境，既能在已知多模态任务上越做越好，也能快速适应未知的多模态任务。

另一方面，人们还期望具身智能具有真正的创造性，希望它通过对环境的自主探索，能够发现新的策略和解决方案，并探索人工智能的能力边界。通过将多模态大模型用作具身智能的「大脑」，我们有可能大幅地提升具身智能的适应性和创造性，从而最终接近AGI的门槛（甚至实现AGI）。

但是，现有的多模态大模型都存在两个明显的问题：一是模型的迭代更新周期长，需要大量的人力和财力投入；二是模型的训练数据都源自现有的数据，模型不能持续获得大量的新知识。

虽然通过RAG和长上下文的方式也可以注入持续出现的新知识，但是多模态大模型本身并没有学习到这些新知识，同时这两种补救方式还会带来额外的问题。

总之，目前的多模态大模型在实际应用场景中均不具备很强的适应性，更不具备创造性，导致在行业落地时总是出现各种各样的困难。

智子引擎此次发布的Awaker 1.0，是世界上首个具有自主更新机制的多模态大模型，可以用作具身智能的「大脑」。

Awaker 1.0的自主更新机制，包含三大关键技术：数据主动生成、模型反思评估、模型连续更新。

区别于所有其它多模态大模型，Awaker 1.0是「活」的，它的参数可以实时持续地更新。

从上方的框架图中可以看出，Awaker 1.0能够与各种智能设备结合，通过智能设备观察世界，产生动作意图，并自动构建指令控制智能设备完成各种动作。

智能设备在完成各种动作后会自动产生各种反馈，Awaker 1.0能够从这些动作和反馈中获取有效的训练数据进行持续的自我更新，不断强化模型的各种能力。

以新知识注入为例，Awaker 1.0能够不断地在互联网上学习最新的新闻信息，并结合新学习到的新闻信息回答各种复杂问题。

不同于RAG和长上下文的传统方式，Awaker 1.0能真正学到新知识并「记忆」在模型的参数上。

从上述例子可以看到，在连续三天的自我更新中，Awaker 1.0每天都能学习当天的新闻信息，并在回答问题时准确地说出对应信息。

同时，Awaker 1.0在连续学习的过程中并不会遗忘学过的知识，例如智界S7的知识在2天后仍然被Awaker 1.0记住或理解。

Awaker 1.0还能够与各种智能设备结合，实现云边协同。

Awaker 1.0作为「大脑」部署在云端，控制各种边端智能设备执行各项任务。边端智能设备执行各项任务时获得的反馈又会源源不断地传回给Awaker 1.0，让它持续地获得训练数据，不断进行自我更新。

上述云边协同的技术路线已经应用在电网智能巡检、智慧城市等应用场景中，取得了远远好于传统小模型的识别效果，并获得了行业客户的高度认可。

现实世界的模拟器：VDT

Awaker 1.0的生成侧，是智子引擎自主研发的类Sora视频生成底座VDT，可以用作现实世界的模拟器。

VDT的研究成果于2023年5月发布在arXiv网站，比OpenAI发布Sora提前10个月。VDT的学术论文已经被国际顶级人工智能会议ICLR 2024接收。

视频生成底座VDT的创新之处，主要包括以下几个方面：

将Transformer技术应用于基于扩散的视频生成，展现了Transformer在视频生成领域的巨大潜力。VDT的优势在于其出色的时间依赖性捕获能力，能够生成时间上连贯的视频帧，包括模拟三维对象随时间的物理动态。
提出统一的时空掩码建模机制，使VDT能够处理多种视频生成任务，实现了该技术的广泛应用。VDT灵活的条件信息处理方式，如简单的token空间拼接，有效地统一了不同长度和模态的信息。同时，通过与时空掩码建模机制结合，VDT成为了一个通用的视频扩散工具，在不修改模型结构的情况下可以应用于无条件生成、视频后续帧预测、插帧、图生视频、视频画面补全等多种视频生成任务。

团队重点探索了VDT对简单物理规律的模拟，在Physion数据集上对VDT进行训练。

在下面的示例中，团队发现VDT成功模拟了物理过程，如小球沿抛物线轨迹运动和小球在平面上滚动并与其他物体碰撞等。同时也能从第2行第2个例子中看出VDT捕捉到了球的速度和动量规律，因为小球最终由于冲击力不够而没有撞倒柱子。

这证明了Transformer架构可以学习到一定的物理规律。

团队还在写真视频生成任务上进行了深度探索。该任务对视频生成质量的要求非常高，因为我们天然对人脸以及人物的动态变化更加敏感。鉴于该任务的特殊性，我们需要结合VDT（或Sora）和可控生成来应对写真视频生成面临的挑战。

目前智子引擎已经突破写真视频生成的大部分关键技术，取得比Sora更好的写真视频生成质量。

智子引擎还将继续优化人像可控生成算法，同时也在积极进行商业化探索。目前已经找到确定的商业落地场景，有望近期就打破大模型「最后一公里」落地难的困境。

未来更加通用的VDT将成为解决多模态大模型数据来源问题的得力工具。

使用视频生成的方式，VDT将能够对现实世界进行模拟，进一步提高视觉数据生产的效率，为多模态大模型Awaker的自主更新提供助力。

结语

Awaker 1.0是智子引擎团队向着「实现AGI」的终极目标迈进的关键一步。

团队认为AI的自我探索、自我反思等自主学习能力是智能水平的重要评估标准，与持续加大参数规模（Scaling Law）相比是同等重要的。

Awaker 1.0已实现「数据主动生成、模型反思评估、模型连续更新」等关键技术框架，在理解侧和生成侧都实现了效果突破，有望加速多模态大模型行业的发展，最终让人类实现AGI。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.siyushenqi.com/33715.html

赞 (0)

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

13.7K 文章

0 评论

425 问题

17 粉丝

私域神器：海外私域营销拓客软件

英伟达收购 Runai，增强生成式AI开发和硬件能力

上一篇 2025 年 8 月 13 日下午11:15

中国AI，全球掘金

下一篇 2025 年 8 月 13 日下午11:15

行业动态

谷歌开发者账号注册会遇到哪些问题

谷歌开发者账号注册会遇到哪些问题

siyushenqi.com
2025 年 8 月 3 日
294000
一千零一店×一千零一种新场景，背后是年轻人的消费逻辑

有这样一群年轻人，以发现美好小店为乐趣，他们认为的探店，不是探装修风格网红而缺乏灵魂的拍照地；而是走街串巷去发现那些产品独特，有自己故事和风格的美好小店。那么问题来了，当年轻人在痴迷各类有意思的“探店”时，究竟想要逛什么？

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
310000
硅谷“砸钱”造神，中国式AI能复制么?

对于中国式AI而言，比较容易知道，不能盲目复制硅谷

siyushenqi.com
2025 年 8 月 14 日 • 行业动态
360000
行业动态

刘强东拿下新加坡物流枢纽

3.06亿新元拿下新加坡4处物流园、22亿欧元要约收购欧洲Ceconomy、全资收购香港佳宝超市，三笔交易合计超200亿元，用物流+零售网络同时锁定东南亚、欧洲和大湾区门户。

siyushenqi.com
2025 年 9 月 10 日
339000
行业动态

一周要闻NO.187丨AI.com以7000万美元转手；《黑神话：悟空》或将登陆Switch 2；京东Joybuy 3月上线欧洲；SpaceX宣布收购xAI

一起看看这周有哪些出海圈值得关注的大事记吧！

siyushenqi.com
2026 年 2 月 10 日
178000
获快手投资，单品流水数亿，CEO自述：现在中小团队难得要死

他们如何起死回生？

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
333000
行业动态

疫情影响减少，生意曙光再现，独立站卖家又该如何入局东南亚？

疫情初期，电商受挫，众多平台禁售敏感与防疫商品，谷歌禁止推广，不少跨境电商卖家变得寸步难行

siyushenqi.com
2025 年 8 月 13 日
263000
行业动态

2023年3月全球热门移动游戏收入TOP10

Sensor Tower 商店情报数据显示，2023年3月腾讯《王者荣耀》在全球 App Store 和 Google Play 吸金2.15亿美元，蝉联全球手游畅销榜冠军。全球热门移动游戏收入TOP10完整榜单请见上文图表。说明：数据不包括第三方安卓渠道。

siyushenqi.com
2025 年 8 月 24 日
358000
行业动态

首位AI科学家问世！已独立生成10篇学术论文，还顺手搞了AI审稿人

史上首位“AI科学家”，横空出世！

siyushenqi.com
2025 年 8 月 13 日
280000
行业动态

大模型要凭证才能开发？至少OpenAI是这么向监管者建议的

今天上午，在美国国会针对人工智能监管的听证会开始时，参议员理查德·布卢门撒尔 (Richard Blumenthal)“讲”了一段宣言。他的声音在大厅里响起：“我们经常看到技术超过监管时会发生什么。会加深对个人数据的无节制利用、虚假信息的泛滥和社会不平等。”

siyushenqi.com
2025 年 8 月 14 日
286000
行业动态

爆款题材融合热门玩法，“重生爽文”小游戏冲榜

本篇文章统计微信小游戏、QQ小游戏、抖音小游戏、硬核小游戏以及App Store和Google Play上的新游爆款，并按照分类制作表格，将游戏排名情况等信息公布。

siyushenqi.com
2025 年 8 月 18 日
342000
行业动态

在垂类里放大局部优势、做用户心理阈值，“纯AI驱动的UGC视觉小说游戏平台”是如何炼成的？丨对话DDream 创始人王俊皓

解决AI陪伴的商业化问题，思路在于游戏化的本质。

siyushenqi.com
2025 年 8 月 17 日
285000
300亿市值蒸发，资讯界“拼多多”跌倒

纯粹的“撒币”模式，香不起来了。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
310000
别死盯《羊了个羊》土耳其团队用表情包做超休闲手游火爆了欧美

你有没有发现，现代人聊天越来越爱用表情包了？这种表情包文化，已经作为一种人类的新型语言形式在全世界范围扩散，甚至跨越了语言文化壁垒。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
317000
行业动态

73年前，香农已经给大模型发展埋下一颗种子

AI 考古，追溯到了祖师爷头上。

siyushenqi.com
2025 年 8 月 13 日
286000
行业动态

《白荆回廊》口碑再反转，二游玩家是真的不需要有玩法创新的游戏吗？

“上线即遭差评”已经成为所有二游都不得不面对的问题。

siyushenqi.com
2025 年 8 月 18 日
336000
亚马逊印度推出低价会员，低价路线走得通吗

亚马逊开始了全方位布局。

siyushenqi.com
2025 年 8 月 12 日 • 行业动态
349000
行业动态

Anthropic天价赔款？大模型“盗版”的100000种花样

头部大模型几乎都把海量盗版书籍、新闻、视频字幕当作核心训练语料，Meta、OpenAI、Anthropic 等悉数被告，行业“先污染后治理”模式面临清算。

siyushenqi.com
2025 年 8 月 15 日
341000
行业动态

别只盯大模型！小众AI工具的“闷声发财”逻辑，尽在这份报告里！（文内附获取方式）

小众AI工具出海：小功能下的“大生意”。

siyushenqi.com
2025 年 10 月 20 日
296000
行业动态

网易樱花工作室解散，一次野心勃勃实验的错判

周期的交替。

siyushenqi.com
2025 年 8 月 17 日
343000
日本乐天华南品牌峰会：探索日本跨境商机，中国品牌出海新赛道

在全球化浪潮推动下，跨境电商飞速发展，竞争日趋白热化。日本的电商市场规模排名世界第三，且每年都在持续扩大。如何通过跨境平台增加产品、品牌的曝光？如何寻找到适配日本市场的产品？这些都是跨境电商竞争中制胜的重点。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
171000
一款新概念MMO的枯萎，一条鲜有人踏足的道路

《Book of Travels》是一款多人在线游戏，它拥有着卓越的手绘美术风格，诱人的童话幻想世界，以及新颖的游戏概念——TMORPG（小型多人在线游戏）。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
354000
头部产品流水超25亿，多国畅销榜Top 100，三消出海下半场来了？

国内厂商正在暗中布局又一个逐渐重度化的出海品类

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
355000
行业动态

GPT-4分不清“很快”是多快，“万金油”CoT也拯救不了

GPT4也有短板？

siyushenqi.com
2025 年 8 月 13 日
292000
行业动态

从原画师到培训课，ChatGPT正在改变职场选择

ChatGPT这股风吹得有多大？

siyushenqi.com
2025 年 8 月 14 日
300000
行业动态

OpenAI即将完成重大融资，估值飙升至1000亿美元

华尔街日报消息，OpenAI正在洽谈新一轮数十亿美元融资，估值超过1000亿美元。

siyushenqi.com
2025 年 8 月 13 日
277000
印度政府又出新政限制外资电商

电商则一直是印度本地玩家、全球巨头和外部资本尤为关注的领域之一。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
335000
行业动态

AI浏览器Atlas，能否拯救亏损百亿的OpenAI？

OpenAI 发布 AI 原生浏览器 Atlas，把 ChatGPT 搜索框设为默认首页，正式宣战 Chrome。

siyushenqi.com
2025 年 11 月 6 日
291000
从SHEIN手里抢下 “跨境鞋服第一股”子不语市值破40亿

中国最大的跨境电商之一子不语在11月11日，正式登陆港交所，上市首日涨7.51%，现报8.45港元每股，总市值42.25亿港元。多次尝试上市后，子不语终于得偿所愿，成功上市；但在疫情和全球局势愈加复杂化的今天，它作为中国跨境电商的龙头之一能给我们带来什么思考，值得一说

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
303000
行业动态

Twitter矩阵：在外贸营销中如何实现精准流量引导

Twitter矩阵的整体策略框架基于数据分析的精准受众定位内容矩阵的构建与运营机制流量监测、转化评估与持续优化外贸营销中的风险控制与合规要点在全球化竞争日益激烈的背景下，外贸企业获取高质量海外流量的成本持续上升。单一账号、单一内容形式的社交媒体运营，已经难以满足规模化获客与品牌沉淀的双重需求。Twitter矩阵作为一种系统化、工程化的营销方式，通过…

siyushenqi.com
2025 年 12 月 27 日
233000

发表回复

登录后才能评论

联系我们

联系我们

+86 132-7601-9273

邮件：siyushenqi@gmail.com

工作时间：周一至周日 9:30-20:30

添加微信

添加微信

Email Telegram

返回顶部