三名谷歌Vision Transformer作者官宣加入OpenAI

siyushenqi.com • 2025 年 8 月 13 日下午9:31 • 行业动态 • 阅读 142

OpenAI从谷歌DeepMind苏黎世办事处挖来了三位资深研究科学家：Xiaohua Zhai（翟晓华）、Lucas Beyer和Alexander Kolesnikov。这三位科学家在谷歌期间是密切的合作伙伴，共同参与了多项重要研究。

摘要

他们将在OpenAI从事多模态AI研究，这是人工智能领域的一个活跃且具有挑战性的研究方向，涉及图像、语言等多种数据类型的处理和理解。

这三位科学家在谷歌期间共同参与了Vision Transformer（ViT）的研究，这是一项开创性的工作，将Transformer模型应用于大规模图像识别任务，并取得了突破性成果。

OpenAI正在全球范围内扩张，除了在苏黎世设立办事处外，还计划在纽约市、西雅图、布鲁塞尔、巴黎和新加坡等地开设新的分支机构，以加强其在全球的影响力和研究能力。

这次人事变动反映了人工智能领域顶尖人才的激烈竞争，以及各大公司在全球范围内的战略布局。对于OpenAI来说，这三位科学家的加入无疑是一次重要的人才补充，有助于提升其在AI领域的研究和开发实力。同时，这也表明了OpenAI对于吸引和保留顶尖人才的重视，以及其在全球AI竞赛中的积极姿态。

最近，OpenAI 又迎来了新的人事变动，但这次不是某个技术大牛离职，而是从谷歌挖来了一些新鲜血液。

这些「新人」来自谷歌 DeepMind 的苏黎世办事处，包括资深研究科学家 Xiaohua Zhai（翟晓华）、研究科学家 Lucas Beyer 和 Alexander Kolesnikov。在谷歌 DeepMind 工作期间，三人就是密切的合作伙伴，共同参与了 ViT 等重要研究。之后，他们将一起建立 OpenAI 苏黎世办事处。

OpenAI 高管在周二的一份内部备忘录中告诉员工，三人入职后将从事多模态 AI 研究。

在 DeepMind 工作期间，Beyer 似乎一直在密切关注 OpenAI 发布的研究成果以及该公司卷入的公共争议，他经常在 X 上向自己的 7 万多名粉丝发布相关信息。去年，当首席执行官 Sam Altman 被 OpenAI 董事会短暂解雇时，Beyer 发帖称，他目前读到的关于解雇的「最合理」解释是，Altman 同时参与了太多其他初创公司的工作。

在竞相开发最先进的人工智能模型的同时，OpenAI 及其竞争对手也在激烈竞争，从世界各地招聘有限的顶尖研究人员，通常为他们提供接近七位数或更高的年薪。对于最抢手的人才来说，在不同公司之间跳槽并不罕见。

例如，Tim Brooks 曾是 OpenAI 的 Sora 负责人，最近他离职前往 DeepMind 工作。不过，高调挖角的热潮远不止 DeepMind 和 OpenAI。今年 3 月，微软从 Inflection AI 公司挖走了其人工智能负责人 Mustafa Suleyman 以及该公司的大部分员工。而谷歌斥资 27 亿美元将 Character.AI 创始人 Noam Shazeer 拉回麾下。

在过去几个月里，OpenAI 的一些关键人物相继离职，有的加入了 DeepMind 和 Anthropic 等直接竞争对手，有的创办了自己的企业。OpenAI 联合创始人、前首席科学家 Ilya Sutskever 离职后，创办了一家专注于人工智能安全和生存风险的初创公司 Safe Superintelligence。OpenAI 前首席技术官 Mira Murati 于 9 月份宣布离职，据说她正在为一家新的人工智能企业筹集资金。

今年 10 月，OpenAI 表示正在努力向全球扩张。除了新的苏黎世办事处，该公司还计划在纽约市、西雅图、布鲁塞尔、巴黎和新加坡开设新的分支机构。除旧金山总部外，该公司已在伦敦、东京和其他城市设立了分支机构。

LinkedIn 上的资料显示，Zhai、Beyer 和 Kolesnikov 都住在苏黎世，苏黎世已成为欧洲一个相对突出的科技中心。苏黎世是 ETH （苏黎世联邦理工学院）的所在地，ETH 是一所公立研究型大学，拥有全球知名的计算机科学系。据《金融时报》今年早些时候报道，苹果公司还从谷歌挖走了一些人工智能专家，在「苏黎世的一个秘密欧洲实验室」工作。

也有人猜测，OpenAI 之所以在苏黎世设立办事处，是因为三个人都不愿意搬家。

紧密合作的三位科学家

从已发表的研究看，这三位研究者经常从事同一个项目的研究，并且他们也做出了一些非常重要的研究成果，其中一些被 AI 顶会作为 Spotlight 和 Oral 论文接收。

Xiaohua Zhai（翟晓华）

个人主页：https://sites.google.com/view/xzhai

Google DeepMind（苏黎世）的资深研究科学家和管理者。他领导着苏黎世的一个多模态研究团队，其研究重心是多模态数据、开放权重模型和包容性。

根据其领英简历，他于 2014 年在北京大学取得了计算机科学博士学位。之后曾在谷歌从事了三年软件工程师的工作。2017 年 12 月，他加入 DeepMind 担任研究科学家，并一直在此工作了 7 年。

目前，翟晓华在 Google Scholar 上的被引量已经达到了 6 万多，其中大部分被引量来自他们三人共同参与的 ViT 论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。

Lucas Beyer

Lucas Beyer 是 DeepMind 研究科学家。

个人博客：https://lucasb.eyer.be/

他在 2018 年于德国亚琛工业大学完成了自己的高等学业，期间曾在谷歌以实习生身份从事过研究工作，也在 Kindred.ai 担任过 AI 工程师，在德国亚琛工业大学担任过研究助理。

毕业后，他正式加入谷歌，先后在谷歌大脑与 DeepMind 从事研究工作。

他在博客中写到：「我是一名自学成才的黑客和科学家，致力于创造非凡事物。目前在瑞士苏黎世生活、工作、恋爱和玩耍。」

Alexander Kolesnikov

Alexander Kolesnikov 已经更新了自己的领英页面，他曾经也是 DeepMind 的研究科学家。

个人主页：https://kolesnikov.ch

他于 2012 年硕士毕业于莫斯科国立大学，之后在奥地利科学技术研究所取得了机器学习与计算机视觉博士学位。类似地，2018 年博士毕业后，他也先后在谷歌大脑和 DeepMind 从事研究工作。

出色的研究成果

很显然，这三位研究者是一个非常紧密的研究团队，也因此，他们的很多研究成果都是三人共同智慧的结晶（当然还有其他合作者），我们下面将其放在一起介绍。

首先必须提到的就是这篇论文：

论文标题：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文地址：https://arxiv.org/pdf/2010.11929
项目地址：https://github.com/google-research/vision_transformer

这篇就是大名鼎鼎的 Vision Transformer（ViT）论文，其中提出可以使用 Transformer 来大规模地生成图像，机器之心也曾做过报道，参阅《NLP/CV 模型跨界进行到底，视觉 Transformer 要赶超 CNN?》。目前，这篇论文的引用量已经接近 5 万，这三位研究者均是共同技术一作。

此后，他们还研究了 ViT 的 Scaling Law。

论文标题：Scaling Vision Transformers
论文地址：https://arxiv.org/pdf/2106.04560

通过扩大和缩小 ViT 模型和数据的规模，他们研究了错误率、数据和计算之间的关系。在此过程中，他们还对 ViT 的架构和训练进行了改进，减少了内存消耗并提高了生成模型的准确性。

另外，他们也为 ViT 开发了一些改进版本，对其性能或效率等不同方面进行了优化，比如能适应不同图块大小的 FlexiViT，参阅论文《FlexiViT: One Model for All Patch Sizes》。

他们也探索了另一些架构创新，比如他们在论文《MLP-Mixer: An all-MLP Architecture for Vision》中提出了一种用于视觉任务的纯 MLP 架构 MLP-Mixer；在论文《Big Transfer (BiT): General Visual Representation Learning》中，他们重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范式，并通过扩大了预训练的规模提出了所谓的 Big Transfer 方案。

他们也开发了一些在当时都达到了 SOTA 的开发模型，比如 PaliGemma，这是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放式视觉语言模型 (VLM)，其在同等规模下的表现非常出色。而在论文《Sigmoid Loss for Language Image Pre-Training》中，他们仅使用 4 块 TPUv4 芯片，在 2 天时间内就训练出了一个在 ImageNet 上实现了 84.5% 的零样本准确度的模型。

他们在计算机视觉方面的很多研究成果都统一在了 Google 的 Big Vision 项目中，参阅 https://github.com/google-research/big_vision

他们近期的研究重心是统一、简化和扩展多模态深度学习，比如：

UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes，该论文提出了一种建模多样化计算机视觉任务的统一方法。该方法通过组合使用一个基础模型和一个语言模型实现了互相增益，从而在全景分割、深度预测和图像着色上取得了不错的效果。
Tuning computer vision models with task rewards，这项研究展示了强化学习在多种计算机视觉任务上的有效性，为多模态模型的对齐研究做出了贡献。
JetFormer: An Autoregressive Generative Model of Raw Images and Text，这是上个月底才刚刚发布的新研究成果，其中提出了一种创新的端到端多模态生成模型，通过
结合归一化流和自回归 Transformer，以及新的噪声课程学习方法，实现了无需预训练组件的高质量图像和文本联合生成，并取得了可与现有方法竞争的性能。

当然，这三位研究者多年的研究成果远不只这些，更多成果请访问他们各自的主页。

看来，OpenAI 这次是真挖到宝了，难怪有人说谷歌失去这三位人才会是一个战略失误。

本文源自「私域神器」，发布者：siyushenqi.com，转载请注明出处：https://www.siyushenqi.com/32735.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

siyushenqi.com

12.6K 文章

0 评论

425 问题

17 粉丝

私域神器：海外私域营销拓客软件

OpenAI放王炸！Sora、满血o1，连续12天发布最新技术！

上一篇 2025 年 8 月 13 日下午9:30

全球最鲜活的AI小猫来了

下一篇 2025 年 8 月 13 日下午9:31

Twitter野心暴露，美国网红经济全面爆发

Twitter的野心不止于此。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
198000
行业动态

OpenAI、微软、智谱AI等全球16家公司共同签署前沿人工智能安全承诺

人工智能（AI）的安全问题，正以前所未有的关注度在全球范围内被讨论。

siyushenqi.com
2025 年 8 月 13 日
129000
行业动态

如何与客户谈付款方式？

外贸谈判是环环相扣的，有一个环节没处理好就会全盘皆输。很多时候我们千辛万苦谈妥了价格，看好了产品，最后却卡在付款方式上，进退两难。比如，我们希望的付款方式是100%前T/T(发货前付清100%货款)客户希望的是30%前T/T (发货前付清30%货款)，70%D/P (70%货款付款交单)。此时，我们既不想接受客户的苛刻要求，又不想丢掉订单。因此，我们不得不…

siyushenqi.com
2024 年 9 月 20 日
567000
行业动态

海外支付渠道详细建议！

海外支付渠道详细建议！

siyushenqi.com
2025 年 8 月 3 日
150000
SLG红海化的今天，下一个机会点在哪里？

在历经多年的井喷式发展后，当下SLG领域的“红海化”已是不争的事实

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
164000
行业动态

a16z 将语音 AI 作为一个独立投资主题，行业图谱展示投资机会

自通信诞生之日起，语音就是人类相互沟通的方式，但语音从未真正作为技术的接口。而从今年开始，语音正在成为一种新的与技术互动的方式，并成为新生产力应用的核心。

siyushenqi.com
2025 年 8 月 13 日
119000
行业动态

让765万用户“对齐颗粒度”，私密社交又有新宠？共享日历玩法撬动市场新增长

社交+工具，两大赛道结合创造“新思路”。

siyushenqi.com
2025 年 8 月 17 日
131000
行业动态

累计用户超5亿，抓住下沉市场用户需求的音乐播放器，是如何在新兴市场爆发的？

深挖新兴市场潜力，只需好听、好看、好用。

siyushenqi.com
2025 年 8 月 15 日
108000
跨境电商如何选择中东当地支付公司？

以GCC为代表的中东市场越来越受到国内互联网公司的重视，我们的客户类型主要有三类：电商，游戏，泛娱乐。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
148000
行业动态

TikTok Shop跨境POP欧洲入驻标准放宽

黑五前夜，TikTok Shop欧洲跨境POP把“第三方平台经验”从必填改为选填，同时保留VAT+本地发货等合规硬门槛，等于把最难的“资历关”拆掉，让独立站与新手也能踩点入场。

siyushenqi.com
2025 年 9 月 28 日
106000
IGG这款放置手游登顶了日本下载榜

《Mythic Heroes》如何在日本手游市场成功突出重围？

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
170000
国产三消出海的春天来了？

国内厂商又在海外攻下一个品类。

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
178000
行业动态

私域神器助力WhatsApp客户活跃度提升

客户活跃度提升个性化服务的价值精准营销策略对品牌忠诚度的影响客户活跃度提升在现代营销环境中，客户活跃度是衡量品牌成功的重要指标之一。WhatsApp作为全球广泛使用的即时通讯平台，其用户活跃度直接影响着企业的市场表现。通过私域神器，企业能够更精准地了解和触达客户，从而有效提升WhatsApp上的客户活跃度。私域神器通过收集客户数据，利用人工智能算…

siyushenqi.com
3天前
11000
36氪出海·市场｜去非洲，打造下一个“国际运动品牌”？

提到非洲，很多人首先想到的是当地贫穷而动荡的环境，在此基础上，商业、品牌乃至艺术，似乎都是遥远的话题。实际上，虽然许多当地人依然过着艰难的日子，但对于美、对于体育精神、对于民族品牌的追求，并没有因此止步。

siyushenqi.com
2025 年 8 月 13 日 • 行业动态
145000
行业动态

国产AI应用持续霸榜海外，背后的字节如何稳步铺开AI出海版图？

字节AI出海应用大家族，C位竟是它。

siyushenqi.com
2025 年 11 月 17 日
106000
行业动态

《使命召唤手游》总收入突破15亿美元

Sensor Tower 商店情报数据显示，由动视暴雪和腾讯天美工作室联合推出的《使命召唤手游》自2019年10月正式上市以来，全球玩家在该游戏付费已超过15亿美元。

siyushenqi.com
2025 年 8 月 25 日
214000
行业动态

从家装到玄学，月入百万美金土耳其产商推AI新品：能画“命定之人”还能聊天

与命定之人对话，AI玄学新玩法。

siyushenqi.com
2025 年 8 月 15 日
145000
TikTok印尼惊魂夜：600万卖家，惨遭“一锅端”

当TikTok入局电商行业仅两年，就敢定下230亿美元的GMV目标时，“机会”“风口”“入局不亏”是TikTok身上承载最多的形容词。在亚马逊频频封杀中国卖家的大背景下，TikTok Shop一度是大部分中国跨境商家最重要的救命稻草与赚钱机遇，鲜有人会质疑它的未来。直到印度尼西亚政府的一纸禁令，打破了所有人的美梦。

siyushenqi.com
2025 年 8 月 12 日 • 行业动态
152000
横山克加盟，B站游戏这款异世界策略攻防手游值得期待吗？

2021年的最后一个月，B站游戏曝光了今年在二次元产品矩阵上的收官之作——《光隙解语》

siyushenqi.com
2025 年 8 月 25 日 • 行业动态
154000
行业动态

扫地机之王要造电视了，野心很大

从“扫地机器人之王”到“无边界生态”，追觅以高速马达、智能算法等自研技术为通用底座，快速复制到电视、投影仪、餐饮、航空等多赛道。

siyushenqi.com
2025 年 8 月 14 日
120000
全干货！最新TikTok妇女节红人营销攻略

两大洞察+三个策略，实现海量曝光

siyushenqi.com
2025 年 8 月 12 日 • 行业动态
113000
行业动态

腾讯、Accel等投资，德国一家AI游戏公司获1500万美元融资

腾讯、Accel Partners、Laton Ventures等参投，Born估值未披露但已跻身欧洲AI游戏赛道头部。

siyushenqi.com
2025 年 9 月 16 日
127000
行业动态

Almedia GmbH 大中华区销售经理王锦涛确认担任 GICC2025丨第六届全球互联网产业CEO大会游戏峰会演讲嘉宾！

Almedia GmbH 大中华区销售经理王锦涛确认担任 GICC2025丨第六届全球互联网产业CEO大会游戏峰会演讲嘉宾！

siyushenqi.com
2025 年 9 月 30 日
105000
大投3亿，秘密开发三年，中手游要拿出今年最炸的一款「开放世界」

中手游与它的手中的潜力股。

siyushenqi.com
2025 年 8 月 24 日 • 行业动态
142000
游戏下载量超10亿次，Rollic怎样用“抖音化”思路做超休闲游戏？

Rollic是一家超休闲手游发行商，到目前为止，这家公司游戏的总下载量已经突破了10亿次，其中有7款曾进入美国iOS App Store免费下载榜前两名。

siyushenqi.com
2025 年 8 月 3 日 • 行业动态
154000
行业动态

特斯拉Optimus人形机器人进厂打工，娴熟分装电池、自我矫正，还能走更远了

打工人「Optimus」启动。

siyushenqi.com
2025 年 8 月 13 日
115000
行业动态

谷歌开发者账号：企业号和个人号的区别对比

谷歌开发者账号：企业号和个人号的区别对比

siyushenqi.com
2025 年 8 月 3 日
125000
行业动态

六大妙招，成功踏上游戏出海之路！

全球手游市场正成倍增长，活跃玩家的数量增速更甚，玩家的构成也越来越多元。

siyushenqi.com
2025 年 8 月 3 日
145000
行业动态

游戏大厂齐聚小红书，我看到了2024年行业破圈的风口！

小红书会是下一个做游戏宣发的新大陆。

siyushenqi.com
2025 年 8 月 18 日
137000
行业动态

WhatsApp矩阵营销全流程详解：从获客到私域转化的系统打法

精准获客策略内容营销的重要性私域流量管理客户转化路径数据分析与优化精准获客策略在 WhatsApp 矩阵营销的过程中，精准获客是实现销售增长的首要步骤。通过深度分析目标用户群体的行为特征和需求，可以有效筛选出最有可能转化的潜在客户。精准获客不仅是通过广告投放来吸引新用户，还包括通过社交互动、口碑传播和内容营销等多种手段，精准锁定和吸引潜在消费者。…

siyushenqi.com
3天前
15000