这三位科学家在谷歌期间共同参与了Vision Transformer(ViT)的研究,这是一项开创性的工作,将Transformer模型应用于大规模图像识别任务,并取得了突破性成果。
OpenAI正在全球范围内扩张,除了在苏黎世设立办事处外,还计划在纽约市、西雅图、布鲁塞尔、巴黎和新加坡等地开设新的分支机构,以加强其在全球的影响力和研究能力。
这次人事变动反映了人工智能领域顶尖人才的激烈竞争,以及各大公司在全球范围内的战略布局。对于OpenAI来说,这三位科学家的加入无疑是一次重要的人才补充,有助于提升其在AI领域的研究和开发实力。同时,这也表明了OpenAI对于吸引和保留顶尖人才的重视,以及其在全球AI竞赛中的积极姿态。
也有人猜测,OpenAI 之所以在苏黎世设立办事处,是因为三个人都不愿意搬家。
-
论文标题:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
-
论文地址:https://arxiv.org/pdf/2010.11929
-
项目地址:https://github.com/google-research/vision_transformer
-
论文标题:Scaling Vision Transformers
-
论文地址:https://arxiv.org/pdf/2106.04560
-
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes,该论文提出了一种建模多样化计算机视觉任务的统一方法。该方法通过组合使用一个基础模型和一个语言模型实现了互相增益,从而在全景分割、深度预测和图像着色上取得了不错的效果。
-
Tuning computer vision models with task rewards,这项研究展示了强化学习在多种计算机视觉任务上的有效性,为多模态模型的对齐研究做出了贡献。
-
JetFormer: An Autoregressive Generative Model of Raw Images and Text,这是上个月底才刚刚发布的新研究成果,其中提出了一种创新的端到端多模态生成模型,通过
结合归一化流和自回归 Transformer,以及新的噪声课程学习方法,实现了无需预训练组件的高质量图像和文本联合生成,并取得了可与现有方法竞争的性能。
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/32735.html