
爆炸音讯——九游体育娱乐网 ViT 三大中枢作家集体下野谷歌 DeepMind。下一站:OpenAI! 他们差异是翟晓华(Xiaohua Zhai)、卢卡斯 · 拜尔(Lucas Beyer)、亚历山大 · 科列斯尼科夫(Alexander Kolesnikov)。 联系音讯已被本东谈主阐述,三东谈主均官宣了新动向。 2021 年,他们三东谈主手脚共吞并作的臆想机视觉规模神作 ViT 发布即刷新 ImageNet 最高分。 这项筹议阐述了 CNN 在 CV 规模不是必需的,Transforme

爆炸音讯——九游体育娱乐网
ViT 三大中枢作家集体下野谷歌 DeepMind。下一站:OpenAI!
他们差异是翟晓华(Xiaohua Zhai)、卢卡斯 · 拜尔(Lucas Beyer)、亚历山大 · 科列斯尼科夫(Alexander Kolesnikov)。
联系音讯已被本东谈主阐述,三东谈主均官宣了新动向。



2021 年,他们三东谈主手脚共吞并作的臆想机视觉规模神作 ViT 发布即刷新 ImageNet 最高分。
这项筹议阐述了 CNN 在 CV 规模不是必需的,Transformer 从 NLP 跨界,一样不错取得先进成果。始创了 Transformer 在 CV 规模运用的先河。
当今这篇论文被援用量已辅助4.9 万。

此外,他们还共同提议了 SigLIP、PaliGamma 等 SOTA 级职责。
几周后,他们将崇敬加入 OpenAI 苏黎世本质室。
值得一提的是,Wired 方面音讯称,三东谈主是被 OpenAI 挖走的。
网友评述:能撬动这一"铁三角"黄金组合,OpenAI 真是太侥幸了。

ViT 三大中枢作家投靠 OpenAI
Xiaohua Zhai(翟晓华)
此前他是 Google DeepMind 的高档筹议员,相易着苏黎世一个多模态筹议小组。要点筹议多模态数据(WebLI)、洞开权重模子 ( SigLIP、PaliGemma ) 以及文化包容性。
当今谷歌学术援用数超六万多。

2014 年他毕业于北京大学,获取臆想机系博士学位;本科毕业于南京大学。一毕业就赶赴谷歌苏黎世职责。

Lucas Beyer
这位相同亦然谷歌 DeepMind 苏黎世小组的一位成员,共同相易着 DeepMind 的多模态筹议团队和基础要道。
当今还是撰写超 50 篇论文,被 CVPR、NeurIPS、ICCV 等这些顶级会议接管。

据他个东谈主官网中先容,他在比利时长大,曾梦念念制作电子游戏以及从事 AI 筹议。自我认定为「自学成才的黑客和筹议科学家,奋力于创造飞凡什物」。
他在德国亚琛工业大学学习机械工程,并在何处获取了机器东谈主感知和臆想机视觉博士学位。2018 年加入谷歌。

Alexander Kolesnikov
2018 年以来,他就在谷歌大脑,现为 DeepMind 团队职责。之前主要竖立包括覆按 SOTA 视觉模子 *(从 2019 年到 2021 年齐杀青了 ImageNet SOTA);洞开权重模子(SigLIP 和 PaliGemma),以及神经架构方面的职责:BiT、ViT、MLP-Mixer 和 FlexiViT。
除此除外,编写活泼、高性能的筹议基础要道,尤其是 Jax。
此前,他在奥地利科学技巧筹议所(ISTA)攻读博士学位,筹议场合是弱监督学习和图像生成模子。

曾是谷歌 CV 的"黄金铁三角"
在谷歌任职时分,三东谈主屡次配合并带来了影响规模发展的进击职责。
其中最进击的一篇莫过于 ViT。
这篇筹议考据了 Transformer 架构在臆想机视觉规模的通用性。在它的基础上繁衍出了 Swin Transformer、DeiT(efficient Image Transformers)等。
它翻新性提议将图像分割成固定大小的块(patches),并将每个块视为一个序列元素,与 NLP 中的单词访佛。然后,这些块通过变换器进行惩处。

在很多视觉任务中,ViT 在性能上辅助了传统的 CNN 模子,尤其是在大范围数据集上进行覆按时弘扬尤为高出。举例,在 ImageNet 分类任务中,ViT 取得了与来源进的 CNN 模子相等以致更好的截至。

此外他们还配合推出了 MLP-Mixer、BiT(CV 界的 BERT)等规模内著名职责。
参考贯穿:
[ 1 ] https://www.wired.com/story/openai-hires-deepmind-zurich/
[ 2 ] https://kolesnikov.ch/
[ 3 ] https://sites.google.com/view/xzhai
[ 4 ] https://lucasb.eyer.be/九游体育娱乐网