Top Players | OpenAI:和游戏走得最近的全球顶尖人工智能“公司”

OpenAI成立之初,就以创造通用人工智能(Artificial General Intelligence,AGI)来解决更多科学难题,以及实现人工智能民主化为使命。

image

OpenAI对游戏领域的AI应用探索丝毫不逊于它的头号对手——缔造出Alpha GO的DeepMind,除了组建了Dota2战队OpenAI Five在2019年4月,以2:0的比分碾压了当时的全球冠军OG之外,更出名的是推出了语言生成模型GPT(目前最新一代是GPT-3,用户只要为其提供一小段文字,它就能根据自己的理解编写余下内容,例如小说、新闻等)和人工智能图像生成器DALL-E(可以通过文字的描述生成对应图像,可以理解为图像产物版GPT)。这两个产品可以在游戏领域得以广泛应用。

image

但这个以人工智能民主化为愿景,成立时自称“非盈利”的机构,却在2019年接受了微软10亿美元的投资,让微软成为其独家云供应商,与微软合作开发Azure AI超级计算技术,并授权微软对其部分技术进行商业化。

不知道是该唏嘘成年人的世界没有对错只有利弊,还是该感叹屠龙少年终成恶龙……

发展历史

  • 2015年10月,Elon Musk(特斯拉和SpaceX创始人)和Sam Altman(Y Combinator前总裁),以及其他一些投资人共同宣布成立人工智能(AI)研究实验室OpenAI,并计划投入10亿美元资金从事“以有益于全人类的方式促进和发展友好人工智能”的研究。他们将通过向公众开放其专利和研究内容的方式,来与其他机构和人员进行自由合作。

  • 2016年4月27日,OpenAI发布其强化学习(Reinforcement Learning)研究平台OpenAI Gym

  • 2016年12月5日,OpenAI发布Universe软件平台,用于通过全球的游戏、网站和其他各类应用程序来训练AI的通用智能。

  • 2018年2月21日,Elon Musk辞去了OpenAI的董事会席位,原因是该工作与特斯拉自动驾驶AI的开发在未来存在潜在的利益冲突。但Elon Musk依旧是OpenAI的捐助者。

  • 2019年3月,OpenAI进行了重组,成立了名为“OpenAI LP”的子公司,该子公司归属于OpenAI Inc.(也就是OpenAI的非营利组织),并规定 OpenAI LP 对 OpenAI Inc. 的义务通常要放在首位。该公司是一个“有限利润(capped-profit)”(100倍)公司。有限利润是指:如果现在给OpenAI LP投资1000万美元,那么只有在这1000万美元创造了10亿美元的回报之后,超出10亿美金的部分才会归OpenAI Inc.所有(以后加入的投资人享受的倍数可能会低于100倍)。OpenAI的成员以雇员的身份加入了OpenAI LP并持有其股权。同时,OpenAI接受了微软10亿美元的投资。

  • 2020年6月,OpenAI发布了GPT-3,如前介绍的,这是一种通过互联网上数万亿个单词训练出来的语言模型。同时还发布了一个附属的API,名字就叫作“the API”,以构成其第一个商业产品的核心部分。

产品一览

  • Gym

OpenAI Gym是一款用于研发和比较强化学习算法的工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。它与其他的数值计算库兼容,如tensorflow 或者theano 库。主要支持的是python 语言。

  • RoboSumo

一个机器人相扑游戏。在该游戏中由AI控制的角色进行相扑对抗,但这些角色从一开始甚至连走路都没有学会。它们不得不在规则下反复进行学习,以赢得比赛的胜利。经过大约10亿次的对抗,它们开发出例如蹲下这样的有效策略。

  • Debate Game

2018年OpenAI推出了Debate Game(辩论赛),以教育机器在人类裁判面前就玩具问题(Toy Problem,玩具问题没有科学上立即的重要性,不过可以作为工具,和其他人说明一些更复杂问题中的一些特征,或是用来解释一些问题求解上的技巧。玩具问题常用来展示及测试不同的方法,研究者也常用玩具问题来比较不同算法的性能。)进行辩论。

  • Dactyl

Dactyl是仿真机器手,使用机器学习从头开始训练,使用与OpenAI Five相同的强化学习算法代码。据OpenAI团队在2019年10月发布的消息称,Dactyl已经学会了单手解决魔方问题。

对于OpenAI而言,Dactyl的成就让公司向更广泛的AI和机器人行业长期追索的目标又更进了一步:无需数月乃至多年的训练,无需特定编程,机器人也可以学习并执行各种现实世界中的任务。

image

  • GPT

语言模型生成式预训练(GPT,Generative Pre-Training )的原始论文由Alec Radford及其同事撰写,并于2018年6月11日以预印本的形式发布在OpenAI的网站上,这正式宣告了GPT的诞生。它展示语言的生成模型如何通过对具有连续长文本的多样化语料库进行预训练,以获得世界知识以及处理长程依赖性。

2020年5月推出的GPT-3引发了网络热议,因为其参数量比当年2月发布的全球最大的深度学习模型Turing NLP 要大10倍,而且不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。

OpenAI的研究人员在论文中描述GPT-3是一种具有1,750亿个参数的自然语言深度学习模型,比以前的版本GPT-2高100倍。该模型经过了将近0.5万亿个单词的预训练,并且在不进行微调的情况下,可以在多个NLP基准上达到最先进的性能。

image

  • 音乐

MuseNet (2019年发布) 是一个深度神经网络,训练用于预测MIDI音乐文件中的后续音符。它可以用 15 种不同风格的 10 种不同乐器生成歌曲。

Jukebox (2020年发布) 是一种开源算法,用于生成带有人声的音乐。在对 120 万个样本进行训练后,系统在接受指定的流派、艺术家和一段歌词后,就可以输出歌曲样本。OpenAI 表示这些歌曲“表现出本地音乐的连贯性,遵循传统的和弦模式”,但承认这些歌曲缺乏“熟悉的更大的音乐结构,例如重复的合唱”,而且Jukebox和人类创作的音乐之间“存在重大差距”。

  • DALL-E和CLIP

DALL-E 是一种 Transformer 模型,它根据文本描述创建图像,由 OpenAI 于 2021 年 1 月公布。而CLIP则正好与DALL-E相反,它是为给定的图像创建描述。

DALL-E 使用 GPT-3 的 120 亿参数版本来解释自然语言输入并生成相应的图片。它能够创建现实物体的图像(例如“带有蓝色草莓图像的彩色玻璃窗”)以及现实中不存在的物体(例如“具有豪猪纹理的立方体”)。

下图是DALL-E 在得到文本提示“一个戴着蓝色帽子、红色手套,穿着绿色T恤和黄色裤子的企鹅宝宝表情包”时生成的图像。

下图是DALL-E在得到文本提示“长颈鹿龙结合体的专业高质量插图,模仿龙的长颈鹿。由龙制成的长颈鹿”时生成的图像。

  • OpenAI FIVE

OpenAI Five是由五个 OpenAI 控制的机器人组成的战队,这些机器人比赛的游戏是5V5电竞游戏Dota 2。这些机器人通过反复的试验算法的学习,完全能以高水平与人类玩家对战。

在组成五人团队之前,OpenAI Five的第一次公开表演是在TI7,这是该游戏的年度冠军赛事。乌克兰职业选手Dendi在现场1v1对决中输给了机器人。比赛结束后,OpenAI 的CTO Greg Brockman 介绍道,该机器人使用了一种强化学习的形式,通过在几个月内每天数百次与自己对战来进行学习,并会因杀死敌人和获取地图目标等行为而获得奖励。

2018 年 6 月,机器人的能力扩大到可以组成一个完整的五人团队,他们能够击败业余和半职业玩家组成的团队。在TI8上,OpenAI Five 与职业选手进行了两场表演赛,但最终都输掉了比赛。

2019年4月,OpenAI Five在旧金山的一场现场表演赛中以2:0击败了当时的卫冕世界冠军OG。

机器人最后一次公开露面是在当月晚些时候,在为期四天的公开在线比赛中,他们总共参加了 42,729 场比赛,赢得了 99.4% 的比赛。

为什么商业化?

根据OpenAI的介绍,OpenAI在进行了商业化的组织架构调整后,被改组为:

  • OpenAI Nonprofit:仍然主攻技术研究,通过开发新的 AI 技术,而非商业产品来创造出最大的价值。

  • OpenAI LP: “有限盈利”(capped-profit) 公司,负责提升筹集资金的能力,增加对计算和人才方面的投资,确保通用人工智能(AGI)有益于全人类。

同时,他们解释转型的原因为:

  • 我们的使命是确保通用人工智能(AGI)有益于全人类,主要方式是通过尝试建立安全的AGI并与世界分享利益。

  • 为了加快人工智能技术的研究进展、拓展研究规模,我们需要投资数十亿美元用于大规模云计算、吸引和留住人才,以及建造人工智能超级计算机。

  • 我们希望提高我们在履行使命的同时筹集资金的能力,而且我们所知的现有法律结构都没有达到恰当的平衡。我们的解决方案是创建OpenAI LP作为一个营利性和非营利性的混合体,我们称之为“有限利润”公司。

OpenAI承认:它不可能在以非盈利机构运营的情况下筹集到实现他们愿景和目标所需要的资金,因为投资人根本没法立即看到回报。

其中人力成本是最为显著的因素,因为OpenAI要和谷歌、Amazon、Facebook等企业竞争AI、云计算方面的专家。除此之外,开发成本和硬件(算力)成本也非常高。

正如OpenAI首席科学家Ilya Sutskever在Reddit上发表的评论所言:“如果我们不大幅增加我们的计算投资,就不可能保持人工智能研究的最前沿,更不用说构建AGI了。无论AGI是什么,它都不会便宜。”

人工智能民主化

Musk曾经提到,在推动人工智能发展的同时,人类会创造出我们所担心的东西。但尽管如此,他认为最好的防御措施是“让尽可能多的人拥有人工智能(人工智能民主化),如果每个人都有人工智能的能力,那么就不会有任何一个人或者一小撮人可以拥有人工智能的超级力量。”

这应该就是在OpenAI创立时是一个非盈利组织,并且准备从事“以有益于全人类的方式促进和发展友好人工智能”的研究的原因了。其主要模式是通过向公众开放其专利和研究内容的方式,来与其他机构和人员进行自由合作。

但在2017年,OpenAI仅在云计算上就花费了790万美元,占其业务支出的四分之一。尽管如此,相比它的主要竞争对手DeepMind,这笔钱仍然少得可怜。DeepMind在2017年的总支出达到4.42亿美元。

而在2018年夏天,仅仅是训练Dota 2机器人OpenAI FIVE,就需要从谷歌租借128,000个CPU和256个GPU,持续数周。

所以在2019年,OpenAI LP被成立,利润封顶的模式看起来似乎可以两全其美。公司可以合法地吸引风险基金的投资,并且向员工派发股份,以吸引到更多更好的人才。但“100倍”之上的利润才会被用于公益性的研究,更多被视为OpenAI已经完全“投降”,因为类似的商业公司的盈利能力能够超过20倍的就已经是凤毛麟角了。

行业中不少人士对非营利性机构过渡到有盈利上限的公司这一模式持怀疑态度。他们虽然同意非盈利机构很难吸引到顶级的研究人员,但又并不同意非盈利机构就一点竞争力都没有的说法。他们认为:“如果有大资金总是好的,那么IBM仍将是世界第一。”

所以OpenAI LP的设立,被认为是OpenAI已经放弃人工智能民主化这一理想的标志。就像Vice News记者写到的:“一般来说,我们从来没有能够依靠风险资本家来改善人类。”

OpenAI LP的分工

在这篇博客里,OpenAI详细描述了OpenAI LP成立的情况,其中也介绍了OpenAI LP的分工。

OpenAI LP 目前大约有 100 名员工,负责三个主要部分:

  • 能力(扩大 AI 系统的能力范围)
  • 安全(确保 AI 系统符合人类价值)
  • 策略(确保对此类系统进行恰当的管理)。

OpenAI Nonprofit 负责管理 OpenAI LP,运行OpenAI Scholars、OpenAI Fellows 等教育项目,并主持策略方面举措。

OpenAI LP 将以更快的速度和更大的规模继续推进 OpenAI Nonprofit 所创建的发展路线图,OpenAI Nonprofit 在强化学习、机器人和语言方面已经取得了很大突破。

重要论文链接

Multimodal Neurons in Artificial Neural Networks

Zero-Shot Text-to-Image Generation(DALL-E)

Learning Transferable Visual Models From Natural Language Supervision(CLIP)

Generative Pretraining from Pixels( Image GPT)

Language Models are Few-Shot Learners(GTP-3)

Jukebox: A Generative Model for Music

Dota 2 with Large Scale Deep Reinforcement Learning(OpenAI FIVE)

Learning Dexterous In-Hand Manipulation(Dactyl)