《中国科学报》 记者 赵广立
(资料图片仅供参考)
“过去一段时间,以大语言模型为代表的人工智能技术取得了令人震撼的成绩,而这些已经让我们看到了通用人工智能的曙光。”
近日,在由深度学习技术及应用国家工程研究中心主办的WAVE SUMMIT深度学习开发者大会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰首次发表他对于通用人工智能的理解。他还表示,希望与所有开发者共建开源开放的社区,共赴通用人工智能的星辰大海。
王海峰在WAVE SUMMIT深度学习开发者大会上。图片来源:百度公司
体现人工智能核心能力的四个关键词
在一众与人工智能相关的词汇中,王海峰选出了四个词:理解、生成、逻辑和记忆。在他看来,这四个词所代表的含义,既是人工智能最核心的能力,也是通用人工智能系统应具备的最基本的能力。
“比如大语言模型要创作一篇内容,它需要‘理解’创作主题,理清创作‘逻辑’,在‘记忆’中搜寻素材,并将对素材的理解融会贯通,最后‘生成’一篇合格的文稿。”王海峰举例说,编程、解题、做规划等也同样如此:“如果一个人工智能系统具备了很强的理解、生成、逻辑和记忆能力,它就可以完成许多不同的任务。”
显然,理解、生成、逻辑、记忆这四个关键词代表的含义,也正是贯穿于人类思考过程中的能力。王海峰认为,如今,大语言模型已经初步具备了这几个方面的能力,而随着这些能力越来越强,“就会让我们更快地走向通用人工智能”。
大模型的代码能力,或许能让人更真切地看到它沿着迈向通用人工智能之路前进的态势。
王海峰说,语言是人类沟通交流的工具,同时也是思维的载体。但计算机编程语言不同于含义丰富的自然语言,它们有着严格的语法、行文格式,而且每一行代码都只能唯一被解释、被执行。因此,人类程序员们编写代码的过程,其实是一个将人的思维表达为编程语言的过程,进而就可以执行,也可以交互了。
当大语言模型也能又快又好地“写”代码的时候,事情就开始变得不简单了。
“我上学的时候,一位外语老师曾经跟我说,如果你能用外语进行思考了,那就说明你已经把这门外语学通了。”王海峰说,所以,当大语言模型能够“写”代码了,也意味着它能够将人类自然语言表达的需求用代码写出来。
王海峰说出了他的看法:“这不仅是为人们的软件开发提供帮助,更是架起了机器‘思考’和‘执行’之间的桥梁——这对通用人工智能的发展有着非常重要的意义。”
“知识就是力量”,对AI也适用
而当人们看到一些大语言模型产品“时而神时而鬼”的发挥后,便可知晓,人工智能对“理解、生成、逻辑、记忆”这些能力的修炼还不到家。
人工智能如何不断地获得并增强它在这些方面的能力?王海峰的答案是“知识增强大语言模型”。
今年3月,百度发布了知识增强大语言模型“文心一言”。5个月以来,文心一言的能力有了长足进步。今年6月在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,最新版本的文心大模型3.5在多个测试集的得分超过ChatGPT。
文心一言的进步速度超出预期。这背后,有许多值得提及的要素,比如庞大数量的优质数据、多种策略的优化、对基础模型进行“长文建模”、多任务自适应的有监督精调、多层次多粒度奖励模型的强化学习、文心和飞桨的联合优化……等等,不一而足。但在王海峰看来,重要的是,文心一言不止从海量数据中学习,也从庞大的知识图谱中汲取养分。
顾名思义,作为“知识增强”大语言模型,文心一言离不开“知识”的学习和强化。“知识就是力量”这句话,对人工智能也适用。
王海峰介绍说,百度拥有花费10余年时间构建的、超过5500亿知识的知识图谱。
在训练过程中,文心大模型如何用好这个知识图谱?王海峰回答说,有两种方式:知识内化和知识外用。知识内化即在训练过程中,通过基于语义单元的学习以及用知识图谱构造训练数据,将这些知识内化到大语言模型中;知识外用则是在知识推理、提示构建等环节直接使用知识图谱。
经过了庞大知识图谱和海量数据的“洗礼”,大模型在推理部署阶段只要少量的精调、少量的场景适配,就可以对接给千行百业,这将帮助其大大降低应用门槛。
“文心加飞桨,翩然赴星河”
在WAVE SUMMIT这个面向深度学习开发者的盛会上,王海峰对通用人工智能的憧憬,更是向数以万计开发者寻求的一种共鸣。
王海峰说,在百度开发的飞桨产业级深度学习开源开放平台上,已累计聚集了800万开发者,有22万家企业使用飞桨平台,构建了80万个模型。
早期,开发者们青睐TensorFlow、Pytorch等国际知名的深度学习框架,但随着飞桨这一国产平台的逐步完善,开发套件、工具组件、基础模型库等逐步完备,特别是过去几年里,基于飞桨百度着力打造了文心大模型家族,越来越多的开发者转而拥抱飞桨。2019年,飞桨平台只有190万开发者,4年的时间里,这一数字连续翻番。
“800万开发者、22万家企业、80万个模型,这些数字不止见证了成长,我相信更为未来打下了坚实的基础。”王海峰说,百度希望继续与所有开发者和企业伙伴共建、共创,共同推动人工智能赋能千行百业,惠及千家万户。
王海峰披露飞桨平台最新数字。图片来源:百度公司
“飞桨”一词,取自宋代文豪朱熹《即事有怀寄彦辅仲宗二兄》中的“闻说双飞桨,翩然下广津”。寓意在“飞桨”助力下,中国人工智能事业走得更快、更远。
飞桨开发者共同聚集的人工智能学习实训社区,原名为AI Studio,现在百度给它取了一个中文名“星河社区”。数百万开发者在星河社区学习、实训、提升AI能力并着力将其落地。
在WAVE SUMMIT深度学习开发者大会上,王海峰把“闻说双飞桨,翩然下广津”这联诗改为“文心加飞桨,翩然赴星河”:“希望我们和所有的开发者一起。在飞桨和文心的加持下,共建星河社区,共赴通用人工智能的星辰大海。”
标签:
X 关闭
X 关闭