独家对话智源研究院院长王仲远：中国AI发展不会被阻碍｜钛媒体AGI

发布时间：2024-06-12 22:31:20

北京智源人工智能研究院院长王仲远博士

2003年，王仲远考上了中国人民大学，在这所人文社会科学为主的高校里就读计算机系，从此爱上了这个学科，并在人工智能（AI）技术里面越走越深。

2007年，他在本科期间获得了国际顶级学术会议 SIGMOD 2007 Undergraduate Scholarship ，从而开启了王仲远的学术研究之路。

王仲远博士在 AI 学术领域深耕长达 15 年以上。从自然语言处理（NLP）到知识图谱、神经网络技术研究，从微软、Facebook（现Meta）到美团、快手，他不断深入扎根 AI 技术研究，从而让他非常相信，通用人工智能（AGI）是AI技术领域“圣杯”，也是所有AI科研人员所追寻的目标。

“AI 确实能够解决很多具体、单一任务，但对于AGI，在前几年，我依然觉得可能要四、五十年，也可能我们这一辈子都见不着了，不过，大模型和GPT的到来，让我看到了AGI不再遥远。”王仲远对钛媒体App表示。

“我意识到，AGI很可能在我们有生之年会到来，尤其AGI对我们的下一代产生重大影响，我究竟在这个过程中发挥哪些作用。”王仲远不断思考着他的未来。

他曾说，做研究，过程往往比结果更重要，做正确的事情，好结果自然会来。做学术研究跟创业一样，只有自己真正扎进去才会发现其中的奥秘。

因此，为了全身心研究 AI，王仲远做出了一个重要的决定：到智源研究院一起推进AGI研究。

2024年2月，北京智源人工智能研究院（BAAI，简称“智源研究院”）宣布，今年38岁的王仲远博士，担任智源研究院第二任院长，全面负责研究院各项工作。

同时这也意味着，智源研究院首次完成了院长的继任制度，黄铁军已于2023年6月任智源研究院理事长。

实际上，智源研究院是全球最早开展 AI 大模型的中国非营利性新型研究机构，于2018年12月在科技部和北京市委市政府的指导和支持下成立。微软总裁曾表示，有三家机构的 AI 技术处于绝对的前沿——OpenAI、谷歌和智源研究院。而该机构主办的“北京智源大会”，如今已经成为 AI 领域国际、权威与专业性的综合性行业盛会。

今年6月14日至15日召开2024北京智源大会前夕，王仲远博士与钛媒体进行了约1小时的独家对话。

王仲远对钛媒体App 表示，智源研究院从筹备建立，到当年“悟道”模型的研发，他在外部也一同见证经历并参与其中，这让他看到智源研究院对于 AI 技术前沿技术研究的全身心投入，这也是促使他加入智源的重要原因之一。

对于智源的未来发展，王仲远坦言，智源研究院定位和战略目标是始终引领 AI 前沿技术的发展，做未来3-5年的研究探索。同时，发挥第三方中立、非营利机构的优势做好公共技术支撑，解决当前产业的痛点。在研究方向上，会集中资源发展原生多模态世界模型以及具身智能，推动实现 AI 技术的下一次重大突破。

谈及最近的开源、闭源话题，王仲远指出，开源大模型不会越来越落后，而且，智源研究院会坚定支持开源开放，尤其开源技术促进了整个 AI 产业的蓬勃发展，但同时，他也希望开源项目能够得到合理使用，能够获得更大的收益和双向互通。

王仲远认为，当前美国政府对于中国 AI 技术发展加以限制，然而，美国只会延缓，但不会阻碍中国 AI 技术的长期发展，所以，《ENFORCE 法案》对于中国 AI 技术发展不会产生特别大的影响。

王仲远强调，过去几十年，中国 AI 人才储备、人才成长速度都已经有了很好的基础，即使未来美国真的禁止之后，也阻碍不了中国 AI 技术的发展，美国最终还要选择跟中国一起合作，尤其是到达 AGI 阶段，需要全球一起来联合管控 AI 带来的风险问题等。

“智源非常愿意去为中国的 AI 产业探索未来、可能的技术解决方案，我们可以试、我们可以去选择做前期的探索，有可能会失败，但这恰恰为中国科学探索贡献了自己的失败和经验，这是很好的科学研究。”王仲远表示。

以下是王仲远博士与钛媒体AGI之间的对话整理：

钛媒体AGI：今年2月，北京智源人工智能研究院宣布由你担任新任院长，那么，是什么原因促使你选择从快手、美团这样的企业离职，来到智源呢？

王仲远：今年2月1日起我正式上任，但是，我接触智源更早一些。从智源成立的第一天开始，当时我还在美团，其实就参与了智源的筹建工作。然后我在快手的时候，2022 年 10 月智源成立了第一个大模型百人团队，我当时推动了快手和智源的战略合作，并且一起参与了悟道大模型研发，包括“悟道”1.0、2.0系列模型，我都有参与。

那么，为什么我会加入智源？这跟我个人对于智源或者对于 AGI的追求有非常强的关联性。

从1943 年神经网络的诞生开始计算，人工智能技术应该有八十年的历史。我毕业之后就踏入了 AI 领域，从自然语言处理（NLP），到知识图谱、神经网络，已经做了 15 年以上的研究。知识图谱属于符号逻辑，而神经网络属于连接逻辑，一开始我就参与其中。

所有 AI 技术的研究者、工程师、从业者的最终目标，就是让机器有一天具备人类的智能，也就是所谓的通用人工智能（AGI），大家的目标都非常一致。

我们虽然做了好多人工智能，但都只能叫弱人工智能，也就是针对特定的场景、特定的任务，收集了特定的数据，训练了特定的模型，进行评估，然后能够去完成一些任务。

比如人脸识别能非常精准；AlphaGo能比人类世界围棋冠军下地更好，但是，AlphaGo依然解决不了医疗的问题，依然解决不了自动驾驶的问题，甚至都不能解决人脸识别的问题，需要针对不同的场景解决问题。因为，模型本身不具备通用性、泛化性，只能解决很多具体、单一任务。

在前几年，我依然觉得通用人工智能可能要四、五十年，可能我们有生之年无法见证。

然而，大模型技术来临，GPT 不断发布，而我作为 AI 方向的从业者，开始相信大模型带来的技术路线。因此，我在快手、美团期间也推动了从NLP到多模态大模型的开发，也确实看到了一些可能性。大模型能力被激发了，不仅能解语文题，还能解数学、物理、化学。

就我个人而言，ChatGPT已经具备了一定的理解和推理能力，从而让我认为这个世界要发生改变。

实际上，理解和推理能力是AGI非常核心、需要突破的关键点。以往，我做的很多研究，也是为了让机器能够理解人类的语言，像人类一样进行思考。一个是理解，一个是思考，这两个能力都被GPT在某种程度上突破了，有了重大的技术提升，因此，离AGI的目标越来越近了。

基于上述判断，我在思考GPT 这种大模型技术路线，确实有可能在四、五年内实现AGI。这也意味着，我们有生之年可能见到 AGI这一“圣杯”，这是所有 AI 从业人员一直追求的梦想。

还有一个很有意思的小故事。去年 3 月，我到孩子的小学分享了AI 技术，有一位小女孩就站起来问我说，“叔叔，如果 AI 什么都能做了，将来我们做什么？”

这个问题一直萦绕在脑海里，我第一次意识到，AGI 时代真的要来了。一方面我们希望推动 AI 技术尽快达到 AGI 水平，但另一面，我们这一代、下一代都会与 AI 共存，这对人类意味着什么？到底是一件好事，还是一件坏事？其中的风险是什么？我在这个过程中可以发挥哪些作用？

2024北京智源大会嘉宾介绍

智源本身是一个非营利性机构，聚焦 AI 前沿研究，能让我有机会全身心专注于 AI 这件事。同时，不管是悟道大模型系列的发布，还是智源大会所构建起来的良好生态，都推动和支撑了中国 AI 行业向前健康发展。这都对我触动很大，也是我加入智源非常重要的原因。

钛媒体AGI：快手最近内测了文生视频产品“可灵”，受到广泛关注和好评，被认为是“中国版 Sora”，您认为评价此次快手可灵的产品效果？智源则要往哪个方向发展？

王仲远：这（可灵）是我原来的团队研发的，当时还是我在快手的时候就在布局文生视频项目，团队同学非常优秀，我觉得这代表了当前产业界的最高水平、真实水平。

可灵是基于DiT（Diffusion Transformers）架构，这个架构被OpenAI的 Sora验证过了，这次智源大会也会请Sora负责人和DiT提出者。实际上，国内绝大部分的企业（大公司、创业公司）都选择DiT架构研发 AI 视频生成，因为它的效果确实很惊艳。但是我们认为它（DiT）不会是将来的终极路线。

智源研究院会选择另一条终极路线。

我们认为，未来技术形态一定是原生、统一的语言文字图片视频模型，真正的多模态进、多模态出的技术体系，而且要不断容纳更多模态数据做成统一框架。目前，我们正在做这方面的训练和探索。

智源作为一家科研机构，要更往前一步探索，不去复现行业路线，而是去做真正的下一代技术路线。在这个过程中，确实需要依赖大数据、大算力，模型训练周期也很长，最终还要进行效果评估，资源消耗很大，带有大量不确定性，这对于现在的科研而言还是非常有挑战。

通往 AGI 这条路径依然是资源消耗型，并且看起来还没到尽头，这既是好事也是坏事，好事是AGI确实有可能实现，坏事是资源消耗也带来了很多资源浪费。

钛媒体AGI：这轮智源的大模型发展模式，到底是像之前研究“悟道”时候那样形成“田忌赛马”，还是要统一整合团队研发模型？

王仲远：我认为还是资源集中。

现在大模型的发展，本质是一个算法系统工程。它不是简单的算法突破，也不是简单的工程，而是需要数据团队、系统团队、算法团队、评测团队等紧密配合、持续迭代，所以，大模型是非常庞大且复杂的系统级工程。

国内“百模大战”导致资源相对分散，并不能真正一个很好的技术路径，而真正的路径需要集中资源进行大模型训练。

一、两个科学家就能做出震惊世人的结果的难度越来越大，大模型是需要团队作战算法类的系统性工程。

例如，假设有2000张卡，两个团队PK，每个团队只能分1000张卡，这1000张卡训练的模型效果不如2000张卡，这是非常确定的，因为参数模型、算力、数据需求同步增加带来的效果非常有限，所以大模型需要一个算法架构师协同不同类型团队，服务一个共同的目标，才有可能做好。

钛媒体：智源不仅做悟道大模型，而且还公布了大模型评测体系。这种既做“运动员”又做“裁判”，我们如何理解智源研究院的定位“边界”？

王仲远：这是一个很好的问题，这其实也涉及到智源整个定位和战略目标升级：始终引领人工智能前沿技术的发展，做未来3-5年的研究探索，同时，发挥第三方中立、非营利机构的优势做好公共技术支撑，解决当前产业的痛点。

从智源悟道 1.0、2.0 MoE 模型，到去年 3.0，整体不仅参数量变大，而且趋向于实用化。而且智源也一直秉承开源开放的路线，过去一年开源模型下载量超过了4700万次，是非常令人惊艳的。这是我们对产业做出的贡献，同时我们也建立整个社区和生态。

那么，进入新的阶段，智源定位到底是什么？

首先，大语言模型已经有相对成熟路线，我们需要很好地支撑他们。智源作为一个非营利性第三方中立机构，没有利益诉求，这是天然的站位。倘若行业出现“劣币驱逐良币”的情况，不利于整个产业的发展。因此，我们会通过模型评估告诉行业哪些是实力强者，评估遵循一个基本原则，即科学、权威、公正、开放。

其次，数据对于大模型而言至关重要，所以智源也在牵头建设数据集。今年智源大会上会公布两个数据集：一是千万级高质量开源指令微调数据集，二是开源中英文行业数据集。此外，我们还在牵头做版权机构谈数据使用，使得高质量数据进一步促进模型开源开放。

这都是智源正在做的对产业界的公共技术支撑。

再次，另外一方面，作为一家研究机构，我们要始终朝着未来 3-5 年的AI 发展方向努力，当大家都在“卷”语言模型的时候，我们会针对多模态大模型、具身智能大模型、生物计算大模型这些前沿方向进行探索。

其中，多模态是公认的重要技术路线，也是近两年火热的发展方向，多模态模型能够让 AI 感知这个世界，而这条技术路线等 AI 发展到这一天时，会形成数字智能体。

数字智能体一定会与硬件结合，进入物理世界，这就是“具身智能”。所以在我看来，“具身智能”是未来5-10年智源研究院会坚持探索的一个技术路线，这和整个产业方向上有比较明显的差异。

最后，当依然有技术路线可以研究和探索时，智源研究院会非常坚定的发展我们认为最有可能的技术路线，希望能把这条路走通，即使失败了，我觉得作为一个科学探索，依然非常有价值，这是一个研究机构应该做的事情。

所以，智源愿意去为中国的 AI 产业探索未来可能的技术解决方案，我们可以去选择，去做前期的探索，有可能会失败，但这恰恰为中国科学探索贡献了自己的失败和经验，这也是很好的科学研究。

钛媒体AGI：最近行业里面有一种说法“开源就是落后”，最近斯坦福大学也承认套壳了中国的大模型技术，那么你怎么看待开源、闭源带来的风险和战略优势？

王仲远：我个人谈谈开源、闭源的想法。

第一，我觉得开源确实极大地促进了过去几十年计算机领域的发展，大家论文都是公开的，而非只依靠专利。开源社区有很好的项目和生态，进而促进了整个产业发展。所以从某种意义上来说，开源对于 AI 技术的快速发展有重大的推动作用。当然，这也会带来很强烈的竞争和优胜劣汰。

我肯定支持开源，智源也在开源开放这件事情上做出了非常独特的贡献。

但是，我们希望探索更好的开源生态的机制。智源也做了很多无偿的贡献，这种单方面输出和贡献，很难持续实现开源生态的长期健康发展，我们需要更多的开源基金会支持开源开放的生态氛围，希望促进全球人工智能领域的共同发展。

第二，对于斯坦福大学套壳这件事，我们可以很清晰看到，国外的同行也在使用中国的开源项目，这本身就证明了中国开源项目做得足够的优秀。尽管整个事情在使用上出了问题，但我认为这不会对开源生态产生影响。整体上，开源还是促进了整个产业的发展，这是一个根本性的结论。但同时我们也希望开源项目能够得到合理使用。

钛媒体AGI：近期，美国众议院外交事务部委员通过了一项旨在严格管控 AI 技术出口的《ENFORCE 法案》，不仅限制了 AI 系统和大模型的出口，一旦法案通过，持有 H1b 签证的中国员工或留学生可能需要特殊许可才能在美从事 AI/ML 相关工作。那么，这种限制大模型出口对行业有怎样影响？

王仲远：我认为，这（美国）始终会延缓，但不会阻碍中国 AI 产业的发展，我个人认为不会产生特别大的影响。

有四方面原因：

1）国产大模型已经突破GPT-3.5、无限接近 GPT-4 的阶段，甚至在某些能力上已经超越GPT-4，中国的模型已经越过了很关键的门槛。过去一年，从整个国内算力搭建、模型算法、训练研究来看，大家的信心是越来越足，也使得模型达到了一个可用的、产业化的水平，这意味着未来可能形成一个正循环。当然，我们也要看到差距。

2）另一方面，AI 技术依然在不断突破和创新。中国有了现在的基础，即使未来美国真的禁止，也许会延缓，但阻碍不了中国 AI 技术的发展。这就意味着，美国最终还要选择跟中国一起合作，尤其是到达 AGI 阶段，需要全球一起来联合管控 AI 带来的风险问题等。

3) 事实上，GPT最新技术不开源，也没有论文，中国本身就是自己寻求技术突破，因此，即使法案通过，会有一些影响，但不是根本性的问题。

4) 谈到人才交流，这几十年，中国 AI 人才储备、人才成长速度都已经有了很好的基础。那么，中美关系带来的 AI 算力限制，人员、技术交流的障碍，会不会对我们有一些影响？肯定有影响，但是这种影响，始终只能是延缓，但阻碍不了中国 AI 产业发展。

钛媒体AGI：很多人都将Scaling Law（规律效应）奉为圭臬，但最近田渊栋等人提到对于Scaling Law的反对意见，或者认为Scaling Law路线不一定的非常精确，您如何看待？Scaling Law是否就是AI技术发展的唯一定律？

王仲远：首先我是相信Scaling Law 的。

Scaling Law并不是一个新的事物，而是整个 AI 技术发展都一直都存在得。每一波 AI 技术浪潮，本质上都来源于算力、数据和参数量的提升，所以Scaling Law将持续影响 AI 技术的发展历程。

但同时，我认为还有几点关键因素，第一、互联网的数据已经基本都被用完了，但很多的多模态数据、世界数据、行业数据依然非常多；第二、未来 AI 能否提升，取决于GPU 集群能耗是否能继续扩大、参数量扩大、模型能否迅速收敛，如果这些都具备，我们能看到无限逼近人类，乃至于超过人类的 AGI 时代。

钛媒体AGI：周伯文教授将要担任上海 AI 实验室的院长。一直以来，北京智源和上海 AI 实验室被经常做对比。那么，您是如何看待两家机构的竞争？

王仲远：祝福周老师在新的工作中越来越好。

（本文首发于钛媒体 App，作者｜林志佳，编辑｜胡润峰）

（责编： admin）

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：goldenhorseconnect@gmail.com

独家对话智源研究院院长王仲远：中国AI发展不会被阻碍｜钛媒体AGI

以下是王仲远博士与钛媒体AGI之间的对话整理：

相关阅读

最新文章

科技推荐