首页:>> 基金会动态 >>
  • 是“世界模型”还是“代数大脑”?
  • OpenAI近日发布了在AI视频生成领域取得的重大进展——可以根据文本指令创建现实和想象场景的人工智能模型Sora。Sora能够生成长达1分钟的视频,同时保持相当程度的视觉质量并遵循用户提示,公众甚至看到了由其生成的“同一场景”下的多机位视频。不过,OpenAI也承认,当前的Sora模型还存在一些弱点——它可能在准确模拟复杂场景的物理特性时遇到困难,也可能无法理解特定情况下的因果关系。例如,当一个人咬一口饼干之后,饼干可能看起来并没有被咬过的痕迹。目前Sora还未正式对外上线,但OpenAI通过提前分享他们的研究进展,已开始与公司之外的人士合作并获得反馈,同时也让公众了解即将到来的 AI 能力。

    那么,Sora是否真如现在许多人所称的那样“能够理解物理世界”“是一个世界模型”?它是否能代表人工智能的发展方向?在苇草智酷近日举办的主题为“Sora:心影视的末日&芯影视的黎明?”的线上讨论中,北京邮电大学人机交互与认知实验室主任刘伟、中国人民大学哲学院教授刘晓力等专家就相关问题发表了自己的看法。

    “世界模型”更像是广告词而非真实情况

    纽约大学人工智能专家,也是人工智能哲学的先驱马库斯曾在20年前写过一本经典图书,题为《代数大脑》。书中讲到,像Sora和GPT这类人工智能模型的“天花板”导致这类产品不可能走得很远。刘伟介绍,Sora的底层最核心的部分包括2个基本模型,一个是扩散模型Diffusion,另一个是叫Transformer的多头注意力模型。其中,Transformer也用在了GPT这个软件上。Transformer的基本构成就是马库斯在《代数大脑》里着重阐述的多内层神经网络,也即深度神经网络。马库斯指出,多内层的神经网络具有的局限性,“代数大脑”像一棵树而不是一枚火箭,是长不大的。这意味着Sora和GPT这两个模型虽然现在让大家眼前一亮,但过段时间等光环慢慢散去之后,大家便会对它们习以为常。这个现象正符合美国科学家、未来主义者罗伊·阿玛拉在“阿玛拉法则”中的论述:“我们总是高估一项科技所带来的短期效益,却又低估它的长期影响。”

    在刘伟看来,“世界模型”更像是Sora的广告词,而不是真实的情况,真实的物理世界非常丰富,不仅包括宏观的,还包括中观和微观的,甚至量子力学的世界。Sora无论如何反映不出量子力学,它只是一个人机环境的初级产品。Sora背起了人工智能模型的一个新时代,不在于它的基本原理真的有多么新,而在于它应用了一个新的数学分支——范畴学,它能够把定量的东西反映为定性的东西,然后通过定性,转化为人类可以识别的定量。这种在定性、定量、定性之间的转换,可以产生降维压缩,把众多维度压缩成趋势空间,从指数级压缩到常数级。所有的交互既包含客观感知,也包含主观映射,这种感觉空间在Sora中也有了些体现。但它还是基于概率的,是单向、非交互式的感知。眼下各种宣传、广告,把人们搞得晕头转向,好比在黑暗中看到了一丝亮光,有人于是大叫:“太阳出来了!”实际上,那不是太阳,只是小小的星光。

    构造工具的缺陷造成对世界的误解

    刘伟指出,Sora的基本架构是深度神经网络,深度神经网络有2个基本函数——线性函数和激活函数,这两个不确定函数所导致的Sora所包含的不确定性就是Sora的天花板。机器激活的阈值一旦设定了就很难改变,它的自我调节性很差。迄今为止,GPT、Sora构造工具的不完善,造成了它们对世界的误解。而人类的激活和机器的激活不同,人类的思维是非线性的,人类的激活可调节,它的阈值是可变的。在人的系统中,存在大量的非贝叶斯(即:输入外部数据会改变系统)和非马尔科夫(即:下一时刻的状态被前面不止一个时刻的过程所决定,现在、过去和未来三者密切相关)现象。Sora的另一个底层问题是深度学习中的奖惩机制,这种奖惩机制是高智商人类不会单独用来实现其目的的。人的智能中经常出现明升暗降、奖惩倒置的状况。Sora想做到的是“非存在的有”,但是它创造这种“非存在的有”的方式、途径有问题,机器“吃”的是数据,并不是人脑所处理的信息(即有用的数据),不能将数据、信息、经验、常识融合,常常“得形忘意”;而人能够“得意忘形”,创造出有机的“非存在的有”。

    未来人工智能的发展需要新科学、新逻辑

    刘伟强调,与机器智能相比,人类的思维能力是一种综合性、全面性的能力,远远超越了简单的布尔逻辑。人类能够运用各种不同的思维方式和技巧,包括归纳、演绎、类比、直觉等,来处理复杂的问题和情境,这种能力使得人类能够适应多变的环境,做出更加灵活和智慧的决策。除了感应(提供外界刺激的信息和数据),人类还具备知应能力,即通过对外界信息的感知而产生思考、理解、分析和判断的能力,这种能力使人类能够从感知中获得更深层次的意义和理解。人类相辅相成的感应和知应能力机器还远远没有学到。人的思维中还包括很多非布尔逻辑,布尔逻辑基于真和假的二元观念,而人类可以运用模糊逻辑、归纳推理、创造性思维和进化算法等方法来进行更复杂和灵活的推理。比如,人有一个非常重要的能力,就是能够实现异质事物的微积分——不但是对同类的客观事实的这种微分或积分,而且还能实现对不同事物之间跨价值的微分和积分。微分和积分有一个很重要的特点就是异质性、跨越性非常大,大到人们用计算很难将之准确定义,人们称之为“算计”——因为人的算计也是可以跨域的。这种微积分到目前为止还未被破解,数学也无能为力,但人的智能中存在这种微积分。新的系统论里的“系统”是一个人机环境系统,不只是一个机器系统,其中不但包含了信息的数量,而且还包含信息的质量;不但可以控制客观事实,而且还可以在一定程度上有主观价值的反馈。如何将事实性的微积分和价值性的微积分切碎了进行排列组合、进行关联,这是未来的人工智能控制需要解决的问题。

    刘伟认为,未来人工智能的发展需要新科学、新逻辑。不仅人工智能领域的专业人士正在进行这方面的探索,科幻电影也是一种探索的途径。未来,改造级的科学可能会慢慢纳入一些心理学、神学等方面的内容。未来的电影对技术的启示可能超过软硬件,因为人“算计”的算力是远远超过软硬件的。同时他也提醒,随着Sora和GPT之间关联的逐渐加强,可能会带来一些影响普通人生活的隐患,比如电诈、视频造假,这也正是当前强调整个世界的安全需由各个大国负责任的底线来维护、否则将导致“双输”的原因。

    中国人民大学哲学院教授刘晓力也表示,高新技术也好、人工智能领域新的酷炫成果也好,它们的底层还是依赖于数学。她记得清华大学的姚期智教授曾经说,当他们研究人工智能遇到难题的时候,常常会去问丘成桐教授;丘成桐教授就说,这当然是算法的问题,要突破需要找到底层的数学原理。


    (来源:上海市科协网站)