第三章 Web 3.0 谷歌式科学

一个巨大的以PB级计数的信息数据库曙光般的出现,足以改变我们学习的方式。科研工作的传统方式需要构造一个符合已有数据的假说,或者依靠这个假说来寻找新数据。现在这个数据库里有大量观测数据,为了让我们能够展开下阶段的观测,什么理论能充分地解释它们呢?

可被证实的是,数量惊人的数据足以跳过理论部分进行预测观察。谷歌是首先注意到这一现象的。以谷歌的拼写检查为例,当你用谷歌搜索的过程中出现拼写错误时,它会给出拼写正确的搜索建议。谷歌是如何知道你要写什么词并预测其正确拼写方式的呢?这并不是因为它有正确拼写的理论或掌握了拼写规则,事实上,谷歌对拼写规则一无所知。

相反,谷歌运行的是一个非常庞大的数据库,该数据库显示的是任何单词的给定拼写观测数据,这些数据记载了诸如多少人在想说“yes”的时候意图拼写字母“y”之类的数据。谷歌的拼写引擎完全由这些数据点而非英文的正确拼写概念构成,这也是同一系统可以纠正任何语种拼写错误的原因。

事实上,这个通过研究海量数据的理念被谷歌运用在了其翻译项目中。通过匹配大量人工翻译材料,谷歌翻译可以进行英译法、德译汉。例如,在训练其法英翻译引擎时,谷歌录入了大量英法双语版的加拿大文件。谷歌翻译引擎没有语言理论知识,尤其是法语,也没有人工智能翻译,相反,它们有的是不计其数的数据点,这些数据点聚集了各语言之间由此及彼的数据链接。

一旦你调整好这个翻译系统,它就可以将一种语言翻译为另一种语言,而且翻译效果还不错——虽然还没到翻译家的水平,但起码也能翻出要点。当你访问一个中文网站的时候,你能知道在英文中它大概是什么意思。谷歌研发负责人彼得·诺维格(Peter Norvig)曾经对我吹嘘道:“我们中文翻译引擎的相关工作人员中,没有一个会说中文。”整个翻译工作与中文理论和对中文的理解毫无关联,重要的只有数据。(如果有人在找希尔勒的“中文房间”(Chinese room)的反证,这里就有一个。)

如果你可以学会如何拼写一种语言,却对其拼写规则和语法一无所知;如果你能学会如何翻译几种语言,却缺乏所译语种语法的理论和概念;那么,在这种缺乏理论的情况下,你还能学会什么呢?

在本月《连线》杂志的封面文章中,克里斯·安德森探索了这样的想法:也许你可以在对理论一无所知的情况下搞科学。

在当下的世界中,大量的数据和应用数学取代了能够施加的其他每种工具。涵盖了从语言学到社会学的一切人类行为理论。忘记那些分类学、本体论和心理学吧,谁知道人为什么在做他们所做的事情呢?重点在于他们在做这些事情,而且我们可以以前所未有的高准确度追踪和测量它们。在数据面前,那些数字自己会说话。

以PB计数的数据允许我们放言:“我们已经掌握了足够的关联。”我们可以停止寻找模型,我们可以直接分析数据而不必再假设它显示些什么,我们可以把数字投入世界上最大的计算机群,让统计概算去发现其中科学不能发现的模式。

这个观测可能有点道理。许多科学,诸如天文学、物理学、基因组学、语言学和地质学,目前都生成了极其庞大的数据组和稳定的、以PB计的数据流,未来十年间它们将以EB计数。使用老式的“机器学习能力”,计算机可以在数据的海洋中提取各种模式,而人类却没有任何在其中检测模式的能力,而这些模式正是关联。这些观测也许能引起关联,也许并不能,但我们可以从中学到新东西。因此,虽然没有遵从传统方式,但它们能够胜任科学所做的事情。

安德森的上述建议实际上意在表明足够关联的有效性。关联同样适用于医疗保健,大量诊治是建立在相关方法之上的。医生可能无法确定或理解患者致病的真正原因,但他(她)能够正确推测病因并治疗病症。这样的做法科学吗?你可以解决问题,但如果你没有建模的话,人们还能寄希望于这种解决问题的方式吗?

上述问题的答案我们尚不知晓。这种方法的科技术语是“数据密集型可扩展运算”(DISC),还可以用其他术语表述为“网格数据结构”或“千兆级数据密集型运算”。这些技术的重点在运算的数据密集型本质,而非集群计算本身。在线业内人士称此种研究方法为“分析法”,诸如谷歌、IBM、雅虎这样的云计算公司及部分高校已经就此方法组建了工作室进行研讨,这些技术先锋试图从根本上利用云计算或统一体机器来进行大规模科研。目前在用的工具多为大规模并行软件平台,包括像MapReduce和Hadoop,它们可以进行廉价存储,且拥有庞大集群的数据中心。到目前为止,除基因组学之外,很少有科学家采用这些新工具。NSF的集群探索计划的意图在于把那些拥有大型数据基础驱动观测的科学家,与那些具有计算机联网或云计算相关知识和专长的计算机科学家相匹配。

我的猜测是,这种新兴方法在科学方法的演进过程中将是一种额外工具。它并不会取代任何现有方法(不好意思,科学是永无止尽的),但它必将推动建立理论导向的科学。让我们把这种数据密集型解决问题的方法称为“相关性分析”。我认为克里斯·安德森将其论题命名为“理论的终点”是在浪费一个独一无二的机会,因为“理论的终点”是个否定概念,是某物的缺失。相反,这应该是某物的开始,当你用一个正面的名字命名某物的时候,这也是一个加速其面世的机会。一个非否定的命名将有益于阐明论题。我建议将之命名为“相关性分析”,它比“没有理论”要好,因为我也不能完全肯定这些相关系统不需要模型。我觉得在系统中有个新兴的、无意识的隐含模型,它会生成答案。即便谷歌中文房间的英语工作人员中,没有一个人知道任何中文理论,我们也仍然认为其中是含有理论因素的。模型可能超越系统创造者的认知和理解,而且既然它在运行,那也就没有究其根本的必要。它就在那里,用一种我们无法企及的水平运行着。

模型的“隐形”与其运作毫无关联。它并非理论的终点,而是我们已知理论的终点。作为对克里斯·安德森文章的回应,乔治·戴森的表述可能更为清晰:

长久以来,我们一直沉迷于这样一个观点,即人类大脑在某种程度上包含着现实世界的“模型”,一旦类似“模型”被编入人工智能,它将拥有同样功能。“模型”是什么?它包含两个要素:1)能运转的物;2)我们能理解的物。不管是GenBank还是谷歌,这些大型的、分散式的、PB级的创造,都正在试图用运转得还不错、但我们不必了解的方式把握着现实世界。

就算把大脑拆到神经元都不剩,我们也找不到“模型”到底在哪。即便如此,真正的人工智能也将应运而生。它并不需要源源不断的模型或智力理论——现实世界已经解决这些问题了。

在任何可能的定义下,“超维”(或类似凯文的“统一体机器”之类的东西)正在开始思考,尽管这既不意味着它在以我们的思维方式进行思考,也不等于我们能够理解它的思维方式。

克里斯·安德森暗示的是,能够从事科学(以及杰出的商业)的人,将不仅能够直接读懂自然,同时还能找出路径读懂超维。

集中成千上万的数据点,用统一体机器运算并给出相关答案,乔治·戴森所建议的这种新方法不单可用于科研,同时也可被视为与新型科学家沟通的方法——这些新型科学家可以在我们无法掌控的超计数学领域的抽象水平上创建模型。

迄今为止,相关性分析或者谷歌式科学主要被应用于诸如语言翻译、市场行销之类拥有庞大数据的领域,我们的集体在线生活正是这无法计算的数据的来源。随着我们对自然的观察和测量达到全天候,随着各种传感器和探头的激增和实时监测的展开,科学也将进入超计数学领域,并可被相关性分析的新工具轻而易举地处理。在这个新领域中,我们会得到一些我们不理解但可解决问题的答案——这些答案是局部认知吗?抑或是一种不同的认知?

也许“认知”和“结果”都高估了数字科学。传言巴勃罗·毕加索(Pablo Picasso)曾这样说过:“计算机的问题在于它只给你结果。”这些数据驱动的庞大关联系统会给出很多结果——当然它们都是好的——但这也是它们唯一能给我们的东西。“给我们好答案”正是超级电脑所做的事情。在云计算的未来世界,完美的答案将成为一种商品,而问些好问题则成为非数字科学的唯一价值。

2008年6月28日