《星球Google:我们的生活将怎样被一家公司彻底改变》

下载本书

添加书签

星球Google:我们的生活将怎样被一家公司彻底改变- 第12部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
  那一年的早些时候,谷歌的奥奇在一个公开的场合谈及机器翻译的结果时,谈到了谷歌最好的一面:这个组织致力于不断开拓信息传播的广度,看不出它对自己的商业利益的关心。他说,如果听众中有人打算亲手建设一个机器翻译的算法,谷歌很愿意提供帮助。谷歌同非营利###的宾夕法尼亚大学的语言数据联盟(Linguistic Data Consortium)合作,一开始就以运费的名义提供了一套包含必要的基础训练数据的DVD,这套数据列举了各种词语组合——其长度(技术术语表示为precounted n…grams)从1个词到5个词不等——的使用频率,它们的基础就是谷歌的爬行器从Web中搜集来的上万亿个词汇量的英语文献。
  统计机器翻译依靠平行文本向“算法”输入信息——奥奇说,至少要输入1亿字左右的平行数据,才能建立一个能够产生理###可以接受的结果的翻译系统。对于平行文本的这种依赖,限制了适用于机器翻译的语言配对的数量。目前,还没有足够的双语文本可赖以创建一个(比如说)直接从希腊语翻译为泰语的系统,所以在这样一个过渡时期,桥梁###语言——如英语——就必不可少。机器翻译最终能否将任何语言的文本直接翻译成任一其他语言?采用基于理解语言学和建立中介###源语言等方法有无必要?这些问题都还没有明确的答案。迄今为止,人们看到的是,似乎只要有了足够大量的数据,不可能的任务也会变为可能。
  谷歌程序的速度令人震惊,人们也有理由对它持乐观的期待。它的统计机器翻译所提供的服务从2007年春天的3种源语言增加到了13种,然后是23种,这都是在不到一年的时间内取得的。公司不仅能提供从非英语到英语的翻译,而且能在这23种源语言中的任两个语言之间实现互译。截至2008年5月,这些语言是:###文、保加利亚文、中文(包括简体中文和繁体中文)、克罗地亚文、捷克文、丹麦文、英文、芬兰文、法文、德文、希腊文、印地文、意大利文、韩文、日文、挪威文、波兰文、罗马尼亚文、俄文、西班牙文、瑞典文和葡萄牙文。
  机器翻译项目证明了谷歌是如何被“更多的数据是更好的数据”这一信条所驱动的。在信息产业,完全###——无论是就一个信息目录的完整###而言还是就包括的目录的穷尽###而言,都是至为关键的因素,因为数据达到前所未有地多,只会使算法的智能化水平变得前所未有地高,这反过来又巩固了谷歌的领先地位,把对手更远地甩在身后。
  谷歌以免费电话为基础的信息服务,1…800…GOOG…411就是一个很好的例证。这项服务运用声音识别软件来提供本地企业的电话号码咨询。这项服务不收费,也不夹带广告。谷歌的玛丽莎·梅耶尔在2007年10月的一次谈话中承认,她也怀疑谷歌是不是会变成一个公益###机构。但她并不担心,因为谷歌是利用这项服务搜集音素,而不是赚取利润。她说:“我们必须建成一个可用于各种不同事物(包括视频搜索在内)的更大的从话语到文本的模型。”谷歌的话语识别专家曾对她说:“如果你们###们去建立一个真正强有力的话语模型,我们就需要很多的音素……人们怎样交谈、怎样说事儿。有了这些,我们最终就可以训练软件来掌握并应用它们。”还是那句话:“更多的数据是更好的数据。”
  谷歌知道,算法的结果不是没有瑕疵,但公司将算法的缺陷视为数据量不够大而导致的局限,是其内部工作有待完善而出现的微调,绝不会将它当作自动化程序固有的问题。公司已经决定向算法输入更多的信息,这些信息必须以前所未有的力量进一步搜索才能得到。它已经可以充满自信地宣布,已经拥有了所能找到的一切图书,拥有了它的用户可能点击的一切视频,拥有了能够覆盖天空和大地的各类地图。
  在这些额外添加到谷歌信息库的东西中,有一些对它可能显得无关紧要,因为它的核心兴趣是网络搜索及相关广告;有些可能会被证明属于浪费###的实验,有些可能会被证明为广受欢迎却最终无法得到回报的服务。它们或许会——或许不会——反过来对谷歌的前途产生重大影响。每一项都有自己的故事,但主题却是共同的:谷歌对新的信息种类的热切追求没有减退也没有动摇;即使在它的公众形象被它的行动所引起的争论所损害的时候,也一如既往。
  当每一个展开的故事都受到仔细检查时,谷歌这块巨石的光滑表面就会消退,随时调整决定的更加复杂的面目就会浮现。私人公司和小型团队在起步阶段最为重视的企业文化就可以从这些故事中解读出来。但这也有一个未经调查的信任度,即谷歌的利益与其客户的利益是完全一致的。在谷歌看来,每个新的服务项目都是人类的一个进步。有一天,当实验过程全部结束,它们便可以被视为谷歌“组织起全世界的信息”这一使命的精彩实现,被视为有远见的幻想;但也可能完全相反,同样的故事在某一天被读作浪费资源的纪录,被读作刚愎自用的铁证。
  

“登月”计划(1)
然而,网页的出现仅仅是个开始。就在谷歌刚满三岁的2001年,在洛杉矶举行的一次业界###上,其创始人拉里·佩奇和谢尔盖·布林进行了一场公开的演讲。两位创始人在这次讲话中解释说,尽管Google索引看起来足够庞大,其网页数量甚至达到了13亿之多,但除了网页自身附带的小部分信息外,这些数量惊人的网页并没有提供更多有价值的信息。佩奇说:“目前,人们仍旧只能存取互联网上业已存在的资料和信息。人们无法对图书馆里收藏的书籍资料进行存取,无法对杂志内容进行存取,无法对报纸内容进行存取,即使是过期的报纸也做不到。同样地,人们对于已经播放的电视节目也无法存取。但是这一切都将被改变。”
  早在佩奇还是斯坦福大学的一名研究生时,他就参与过作为该大学数字化图书馆项目一部分的某些实验项目,而将传统的纸质媒体数字化的设想也正是开始于那段科研经历。但是直到2001年,谷歌对于是否应该做点什么具体工作来加速传统媒体的数字化仍旧没有明确的表态。图书馆、出版社以及电视台这类机构似乎有能力完成数字化的日常零碎工作并且能够将文件服务器上向公众开放的信息进行整理,而谷歌的“爬行器”则像它之前将大量网页进行编录索引那样,负责将这些传统传媒机构整理出来的信息编入索引。
  然而,一年后的2002年,佩奇和布林以及他们的团队决定不再犹豫,要凭借自己的力量开始对最完整记录人类对世界的理解的信息类型——纸质书籍进行数字化的可行###进行审查。众所周知,Google算法在网页之间的优选认定上比较擅长,但是它不能够将网页上出现的最有价值信息像传统的纸质书籍那样向其用户提供高质量的选择建议。
  很显然,与谷歌工程师熟悉的将网页编入索引和对网页进行排名运算的工作不同,书籍数字化绝对是一个全新的挑战###课题。将书本中的文字转换成由0和1组成字节的数字模式所需要的不只是强悍的计算机知识,是否具备其他领域的专业知识似乎显得更为重要。比如用于设计图像设备的机械工程学知识,用来游说拥有大量图书资源的大学图书馆参与合作的公关学知识,以及怎样将要扫描的书籍毫发无损地来回运送的后勤保障知识,甚至还包括要确保项目进行中不会触犯版权法的法律知识。此外,要完成这项工作还要有一个必不可少的条件,那就是强大的资金保证。因为Google决定从事的书籍数字化工程不只是针对某家大型图书馆的藏书,也不只是针对那些有价值的学术###书籍、那些普通的大众书籍甚至是那些饱受争议的书籍等,而是要将上述的所有书籍——迄今为止在全球书目数据库(WorldCat)里列出并被收藏在全球25000家图书馆内的3200万本书籍——中的每一册都进行数字化。
  玛丽莎·梅耶尔(Marissa Mayer)曾经把谷歌的图书搜索项目(Google Book Search)称之为“我们的登月”计划。这种比喻至少在某些方面看来是恰当的。纸质书籍的数字化一直以来就是很多人的梦想。但这个梦想往往被认为过于雄心勃勃而在短期内很难实现。从1961年约翰·肯尼迪总统宣布著名的“登月”计划开始,到1969年人类安全地在月球上着陆,美国用了10年时间完成自己的这一梦想。与此相似的是,谷歌也打算用10年的时间来完成它的“登月”——Google 图书搜索。(2007年9月,谷歌又为它的另一项“登月”计划拨款,那就是投资3000万美元开发Google Lunar X Prize。) txt小说上传分享

“登月”计划(2)
事实上,在图书数字化计划尚未正式启动的前一年,谷歌已经悄悄地迈出了它实现数字化梦想的第一步——开始在线下对一些由商户提供的目录进行浏览。之后这些目录被放在网上并且可以在一个从主搜索站点分离出来的Google站点上进行搜索。由于是试验###质,所以当时谷歌并没有尝试进行尽可能全面的目录搜集,目录的提供完全是商户的自愿行为,而且被选中参与这项测试项目的商户也不是很多。因此这个目录测试版本并没有在海量扫描方面为谷歌提供太多的经验。
  2002年,当佩奇和布林开始不断地谈论运用Google浏览书籍的时候,他们两个曾经做过一个实验来测试浏览一本书究竟要花多少时间。这个实验后来在很多场合都被反复提到过,他们按照节拍器发出的节奏将一本300页的书逐页地翻过,然后得出了一个二人认为虽然简单但却足够有用的数据:扫描300页的书需要花费的时间是40分钟。通过这个实验,他们至少有理由认为他们能够对扫描成百上千万册的书所需要的费用进行大致的测算,甚至能够得出一个在想像力范围内的具体费用。
  尽管谷歌一直对这个小实验津津乐道,并且声称正是这次测试的结果引发了公司的传奇###发展,但这一说法是否可信还有待商榷。因为在当时的情形下,谷歌是不可能向外界透露任何有关如何获取书页影像的细节的。不过一个不争的事实是,通过这次试验让两位创始人意识到利用扫描仪对装订好的书本进行人工逐页扫描耗费的时间巨大,而使用数码相机则无疑是个更省时省力的办法——只需要零点几秒的时间就可以获取书本当前页上的影像。数年之后的2007年,当负责监督Google图书搜索项目的产品管理部主管亚当·斯密斯(Adam Smith)被问及到底是使用扫描仪还是数码照相机来对书页进行处理时,他反问道:“有什么区别吗?”
  事实上,虽然二者的差别看似不大,但是前者因为既浪费时间又浪费金钱而不具有可行###,后者则完全避免了这种情况的出现。2002年,拉里·佩奇访问了他的母校密歇根大学并且会见了学校官员。他告诉校长玛丽·苏·科曼(Mary Sue Coleman)女士谷歌能够在6年之内将密歇根大学图书馆藏有的700万册书全部扫描完毕。而在当时,密歇根大学曾预计如果利用其现有资源进行这项工作的话,要花上1000年的时间才能够完成。
  作为一家私人持股公司,谷歌的股票当时还尚未上市交易,但其股票的持有者,包括它的创始人、风险资本投资人以及早期的员工都一直共同致力于追求企业的利润。谷歌高层并没有将书籍数字化看作是一个慈善项目,他们不考虑向非营利###组织——比如在当时已经开始了图书数字化的密歇根大学——提供资金援助。谷歌关注的是利用Google完成所有书籍数字化的可行###,以及如何使用数码拷贝达到自己的目的。即使Google图书搜索不能够立即产生效益,至少可以预计,该项目的收益将会与谷歌为完成这一项目所付出的巨大投资相称。毋庸置疑,只需要通过浏览网页就能够搜索到书籍的内容,这种前景是多么地令人###。但是当谷歌公开推出这一项目时,也有不少冷眼旁观者对于由这样一家私人公司将全世界的书籍信息收集起来并通过建立词条来赚钱的做法深表不满。

“登月”计划(3)
然而不管怎么说,谷歌的“登月”计划与美国太空总署的月球旅行还是有很大差别的:没有一个竞争对手愿意与它在图书搜索计划上展开竞争。在20世纪60年代,空间探索成为冷战的延伸,美国和前苏联在很多科技领域里势均力敌。然而,在2002年和2003年,在谷歌神不知鬼不觉地开始其图书搜索计划的时候,没有其他的公司愿意同它进行一对一的较量——完成这项计划所需要的大量资金足以使其他公司望而却步。
  谷歌在这一计划上占尽先机不单是因为它拥有雄厚的财力,更是缘于那些曾经试图将书籍数字化的公司在这条路上没有走得很远。最早承担这个艰巨任务的是由迈克尔·哈特(Michael Hart)在1971年开始的“古登堡计划”(Project Gutenberg)。那时扫描仪和个人电脑还没有出现,所谓的数字化只是将键盘连接到摆在伊利诺伊大学的材料研究实验室里的大型电脑主机上进行数据存取。哈特向一些接触过电脑而且有空余时间的志愿者寻求帮助,他们愿意将公共领域内的重要文学作品的全文录入电脑(他们用不停地打字的手指诠释着“数字”对于“数字化”的意义)。随后,个人电脑的出现使这些志愿者的工作速度得以大幅度提高。
  “古登堡计划”一直回避所谓的“权威版本”,认为“在一般读者眼中达到%的准确度的收录文章才是最受欢迎的”。这个计划没有办法很好地涵盖全世界的文学作品:到2002年,该项目仅仅完成了约6300本文学作品的数字化工程,而且所有这些都是完全以纯文字的形式录入,无法体现原书图片所阐释的意义。“古登堡计划”的目标是使纸质文学作品能够更广泛地被接触,其初衷无疑是很崇高的;但该计划固有的局限###之一就是:它被接受的前提必须是读者既不需要也不想要除了纯文本之外的任何东西,同样能给读者带来阅读体验的一些细节,比如字体的变化、书名和标题,以及图书在设计上的微妙特点等,统统被剥夺了。
  在传统的出版界眼中最适合完成这项大规模的行动——将所有的图书数字化的机构非美国国会图书馆莫属。到1990年,扫描技术的不断发展带来了数字化成本的大幅度下降,于是国会图书馆开始了他们的数字化计划,几乎将除了纸质书籍之外所有类型的传媒产品都进行了数字化,包括文件、动画、录音、照片。其目的是要建立一个数字化的、记载“美国记忆”的历史资料库。
  最雄心勃勃的图书数字化项目始于2001年。当卡内基·梅隆大学收到了美国国家科学基金会(National Science Foundation)为“百万图书项目”提供的50万美元基金时,这项计划正式启动了。为了能够将尽可能多的图书进行数字化,本着“少花钱、多办事”的原则,他们不惜大费周章地将图书运到印度和中国进行扫描。然而,当他们向美国的图书馆提出,要他们提供其馆藏图书并允许将这些图书打包进集装箱,再通过风险很大的海上运往国外进行扫描时,遭到了图书馆的拒绝。遭拒的原因不言自明。布鲁斯特·卡尔(Brewster Kahle),这个在1996
小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架