336黄昌宁在1999年4月来到希格玛大厦。当邸烁和陈正在计算机方面向李开复不断求教的时候,黄昌宁也成为这两个年轻人在汉语语言方面的指导。下面这些话题,就是那个时候经常谈到的:“汉语和英语的共性”;“语音当中的文字问题和语言问题”;“单字概率与词组概率”;“中文输入习惯和思维习惯不能合拍”;“人的语言能力还是科学家的一个黑匣子”;“什么叫做计算语言中的‘观其半而知其意’”;“人脑子里的语言系统不是按照词典排列的”;“计算语言学为什么要同心理学和数学结合在一起”;“计算机语音科学家面对的最大挑战:把‘一对多’变成‘一对一’”;……
他倾心尽力将自己的语言学知识留在希格玛大厦337中。“我在清华干了这么多年,退休以后才走的,我觉得自己对得起清华。”他这样来回答向他质询的朋友。他整天混迹在年轻人中间,并非不知老之已至。恰恰相反,他对自己的年龄有充分的了解。“我老了,想像力不行了,但洞察力要比年轻人深一些。”他这样说。他似乎已经意识到,由于语言不同造成的文化隔膜行将终结,计算机技术的进步终有一天让人类超越这种隔膜。
但这个世界毕竟是属于年轻人的。“在这里,没有哪一种技术能有5年以上的生命,很快就会改朝换代。”他说,“在大学里面学的东西,出了校门就变了,何况我这把年纪?”后来者总是站在前人的肩膀上1999年6月,微软公司决定加快语音研究,比尔.盖茨也倾向于在微软原有的英文语音识别系统之外,增加日文和中文两大部分。时间相当明确并且迫在眉睫。初步的成果将在秋天拿出来,其中文部分,当然要由中国人来做。这让李开复极为兴奋,他在嘴上说“我们可以做,但不能保证”,心里却想着“舍我其谁”。研究院成立刚刚7个月,他领导的语音研究小组诞生不过两个星338期,小组的第一批成员,邸烁和陈正,又是外行。在这种情形下,比尔.盖茨一般是不会下命令的,但公司的产品部门却说,他们的确需要这个技术。李开复再回过头来看看身边,觉得中国人也的确需要。王坚依据他在国内从事研究多年的经验,认定这件事情“肯定做不成”。
他说:“现在还一行程序都没有,3个月后就要拿出一个像样的东西。这种事情在我们国家是不可想像的。”王坚当时并不了解,微软公司有一个“资源共享”的制度,并且有着“团队合作”的风尚。但李开复和凌小宁却对雷德蒙微软总部的情况有足够的了解,知道黄学东小组那里有什么东西,而且可以肯定北京的工作能够得到黄学东的全力支持。他们也知道微软公司以外的其他地方有什么东西。然而更加重要的是,微软中国研究院有李开复--世界领先的语音识别专家。研究院起步虽晚,但并非从头做起。这两个人在一起斟酌再三,都觉得虽无十足把握,但完全值得一试。当即决定,在7月份之前搞出一个基本框架。
对于李开复来说,现在的确是审时度势的时候了。
从他在卡内基梅隆大学实现的历史性突破算起,已有10339年。他花了3年的时间才制作出一台应用他的新理论的“小精灵”,但却没有能够让它真正进入千家万户,此后又花了7年的时间,苦心等待机会再次出现。这一期间,语音识别已经不再是让人们敬而远之的书斋里的技术,它在不知不觉当中与人们的生活日愈紧密。这一回,李开复已拥有微软这个庞大而又实力雄厚的舞台,如果能够如愿以偿,就决不会让这项技术继续束之高阁。
他对自己要做的事情并不仅仅抱有幻想。微软中国研究院以及李开复本人的加入,可能会更加激发其他公司在这一研究领域里快马加鞭。虽然你追我赶的热闹气氛和李开复的务实风格相悖,但他的确相信希格玛大厦的整个工作将以突飞猛进的步伐前进。他不仅拥有自己以往在这个领域中的全部经验和理论,而且还可以踩在微软公司过去若干年中的全部研究成果之上向前攀登。
他可以从雷德蒙的拼音小组拿来中文字典,还可以从黄学东小组那里拿来全套“维斯波”(Whisper)--英文语音识别系统。微软公司的制度本来就鼓励“小组合作”
和“资源共享”,黄学东和李开复的多年私交这个时候也340发生了作用。黄很痛快地答允,将“维斯波”的源码和语料库,全部调送李开复使用。“源码”和“语料”构成一个语音识别系统的最基本的部分,尽管它们全都属于英文而非李开复需要的中文,但有了这些,李开复小组的工作便有了一个很高的起点。这情景有如攀登一座100层的楼房,他们从一开始就已经站在第50层上。
可是,事情一开始就缓慢得令人揪心。
“维斯波”的“源码”和“语料”,容量大至“10G”。
就像物体的面积体积重量都有一个计量单位,信息的计量单位是“比特”。今天我们使用的个人电脑中,“比特”
的数量单位,以“G”为最大,以“B”为最小。中间又有“兆”和“K”作为过渡:1G等于1024兆;1兆等于1024K;1K等于1024B。
我们由此可以算出“维斯波”的容量为:1024×1024×1024×10=10;737;418;240(比特)
我们若将这些“比特”用汉字来衡量,并且放到一本32开的书中,那么这本书至少要有13;695;686页。如341此多的电子数据从雷德蒙微软总部传输到北京希格玛大厦,要依赖光缆构成的互联网络,也即我们所说的“信息高速公路”。高速公路上的汽车太多必会导致车速缓慢,“信息高速公路”的情形也是同样。当邸烁和陈正接通线路并启动传输程序之后,立刻就感觉到这“高速公路”上的拥挤不堪。“维斯波”要么是根本就挤不进去,好不容易进去了却又不能顺畅运行。电脑哼哼作响,发出吃力的喘息。有时候“数据流”会暴风般地涌进来,令邸烁和陈正惊呼“好酷”。有时候整个屏幕又静止下来,机声停顿,让人觉得网络上面一片空白。有时候还会彻底中断传输过程,“维斯波”就像是在一个“空中停车场”,而不是在一条“高速公路”上。邸烁和陈正原本计划3天之中把它全部“抓”到希格玛大厦来,但已经7天过去了,仍然摆脱不了这条拥挤不堪的“高速公路”。万般无奈下,两个人只好把技术支持工程师杨飞请来,查明问题究竟何在。
单从技术的角度来说,邸烁和陈正所遇到的问题,既属于正常,而又有着不正常的情形搀杂其中,其奥秘非一般人所能了解。作为一个世界最大的软件公司,微342软在雷德蒙总部有一个小组专门负责整个公司的计算机网络。他们在一座“星型”大楼里面,拥有一个由上千服务器组成的中枢。处在网络中枢的服务器,每天自动将所有文档备份,移送稳妥之处保存。即令失火、失窃一类的意外发生,办公大楼毁于一旦,设备荡然无存,而公司所有的技术进程和研究成果均能毫发无损。这一中枢系统又能与公司在世界各地的所有终端相连接,构成一个规模巨大的专业网络,其间有专用线路沟通彼此。
这种种办法与我们国家的情形很不相同。在我们这里,公司和政府通常的做法,是将自己的网络连接到公共网上,也即人们通常所说“上网”,所有人都在一个网络上行走,摩肩接踵,难免混杂。微软的专业人员认定,此种情形对于公司机密隐含巨大威胁,所以他们要将公司内部网络的出口限定为一个,又在这惟一的出口上安装“防火墙”。凡属于可以公开的数据便放在“墙”外,必须保密的数据则放在“墙”里。至于数据的交换和传输,则是租用电信公司的线路以供其“专有”。所谓“专有”,也即除了微软公司之外其他人不能进入。这条“专线”
由美国至东京,分向亚洲各国。进入中国后的线路则是从“中国电信”租得,其入口在上海,再通向北京,沟343通希格玛大厦的联络。信息流动的样子一定很像水的流动,其流量和流速是由最窄处决定,而不是由最宽的地方决定。杨飞拿出“瓶”(一种测试网络是否通畅的程序,英文名称“Ping”)来逐段检测,寻找问题所在。结果发现,电子数据一旦经过上海到北京这一段线路的时候,流动速度就会忽然放慢。因为这一段线路并不像上海以外的线路那样以光缆铺设,而是属于一般电缆,“带宽”
甚窄,数据在传输过程中极易受到干扰而不能正常流动。
这也就是人们通常所说的“瓶颈”。
在经历了漫长的等待之后,邸烁和陈正逐渐看清了“维斯波”的真面。两位后来者渴望在这一行行的“源码”上找出自己可以走通的新路,结果惊讶地发现,这“源码”竟是很多人的努力积累而成,所有原作者的姓名及其使用过的实验数据全都记录在案。其中李开复在1984年写下了最早的一批,然后有洪小文,又有黄学东……它像一部由智慧与心血交织而成的“圣经”,字里行间洋溢着某种精神:后来者总是站在前人的肩膀上才能有所作为。但如果他们真的有所作为,那就决不可能仅仅是因为站在别人的肩膀上。
344以后的两个星期里,邸烁和陈正继续把精力放在“维斯波”上,彼此说明自己的理解,或者讨论或者争执,甚至相互开展“大批判”,还同太平洋彼岸的黄学东小组来往了无数电子邮件和无数电话,在希格玛大厦将“维斯波”的英文程序运行通畅,全部实验数据印证无误,听写识别率也能与雷德蒙的“维斯波”所能达到的标准吻合。到了这时候,李开复要么是觉得这两个人已经足够成熟,要么是觉得不能再为练兵花费更多的时间,所以便对他们说:“我们可以开始做中文的工作了。”
这样,就出现了一个有趣的局面:一个训练有素并已卓有成就的“世界级科学家”,带着两个凭借直觉灵感连蒙带猜的小伙子。研究院的中文语音识别研究,就这样开始了。
一次突发奇想的双重效果此前我们曾经提到,微软公司通常把一个人的学习能力看得比他的专业基础更重要。他们不一定会对你提出“专业对口”这样的问题,但却会非常注意你对新事345物的反应能力和接受能力。假如一个人过多地夸耀自己以往的经验,在微软看来,这也许正是思维枯竭的征兆,至少也存在陷入“思维瓶颈”的倾向。这“瓶颈”通常不是缺少经验所致,而恰是经验太多的结果。把一大堆固定知识装满脑子的学生,犹如把一大堆僵死经验装满脑子的老人。成功有时候并不是一个好老师,它有可能让聪明人的思想枯竭,走进死胡同。所以,李开复在这个时刻所需要的,正是邸烁和陈正这种没有什么经验的人。
邸烁中等身材,方脸,浓眉,嘴角轮廓分明。刚到研究院的时候,他是副研究员,合同上注明两年聘期,但一年后他便成为微软公司的正式员工,并且开始拥有微软公司的认股权。和大多数这个年龄的人一样,邸烁自负,随意,性好独立,精力过剩,思路敏捷。不过,无论从哪个方面看,都不能证明他的天赋真有特别的过人之处。他的真正超越常人的能力,是能够在他完全不熟悉的领域当中迅速抓住问题的关键,并且知道到哪里去寻找解决难题的答案。他每天在他的电脑前构筑语音模型,其最重要的一部分工作,是在406个汉语音节当346中,确定155个基本音素,以供机器识别。还要在原有汉语拼音中的四种声调之外加上第五声,也即“轻声”。
如果需要克服时差的障碍与雷德蒙的研究小组交换问题和结论,他就从夜间一直干到凌晨,实在太困的时候,就在办公室的沙发上睡一会儿,又开始工作。他连续调整了“维斯波”中至少400个参数,以使它能够接受中文的信息。他所遇到的最大困难,不是这些几个月前还完全不懂的数据,而是中文语音的数据质量过于低劣,总被噪音干扰,远不像英文语音库里那些东西,即使把音量放大多倍仍无噪音,这使他不得不对他的新参数反复训练。
要说邸烁的直觉灵感弥补了他在语音专业上的不足,并把它们以一种可见的形式表现出来,那么,陈正在语言模型的建造上也起了同样作用。陈正骨瘦如柴,浓眉,小脸,从初中一年级的时候就开始戴眼镜,镜片由于度数很大而显得特别厚。旁人都以为这是他格外用功付出的代价,但他认为自己的高度近视是父亲的遗传,而且坚持说自己“从小就不刻苦”。他从小不喜欢被约束,经常因为上课说话之类的小毛病受到老师严厉批评。他347还特别不喜欢读书而喜欢玩,所以每天晚上8点半以后,一定要放下书本去看电视。但他学习新东西总比别人快。
他喜欢在全力以赴地玩过之后,再全力以赴做习题。他有一种在他那个年龄的孩子身上异乎寻常的天赋,能够将注意力迅速地在游戏和功课之间转来转去,一旦集中精力,便能持之以恒。这使他用不着投身题海当中,也总能获得很好的成绩。
他被父亲那一本本砖头似的医学书籍吓破了胆,但对中学校园里面的计算机分外着迷。看来,计算机的确为那些迷恋游戏、厌恶书本的孩子开辟了一条通向科学殿堂的道路。这条道路上,迂腐的循规蹈矩最少,激动人心的憧憬最多。比尔.盖茨在成名之后曾经说,一个孩子整天沉迷于计算机,要比沉迷于电视机好得多,因为计算机让人思考。陈正并不懂得这些道理,他用“学就是玩,玩就是学”来概括他当年选择这个专业的动机。
多年以后他真的成为清华大学计算机博士,又成为微软中国研究院的副研究员之后,每天坐在电脑屏幕前面的时候,还是那副如鱼得水的样子,下了班还不愿意离去。
不了解他的人说他是在加班,但了解他的女友说,“他变348成‘计算机狂’了,好像是在和计算机恋爱。”陈正觉得“恋爱”之说有点过分,但他承认:“这种加班就像是在玩一样。”陈正花了整整3天时间,来构造中文语言模型的搜索引擎框架。如果这仍然可以看作“玩”,那么他第一次发现,“玩”有时候真是艰苦。因为李开复给他的第一个指导,是不能再循着国内此项研究的老路子走下去。“我听说,在中国做语音搜索统计,只联系到前面一个词,”李开复说,“这不够,至少要向前推两个词。”
在常人看来,这“一个词”和“两个词”的区别至为微小,实则其中隐含着巨大的变化。
机器不是人,没有人所共有的耳朵。它之所以能够听懂人话,必须遵循一个基本逻辑:将声音信号变成拼音符号,然后再变成计算机能够理解的“比特”。但人类语言的一个特征就是多有歧义,中文尤其如此。比如“一”
的同音字多达137个,也即专家所说“一音对多字”,而计算机能够识别的语言则必须是“一对一”--不仅是“一”,而且要告诉它是哪一个“一”。不过,自然语言349中的另外一个特征,给科学家们提供了摆脱困境的机会。
这就是,每一个单字都是在一个完整的句子中间才会构成特有的含义。比如你要让电脑在“意”、“义”、“一”
这三个字中决定取舍,它必会莫名其妙。但你若给它阅读前边一字的机会--“注意”、“主义”、“逐一”,它就会很容易地确定应该使用这三个字中的哪一个。这种情形在英文叫做“Bigram”模型,也即让机器在识别一个字的时候,将其和前边一字的各种联系全部搜索一遍,以判断哪一个