《追随智慧》完本全集阅读-第30部分-人文书库

候，将其和前边一字的各种联系全部搜索一遍，以判断哪一个字用在这里最合适。
然则更多的时候，仅仅依靠向前对应一个字，并不能做出正确的判断，以致电脑经常会犯下非常愚蠢的错误。有一次王坚在饭桌上面讲述了一个笑话，令人在喷饭之余，也想到了这个问题的严重性。
笑话说，杭州市有一家药店，大字招牌上是这样几个字：杭州市长春药店。人们看到这个店名的时候，必定读成：杭州市／长春药店。但这店名之所以会成为笑话，是因为句子中间有可能发生歧义，变成：杭州／市长／春药店。
即使是一个最迟钝的人，想来也不会犯这样的错误，350但每秒钟运算几千万次的电脑就无法分辨。有时候你会禁不住感叹：电脑真是一个最聪明的笨蛋！其实，不是电脑笨，而是电脑软件的设计，比如“Bigram”模型，还没有足够聪明。
问题发生在，“市”前边的第一个字为“州”，“州”
和“市”在一起组合，什么也不是。电脑如果一味拘泥于“Bigram”，必会自动地将其分开，以致铸成大错。但如果我们让电脑看到前边两个字：“杭州”，它就有极大可能把“市”与“杭州”连接起来。所以李开复认定，语音识别的研究必须让电脑前推两个词，方有可能大大减少其犯错误的可能。英文把这种方法叫做“Trigram”。
陈正明白李开复的意思之后，立即意识到他的工作量将会骤然增加。从“一个词”到“两个词”，并非人们通常所想像的“一加一”，而是“平方”和“三次方”的关系。所以机器的“搜索”范围，就将不是扩大一倍而是扩大10倍，又由于一个词大约由1。6个字组成，就使得实际的数量更加巨大，语料库的数据积累亦须相应增加。陈正的幸运在于，当他开始从事这项研究的时候，前人已经把所有这些道理都弄明白了。“我继承了分割语351言的方法。”后来他这样说。但他没有陷在前人的经验中，当他深入到这种方法里的时候，就发现，这种建立在自然语言基础上的分割，并不自然。比如“中国”一词，按照传统的切分，应当写成：zhong/guo。陈正把这组拼音写在电脑屏幕上，左看右看，连续数十分钟目不转睛，似已魂飞魄散，蓦然间脑子里面跳出一个念头，为什么不能这样切分呢：z/h/o/n/g/g/u/o这一来，他就看到了他梦想中的美好情景。
“我要做的是，将每一个字母都分出来，具体到最小的语言要素。”他向同事陈述自己的想法，“每一个字母都有多种匹配的可能，所以我要切分每一个字母。”他相信个人电脑的计算功能已经足够强大，运算速度也已足够快，不怕在瞬间完成巨大的统计，只怕不知道怎样做。
以后事情的发展证明，这的确是一个聪明的想法，机器不仅大大地提高了选择能力，并且开始产生一种奇妙的功效：自动纠正人为造成的拼写错误，也即我们此前所述的“自动纠错模型”。由于有了“最小语音要素”
352的概念，陈正有可能提出进一步的设想：让机器来纠正自己那满口南方腔调造成的拼音错误。他向王坚请教，王坚赞赏他的想法，还给了他一本书。书的内容是专门分析英文拼写中发生的各种错误，其统计错误概率的方法，令陈正茅塞顿开。于是他转而建筑汉语拼音拼写的“错误模型”。他将这个模型分为“替代”、“插入”、“跳跃”、“交换”四种，又将26个拼音字母的各种搭配分布于这四种模型中，列出下面一个简单的算术式：26×26×4=2704这意味着，陈正建立起来的“电脑自动纠错模型”
共计2704种。
陈正完成了一件划时代的工作，但却给人留下了意犹未尽的印象。当语音被分割成一个个最小因素的时候，英文和中文之间似乎有了某种共同的东西。那一天，李开复对他说：“英文也有自己的组词规律，我们能不能让机器识别出来。”于是他们拿出一大堆“维斯波”的英文实验数据，让电脑去识别一串字母像英文还是像中文。
结果，一个更加令人惊讶的事情发生了：当他使用“Trigram”的模型去追寻正确的字母搭配时，机器居然353能够准确地分辨英文字母与汉语拼音。当初王坚小组设计“无模式界面”的研究计划时，就曾说到“中文和英文混合输入而无须切换按钮”，陈正那时的第一个反应是：“怎么可能？”没有想到，由于有了“最小因素分割”
的思想，王坚小组提出的取消“中英文切换”模式的想法，立即成为可能。
工业时代的奥秘是“分工”，信息时代的奥秘是“融合”
陈正的“搜索引擎”基本框架，一步一步地生成。
与此同时，邸烁的中文语音识别系统也有了大致模样。
到了6月20日，距离“21世纪的计算”大会还有一周的时候，李开复有些着急，他问两人能否在一周之内“弄出一个结果来”。“试试吧。”两个人说。陈正胸有成竹，邸烁也跃跃欲试。一个星期以后，他们果真拿出了阶段性的报告，汉语语音识别系统的识别率达到了78％。又6个星期之后，识别率就超过了90％。现在，陈正也能洋洋自得地说：“我觉得，抛弃原来的方式真是英明。”一向自信的邸烁，这一回也没有想到自己身上蕴藏着如此大的潜力：“这么快就入了门，而且还能做出东西来。真没想到。”354不用说他们两个人没有想到，就是老于世故阅历丰富的黄昌宁也难以想像，自己此生还能身处这样一个环境中。过去和现在的对比实在太强烈，以至于他在一个私下场合讲出一番镂骨铭心的感受来：我一直直言不讳：我得从头学起。微软有一个很大的不同：“资源共享”。研究的资源，也就是软件工具、源码、语料数据，所有的资源都是共享。公司内部的研究资源是无偿使用，我只要发出一个电子邮件，要什么，他就很乐意地送过来给你用，但原创者的功绩并不会因此埋没。他发明的东西被别人引用得越多，他的业绩也就越好。我们国家的学者对这种情况是梦寐以求的，但始终行不通。我们大家做着同一个课题，不是做一年半年，而是做十年八年了。但我的成果你不能看，你的成果我不能看。要看，只能在发表之后，和全世界的人一同看，甚至同一个系里的人也不能交换成果。为什么？
钱不是一个老板出的。我要靠这个课题吃饭。如果我的成果公开了，那我吃什么？我的同行要是拿了我的成果到上面申请经费，我吃什么？所以就要封闭起来。
我们国家的科研效率非常非常低！很重要的原因是355资源不能共享。人很多，但你的力量是分散的，没有合力。当然也有“社会主义的大协作”，比如说“两弹一星”、“三峡建设”这样的大事，可以说是“集中力量办大事”。
但这样的大事毕竟不多，更多的是中事小事，怎么就不能开放研究，资源共享？“视窗”大不大？小小一张光盘，却影响整个世界。
倘若比尔．盖茨能够撰写一本新的《财富论》，那么他的理论必定与亚当．斯密分道扬镳。后者在100多年前揭示了，工业时代发展的奥秘在于“分工”，而我们眼前这位“世界首富”及其属下数千“百万富翁”乃至“千万富翁”的发迹轨道，似乎都在证明，信息时代发展的奥秘在于“融合”。这给了每一个人挣脱流水线重新做人的机会。
“分工”的价值日愈减小，而“融合”的价值日愈增大，人的时代就到来了。
1999年6月，王坚依据他在国内的既成经验，公开表示，在3个月内语音识别研究初战告捷是“不可想像的事情”。到了1999年10月，研究院真的把他们的中文语音识别模型拿到雷德蒙去演示的时候，惊讶不已的人356就不只王坚一个，至少还有比尔．盖茨。比尔．盖茨情不自禁地说道：“太出色了。”有人据此又问王坚做何感想。他说：“绝对是‘资源共享’、‘团队精神’的结果。”
这回他说对了。但这种“共享”与“团队”的精神，却不是李开复领导的研究院所独有，它是整个微软文化的一部分。
微软公司的机构组织方式，是以产品或者研究课题为中心，组成许多小组。小组大小不一，小者只不过几个人，大者则可以超过千人。有如“视窗2000”小组，3000多名软件工程师总计写了超过5000万行程序。“办公室”小组的人数更多，其产品也是由5000万行程序组合在一起。小组无论规模大小，全都具有相当大的自行其是的权力，员工也可以随意安排自己的工作甚至包括作息时间。从表面上看，这种组织策略要冒很大风险，在标准的现代制造业流水线上，我们完全不能想像一个员工能够拥有如此多的自由，但微软的高层管理者几乎一致地认为，这是避免低效率和保持人的高昂热情的最有效的方法。许多曾经辉煌的美国大公司，其沉浮兴衰的道路各呈异彩，但却有着一个共同的特征：创业的时357候全都励精图治，同舟共济，随着日久天长，新公司变成老公司，等级渐生，机构叠屋架梁，人浮于事，种种官僚习气和勾心斗角之风也难免滋生。就连微软公司在80年代的主要合作者国际商用机器公司也深受其害。这也正是微软坚决拒绝等级文化而刻意弘扬自由精神的主要动机。
然而弘扬个人的自由并不意味着排斥组织的力量。
事实上，微软员工嘴上流行的各种词汇当中，“TeamBuilding”出现的频率相当高。这两个单词的组合可以直译为“团队建设”，其中意义就是，培养一种与他人合作解决难题的精神，以及与之相关的秩序。
“团队建设”是一个概念，可却不是光在嘴上说说或者仅仅写成动听的口号贴在墙上。自从创立以来，它就在不知不觉中影响着员工的言行。公司甚至有意识地想出一些办法，把那些平日极少来往甚至素不相识的员工凑在一起，激励他们共同去解决一个“难题”。这些“难题”有时候真的可以决定一项技术或者一个产品的命运，但有时候仅仅是游戏。比如微软中国研究院就自发地组成若干小队，取了“雪人队”、“狗队”之类的名字，其358目的仅仅是为了排球或者篮球等等赛事，队员也完全不是按照研究小组的编制来划分，而是随意组合而成。1999年秋季的一天，凌小宁到雷德蒙微软公司总部去开会。
会议正在关键时刻，主持者忽然宣布进行一个游戏。他把100多名与会者分成若干小组，每组8人，又交给每个小组一条手指粗的棍子。要求每个人伸出两手，在同一时间以拇指并列托住棍子，放到地面。这个游戏的困难之处在于，在棍子下降的整个过程当中，16只拇指须同步运行，每一只拇指都不能离开棍子。游戏显然与会议主题毫无关系，“小组”均为临时组合，组员并不相识，但他们一下子就激动起来，群起出谋划策，共同商讨以怎样的方式达到目标。凌小宁小组的8个人，先是决定将拇指分别集中于棍子两端，同时下移，结果失败。然后又设想让两端交替下移，结果仍然失败。但他们在另外一个游戏当中获得了成功。那游戏要求8人排成纵向队伍，人与人身体之间置一篮球，后面的人须以头部力量，借助前一个人的身体将球顶住，然后大家一同行走，篮球却不能落下。众人在一番争执之后，决定以“齐步走”的办法进行第一次实验，失败。第二次实验则由最后的人最先起步，前边的人感觉到身后的压力时再移动359身体，一个接一个，结果又是失败。最后一次，大家决定改变顶球的部位，后边的人用头将球顶在前边一人的脖子后面，使其头部具有前后移动的余地。大家屏气凝神，终于成功地向前移动了。这一成功与公司的科研和产品显然没有直接关联，但却仍然在人们当中引起由衷的惊喜和欢呼。谁也没有说什么“团队精神”之类的大道理，但每一个人都在其中经历了与他人共同解决一个难题的过程，并且体会到成功的愉快，主持者也达到了目的。
“我们有一个说法，只有团队成功了，个人才能成功。团队失败了，个人做得再好，也是失败。”凌小宁这样说，“一个人的智慧总是少的，所以，最重要的是，团队的智慧要比团队中任何一个个人的智慧大得多。小组是微软的细胞。小组与小组之间，个人与个人之间，个人与小组之间，都是团队。一个人有问题，就会找大家，说我想这样想那样，你们想怎样。总要想方设法，把每个人的智慧挖出来。中国人总说‘三个臭皮匠顶个诸葛亮’，这是一个很好的想法。但实际上常常发生‘三个诸葛亮顶不了一个臭皮匠’的事情，就因为不是一个团队。”360李开复显然觉得这些话挺中听。他的目标是，“做到世界最好，甚至比美国人在美国做得还要好”。但他知道自己这支队伍的力量有限，不可能像微软在雷德蒙和剑桥的研究院那样，有那么多“图灵奖”的获得者，那么多“大腕”。像他和张亚勤这样的研究人员，在希格玛大厦已经给人一种可望而不可及的感觉了，但在雷德蒙研究院，“可能还有一打”，即使是剑桥研究院，也有好几个。他的策略，一个是不鼓励自己的队伍全面出击，只挑选一些最适合自己做的领域；另外一个就是跨小组的结合。他对大家说，他希望“跨组的协作是1＋1＝3。合作的力量更大”。他也懂得，一个人在没有获得“大奖”没有成为“大腕”的时候，通常更加容易合作。“我们的每一个人不见得会比美国研究院的人优秀，但我们的小组更团结。我们这50个人，当然不可能比雷德蒙的500个人做得更好，但是我敢说，不比雷德蒙的任何50个人做得差。”他有一次对手下人说，“再过两三年，我们就能够证明自己的方向是对的。”期待的事情虽在两三年以后，却要从现在就开始努力。所以，李开复总是怂恿凌小宁把微软文化中的“团361队精神”写成一篇文章，“这样就可以把下一期的‘开复话题’变成‘小宁话题’了”。他这样说。凌小宁说他写中文特别吃力，但他同意在适当的时候专门讲一次微软公司的“团队”。他做了精心的准备，一讲就很精彩。那个中午他有很多名言，容我们稍后再叙，现在仍需回到希格玛大厦的现实中来。
给孩子一个自信，比给他一大堆知识都重要就单个人来说，研究院的每一个都不能说是超人。
除了李开复、张亚勤、张宏江和沈向洋之外，其余50多人都不能说已经能同世界一流的计算机科学家相比照。
他们不是缺少足够的聪明，而是缺少在世界科研领域最高水平的角逐中一争高下的眼光、胆识和方法。在1999年的夏天，至少张宏江和沈向洋两个人就是这样认为的。
那一天张宏江刚刚来到希格玛大厦就任。沈向洋对他说，他看了国内这些博士的毕业论文，“难过得都想掉眼泪，这么好的学生，怎么就做出这样的文章呢？”张宏江把这种令人伤感的情形归咎于科研体制。在他眼里，“国内一流学校一些导师的心态和研究方法，很像国外二流学校。”他还怀疑，“围绕在某些教授头上的所有光362环是不是真的？”从许多方面来看，张宏江是一个已经“美国化”了的中国人。他有一副相当生硬直率的性格，说话咄咄逼人，直截了当，出语惊人，自负甚至有些狂妄，似乎从来没有想到会得罪什么人，也没有想过要为自己留些余地。他出生在武汉，未及成年便随父母下放到河南叶县，也即中国古代寓言“叶公好龙”中叶公居住的地方。阅读《青春之歌》、

《追随智慧》

下载本书

追随智慧- 第30部分