比例,发酵时间的复杂函数关系。虽然听完有些失望,不过我还是不死心,我决定发挥MSRA的专长。终于在我滔滔不觉的KPMP 半个小时之后,师傅被拍晕了,决定亲自下厨,挑战自我,制作两只20厘米见方,坚固,孔洞均匀的非食用面包。
第二天,我们怀着激动的心情,将两只专用面包迎回了希格玛,连夜开始数据的捕捉。一切又有希望了。不幸的是,当我隔天早上来到实验室,熬了一夜的嘉平告诉我,试验失败了。大面包经过一夜,还是变形了。我们需要寻找新的方案。
从小津到陶然亭
离SIGGRAPH的Deadline越来越近了,其他的项目都在飞速进展中,有的甚至有了漂亮的Demo。而我们的项目好像还是在原地踏步。虽然模型已经得到了初步的验证,但是真实材质的捕捉人仍然进展缓慢,卡在了面包数据的捕捉上。不变形的面包在哪里呢?这个问题让我们头痛。倍感压力。因为这是超出我们专业知识的领域,大家真的感觉是无从下手。txt电子书分享平台
面包记 童欣(2)
一天凌晨,我从希格玛回到家里。精神仍在亢奋中。虽然很累,但是仍然睡不着觉。于是将一张DVD扔进了碟机。我会在精神压力很大的时候用这个办法帮助自己放松入睡。碟是文德斯的记录片《寻找小津》。迷迷糊糊中,镜头从小津的墓地一转,来到了一个工厂。工厂里,一些工人正在为各个餐馆制作仿真的寿司,蔬菜,水果,每样都是栩栩如生。看着看着,我忽的一下清醒了。是啊,我们为什么不做一片这样的仿真面包呢?
我不禁有些“柳暗花明”的狂喜。回到希格玛,忙了一个上午之后,我终于辗转找到了北京一家制作这些仿真食品的公司。第二天,当我走进这家隐藏在陶然亭一个胡同里只有一间房的公司时,看见他们的柜台里,赫然放着假的面包片。而里面的货架上,堆满了全聚德的盒子和一堆烤鸭。烤鸭全是仿真的,每只只有三厘米大。和师傅顺利地接上头,谈完做面包“项目”,我马上坐上出租车往回赶。那天的天格外的好,一路上,北京冬天的阳光暖暖的照在身上,让我真有些幸福的感觉。
两个星期后,我们得到了一片仿真面包。有了备用的数据,试验暂时可以继续进行了,大家松了一口气。但是讨论了一下,大家感觉仿真面包的数据毕竟不是来自真实的面包,说服力不强,而且看上去还是有差别。要做一篇合格的SIGGRAPH论文,就要摒除所有可能的漏洞,并让结果尽可能的完美。没有选择,我们必须捕捉一份来自真实面包的数据。时间紧迫,已是十二月底,大家再次感受到Deadline的压力。项目再次晴转多云。
面包会有的,一切都会有的
我和嘉平再次讨论了以前试验的经验和教训,决定仍然选用切片面包。过去的一个月里,我们也没闲着,继续在各个超市搜索,已经找到了一家切片面包,孔洞尺寸都比较适合,也很均匀。现在的关键是如何防止变形。嘉平开始设计了保湿的方案。在面包下垫上了毛巾。毛巾的另一端浸在水里。通过虹吸来保持水分。可惜,我们很快发现面包本身的虹吸不够。面包的上表面还是干了,经过一夜,还是会变形。看来我们没有别的选择,只有反其道行之,尝试事先减少切片面包的水分并尽量保持切片形状了。我们试了几种办法,让面包失水,但是效果都不太好。
一天晚上,我忽然想起一个朋友曾经告诉我她用微波炉制作干花,决定用微波炉试试。第一次试验以后,发现效果不错,于是再接再厉。终于,在一袋切片面包壮烈牺牲之后,在一个晚上我找到了最好的生产工艺:将面包放于平板上(面包加热会变软),两边衬上餐巾纸。放入微波炉,中火每次一分钟。取出换餐巾纸,保证水分能尽快吸掉。重复四到五次后,就可以得到干的但是不变形的面包片。
于是,连续几个晚上,大家都能看到我小心的手捧编了号的面包片,在厨房的微波炉旁忙着“烹饪”。为了防止加工或候选的面包片被人吃了,我在厨房里一直盯着,直到过程完成,把面包片送到实验室里才离开。这样还不放心,我在每片的旁边写上:“试验样品,请勿食用”,防止拍摄数据的人饿了吃了他们。不过,大概是因为我们之前的废品早已经让大家吃腻了,结果根本没人碰这些面包一下!大家开玩笑说,看来我们的面包片和微软的软件一样,要到版才能成功。
转眼几周过去,我们赶在Deadline之前完成了所有的工作,提交了论文。值得庆贺的是,我们的一切努力得到了最好的回报,我们的论文成功的入选了2005年的SIGGRAPH。
干面包还是鲜面包,这是个问题。
那年八月,我和Steve Lin在SIGGRAPH上宣读了我们的这篇论文。论文宣读完后,大家对我们的工作都很感兴趣,几个人提了一些技术问题。最后,这个Session的Chair走到麦克风前,问道:“你们的工作很出色,但是我看到你们的渲染结果,那个面包看上去有些干,看着像是干的面包,你能解释一下为什么吗?是绘制或者建模的问题吗?”我听了,一边心里乐,一边佩服他的眼力。我走到台前,回答说:“你说的太对了,实际上,由于我们的数据捕捉需要十几个小时,所以,我们捕捉到的真的是一个干面包的数据”。场上的听众被我们的这一问一答逗乐了,大家不禁大笑,接着热烈鼓掌,感谢我们精彩的论文宣读。
(通过算法,计算机自动绘制出来的面包)
写在最后的几句话
上面的一个小故事,是我在SIGGRAPH 2005的一点经历。这点经历,也许能够让大家看到在我们每篇论文背后,我们所付出的不为人知的认真与努力。就在这样一次次SIGGRAPH的努力中,在学习、挫折与汗水中,我也在慢慢的成长。不知不觉中,我在微软研究院已经工作了快十个年头。回想起这十年,我觉得我是幸运的,因为在这里我圆了我做计算机图形研究的一个梦想。而且,我有幸结识了许多优秀的人、有趣的人,并和很多人成了好朋友。和他们一起并肩工作的日子,已成为了我过去最美好的回忆。而我们将来一起奋斗的日子,是令我期盼与兴奋的人生体验。
作者介绍:
童欣博士是微软亚洲研究院网络图形组研究项目负责人,研究兴趣主要为图形学算法,系统,表观造型等。他1999年从清华大学博士毕业,同年加入微软亚洲研究院。曾经是伪小资真愤青,现在为准中年宅男。
。 想看书来
“木兰”妈妈 初敏(1)
“木兰”是我加入微软后带领几位年轻同事研发出来的双语文语转换系统(text…to…speech,简称TTS)。她不仅能将中文、英文文稿流畅的朗读出来,还能很好的处理混杂着很多英文单词、短语和句子的文稿。在研究院成立五周年的庆祝活动中,木兰名列‘十大’成果之一。我常常引以为豪。木兰凝聚了我多年的心血,就像我的另一个孩子,在我的孕育、抚养下,从无到有,从小到大,逐步完善,改进。最终成功的‘嫁’到微软最新操作系统Vista中,并且由此孵化出微软唯一的一个TTS产品部门。以前,一个在总部产品部门的同事Scott Meredith,也是TTS的专家,在向别人介绍我的时候,总忘不了说一句“She is the mother of Mulan TTS system”。我总是欣然接受“木兰妈妈”这个称呼。
“木兰”是这样诞生的
我是2000年初加入研究院的,是研究院的第一位女性研究员,也是研究院第一个从事TTS研究的人。我带领的这个TTS小组在很长时间都是微软内部唯一的一个从事语音合成技术研发工作的团队。凭借着在中文语言文化上的优势,我们差不多花了一年左右时间专门从事中文语音合成的研究,做出了一个合成效果非常好的原型系统。之后的一、两年,我们把研究重点转移到了英语语音合成上面,也取得了相当好的效果。
接下来我们选择的方向就是解决中英文混读的问题。随着互联网的发展,中西方文化的交融,越来越多的中文文章中会杂糅有英文内容,可能是某产品的品牌型号,也可能是一首著名歌曲。遇到这样的文章,传统文语转换系统就挠头了。最典型的解决方案就是在后台架起两个系统,一个专门处理中文,一个专门处理英文。遇到中英文混杂的句子,就将中文部分分割出来送给中文系统,英文部分则送给英文系统,然后将两者的输出合并起来返回给用户。这样做的最大缺陷在于分开处理的两种语言缺乏统一的语调、语气,甚至连声音本身都差别很大。这样的结果听上去时断时续,极为不连贯。可懂度(能听懂)和自然度(听起来舒服)都比较差。我们当时花了很多精力去物色一个中英文都比较强的播音员,为我们的语音系统录音,这样就可以保证语音数据库中的双语声音是一致的。另外我们还将中英文的处理能力融合在一个系统中,有统一的韵律控制,这样生成的语句即便包含两种语言,也能有统一的语调和节律,就像一个能讲双语的人讲出来的话。这个双语语音合成系统在可懂度与自然度上都取得了较好的效果。我们将这个系统命名为木兰。木兰就是这样诞生的。
(TTS系统中的木兰形象)
之后的一段时间里,我们致力于不断提高木兰的声音质量,并从应用角度探索如何将语音合成技术方便人们的日常生活, 例如语音聊天室(一方输入文字,另一方听到声音)、动画配音(为孩子DIY动画故事)、个性化声音加工等等。在我们完成了一个又一个有趣的研究项目的过程中,木兰长大了,成熟了。
木兰“嫁”入Vista
在2003年之际,微软公司在着力开发新一代操作系统Vista,当时总部产品部门基本准备购买其他公司的一套现成的语音合成软件。在他们对木兰有所了解后,最终决定采用我们的技术成果。这对TTS研究团队无疑是一件欢欣鼓舞的事情,因为能把自己的研究成果转化到服务于用户的产品中是我们的梦想。可是,事情运作起来远没有想象的那么简单。所有的开发和单元测试工作都必须在北京做。而我们这个以研究为主的团队,写程序不是我们最擅长的能力,而且势必占用我们很多做研究的时间。但是,为了一个共同的目标——把自己的研究成果做进微软产品,我们团队的每一个人都非常投入地做这个项目。
刚开始,我们只有5个人,三个来自TTS组,两个来自技术转化组。大家分担着产品开发环节中的各个角色,PM、SDE、SEET ,每天都超负荷运转着。正巧,项目启动后不久,微软亚洲工程院宣布成立,它成立的使命是把研究院的最新技术孵化进产品中去,TTS项目也就成了工程院的第一批项目之一。 电子书 分享网站
“木兰”妈妈 初敏(2)
我们从总部争取到了更多的人员指标,TTS开发组逐渐扩大了,有了专职PM、Developer和Tester。当然,任务也更多了,不光要把TTS做进操作系统,还要做到所有需要TTS技术的产品中去。不光要做中文、英文,还要做西班牙语、日语、法语等二十多种语言。大概在2004年8月份左右,在工程院中,我们已经孵化出一支完整的TTS开发团队,而我们几个仍想致力于研究工作的人逐渐抽身,开始考虑下一步的研究方向。而那时候,为Vista做的工作已经完成了80%以上。
当我的木兰最终“嫁”了出去后,有段时间我产生了一种空落感,茫然若失。TTS作为一个产品化了的技术算是大功告成了,那么接下来应该怎么走,还能做些什么?在这些问题上我们的团队做了很多思考。在随后的两年中,我们主要在语音合成技术的应用化、个性化层面进行大胆的探索,通过把十余种较有代表性的地方方言运用到语音的表达中,试图使对话效果更富趣味性、拟人性和娱乐性。在这个创意的基础上,我们做出了一些原型系统,效果还很不错。这些工作都是木兰的延伸。
18年的缘份,妙不可言
回想起来,我与语音合成这个研究方向已经结缘十多年了。这缘分源自于硕士入学之初的一次选择。
当时我从西北工业大学保送到哈尔滨船舶工程学院读研究生,信号处理专业有两个方向供我们选择,图象处理和语音处理,当时图象处理很热,好几个同学想选,我就决定不凑热闹了,选了语音处理。后来发现这个方向还蛮有意思的,就开始投入其中。等两年后报考中科院声学所博士时,我依然申请了语音合成方向。就这样,我的硕士、博士论文工作奠定了我之后长达十多年的研究兴趣。
大家都说爱一行,干一行。从硕士阶段开始算起,到后来留在声学所工作、直到在微软亚洲研究院工作到2007年,我已经在这个领域奋战了近18个年头了。我一直觉得自己是个很专注的人,但是仍不敢想象这种执着竟坚持了这么久。
语音合成是一个交叉学科,既要懂得语音信号处理,还要掌握语言内部的音韵、语法等系统的知识,并且需要能将这些知识很好的融合到语音合成系统之中。此外,还需要了解心理学实验方法,通过各种实验来帮助我们更好地理解人的听觉特点,从而更好的满足用户的需求。正是因为它所要求的相关学科的知识面比较广,才吸引我投入了这么多时间在上面。
而研究院,也是从事这样专注研究的一个好地方,它为每个研究员提供了很好的平台与环境,还有做事情的自由,每个人有很大的自由决定想做什么,不做什么。而且,只要要求合理,研究院总是会保障你有足够的资源做自己的研究。我曾经很奢侈地拥有过一个专门的录音室,在那里,我们进行了各式各样的录音实验,这也是木兰会有很好的音质的一个重要保障。
期盼再做一次“妈妈”
到2007年的时候,我已在TTS领域耕耘了十多年了。虽然,颇有收获,但内心深处逐渐萌生去打探一下TTS之外的领域的念头。这时,我对大规模数据加工处理产生了兴趣,这其中麻省理工学院的Victor Zue教授给了我很大的启示。
有一次,他来研究院访问时时,对我们提过这样一个问题:如果将你在做研究中所使用的数据量,乘上一百或者一千倍,同样的问题还能用同样的方法来解决吗?
是呀,随着互联网技术的发展,我们可以接触、收集的数据量迅速增长,面对这样大规模增长的数据,我们能做什么呢?应该怎么做呢?如何对大规模数据进行挖掘、分析和再利用成为了一个极富挑战的研究难题,对我也产生了强烈的吸引力。于是,就在2007年,我做了一个重要决定,扩展一下自己的研究领域,从语音组转到了以数据为中心的计算组,开始了一段新的研究历程。
将来会怎样,我无法预期,但我充满信心的期待着下一个硕果累累的十年,希望自己能孕育出另一个木兰,再做一次妈妈。
作者介绍:
初敏,2000年3月加入微软亚洲研究院,从事语音分析与合成、韵律模型和文语转换等方面的研究,她主持研究的木兰中英文双语文语转换技术成功的应用于微软的新一代操作系统Vista之中。2007年开始,初敏致力于将各种机器学习和数据挖掘技术用于大规模数据的分布式计算。工作之余,她最大兴趣是游山玩水,