算法周刊·专访｜业界AI大牛投身学术圈，周伯文：学术研究不仅仅

2022-06-19 09:22:28

　　AI Lab的张潼任联合实验室主任，目前张潼也在香港科技大学数学系任教。

　　周伯文在海外工作时，就有很多身边的案例。回国前，他在IBM T. J. Watson研究中心工作了15年。“在中心里我一直有很多同事，他们在工业界做科研很长一段时间之后加入CMU、Yale、JHU、Columbia等高校。”

　　周伯文表示，从全球来看，这种产学研结合不是近年来才有的新兴事物，往往正是成功的产学研结合成果深刻地改变了我们的生活。将前沿理论变为划时代的应用需要对技术、产品、市场都有深刻洞察，尤其是像人工智能这样讲究落地的学科，结合现实问题，进行更多探索性的学术研究是非常有必要的。

　　产学研结合过程中，学术研究和产业化具有不同特性。学术研究的目的是探索新知，在具备广阔视野的基础上，必须聚焦才能深入，从文献、综述开始了解前人的工作需要大量的知识建构过程，然后研究者需要提出一个很具体的待开拓的研究方向，是一个从简到繁的工作。

　　而产业化则更倾向于解决问题，尤其是通过技术成果的创新应用解决有很多实际约束条件的问题，这里面很重要的一个工作是技术的产品化，即需要面向明确的使用者、具象化的场景做好符合技术成果能力边界的产品设计，并在工程上做足测试、试验和验证，判断是否能够以合理成本规模化进行和应用，最后的目标才是产品的市场化及大规模交付。

　　凡是能够规模化、商业化成功的产品，其设计、开发、集成和生产过程都是十分精益的。所有的复杂度都隐藏在产品后面，留给用户的是可靠、简单、易用的体验，由繁至简。“所以我们看到大多数影响深远的产学研成果的落地，都需要经历一个从简到繁、从繁到简的过程。”

　　在实际工作中，工业界的研发更倾向于逆向的市场问题导向，以待解决的业务问题倒逼思考用何种产品，才能在可控成本和用户体验得到保证的情况下解决实际问题，接着围绕产品寻找既可规模化又可高效解决问题的技术。

　　更多时候，对市场问题的技术认知是一个过程。工业界的研发需要“对问题一层一层抽象”，“前面是市场需求与机会的洞察，后面则具象成技术、产品问题，所需要的技术边界的突破最后归纳成学术研究的基础问题。”

　　周伯文认为，新型的产学研融合，不再仅仅是原有比较普遍的单链条地从学校、公司到市场的科研成果转化，也需要从市场开始，对真正能够提高国计民生、提高国家硬科技水平能力，同时能够提高市场效率、提高企业竞争力、提高生活水平的重大问题形成认知，提炼抽象成学术问题的同时还要把这种问题抽象的能力更好地传递给学生和青年学者，建设工业界与学术界相互牵引，双螺旋同步上升的良好生态。

　　要做线年，苹果手机iPhone诞生。比这更早的是，2003年，手持设备上大词汇双向语音翻译系统就已经出现了，不同语言的两个人可以通过一个手持设备互相用语音实时对话。而这项技术背后的研发者就是当时还在IBM工作的周伯文。

　　“当时最好的商用手持设备PDA，我记得只有32兆存储，206兆赫兹的定点CPU，都没有浮点计算能力，它的算力、存储现在看都像恐龙一样原始。而且语音识别也好，机器翻译、语音合成也好，都是对算力、模型大小有很高的要求，而且为满足用户自由交流需要的词汇量越大，需要的模型越大，计算越复杂。所以当时我一个人开始做这个项目的时候，大家都觉得挑战非常大，近乎不可能。”

　　但一个现实问题是，语音翻译系统的使用者不可能随时随身携带笨重的大电脑，在本世纪初的通信条件、云计算远远没有普及的年代这套系统也不可能随时连接到服务器。“所以很明确，只有把这个技术放在手持设备上落地才能真正给用户带来价值，解决在语言不通情况下的信息交流问题。”

　　从学术研究的角度来看，语音翻译系统技术已有研发，“前一个项目已经成功结束了，我也做出了我的贡献，写好的论文也发表了，本来我可以选择去做下一个热点的学术研究。”如果再把宝贵的科研时间花在一个手持语音翻译系统的研究上，可以确定的是这一定需要做大量的优化与工程工作，这些工作量巨大，但很难基于这些工作发表论文，而不可确定的是这个想法的可行性，因为以前没有人做过。所以，很多人会觉得这是一个没有那么迷人的项目。

　　“非常感谢，当时我在IBM的领导们也都很支持我去尝试。所以我花了快一年的时间，基本上所有周末、晚上我都在实验室写代码、调试硬件设备。”当年没有安卓也没有iOS系统，当时几乎所有手持设备上使用的Windows CE作为人工智能系统的开发环境与操作系统都十分困难，“不方便做profiling，也很难debug。”

　　周伯文不得不从最底层的操作系统来设计他的语音翻译系统，自己根据底层硬件，适配驱动程序，从头开始编译嵌入式Linux系统，自己写开发工具链，重新设计语音翻译系统的架构和重写代码，更重要的是还得找到新算法。“原来大家做的普遍架构是瀑布式的，即先做语音识别，再做机器翻译，再做语音合成。但这样的‘大道场’架构放在手持设备这样的‘螺蛳壳’里，第一速度太慢，第二内存不够，第三语音识别的准确率会影响机器翻译的准确率。”

　　为此他提出了新的模型和新的架构来重构语音识别系统，其中的一个创新是将语音识别和机器翻译结合在一起联合，多项创新融合将语音翻译在准确率不变的情况下速度提升了100多倍。“所以到2003年年底我们推出了这个系统之后，当时确实改变了很多人的思考方式。后来这个领域的研究和成果比赛，很多公司和高校如CMU都开始往手持设备上走。”基于其推出的便携语音翻译产品也在多个应用场景里获得商业化的成功，后来这个工作的一部分发表在Proceeding of IEEE期刊关于语音翻译领域进展的综述里。

　　回过头来看，如果纯粹是为了论文影响力的最大化，当年周伯文做这件事并不算一个“聪明”的举动，在产品化方面花费的精力其实也可以用来

　　周伯文的研究方向涉及多模态与知识的表征、理解、交互与推理、可信赖人工智能的新方式等。他和合

　　就像人类之间对话一样，一个好的AI对话系统不仅能帮助用户，而且能够让AI学习得更快。“对话过程本身是非常好的学习手段，不要仅仅把对话型AI作为一个应用去研究，还要把它作为一种学习机制来研究，这是接下来对话型AI需要拓展的一个地方。”

　　自然语言处理的一个新分支Prompt AI，也就是提示型AI，它是研究者们为了下游任务设计出来的一种输入形式或模板，能够帮助预训练语言模型“回忆”起自己在预训练时“学习”到的东西。prompt给预训练模型提示，预训练模型一“看到”它就知道自己要完成什么任务。

　　在语言理解和人机对话领域最令人印象深刻的就是人们见证了超大规模预训练语言模型的出现。对话型AI目前进展很大，一个重要原因就是大训练模型使得AI在预训练中“见过”大部分上下文，因此能够更好地根据上下文预测接下来应该说什么。

　　但目前对话型AI仍有三大局限。周伯文认为，一是底层机制没有改变，AI系统缺乏常识，缺乏对世界的认知模型和对演绎机理的理解。“人与人之间的对话，显式表达的内容只是整个对话的一部分，对话中隐含的另外一部分是关于你和我对这个世界共同的理解。”

　　“比如在对话中我们都知道‘清华大学’、‘人工智能’、‘IBM’这些概念及其背后的含义……但是在AI对话中，我们没有好的模型去融合这些没在对话内容里呈现的常识对理解与预测对话的作用。这是一个巨大的问题。”

　　周伯文提出，要构建场景驱动的知识表征机制，在每轮对话中，以轮次对话内容为核心，实时构建对话相应的外延。“对话中涉及到或者没涉及到的实体，把它们的关系、逻辑构建出来，用知识的结构化、可微分求导表征作为对话模型的一部分。”这也是他目前的工作方向之一。

　　第三个局限在于，对话型AI缺乏驾驭对话的能力。人与人之间的对话是动态的，在对话过程中会评估对话有效性、对话参与人的感受、距离目的达成的差距，从而调整对话。而对话型AI“要不就是极易收敛，没有拓展对话外延；要不就是对话被对方牵引着”。也就是通常表现为不具备开放式的对话能力，对话范围窄，无法主动高效地引导话题。如果在复杂的任务导向型对话中，对话型AI缺乏对话策略的自学习和更多博弈论的研究。

　　人工智能是解决实际问题的学科，不仅需要前沿的技术研究，更重要的是落地实际产业问题才能创造价值。DeepMind用人工智能程序AlphaFold2在蛋白质结构预测上大显身手后，又利用人工智能控制核聚变，而核聚变能也是全世界能源发展的前沿方向。

　　要让研究在真实的行业场景里扎扎实实解决问题。 “正如今年4月清华大学电子工程系成立70周年纪念大会所倡导‘让研究成果在学术上上书架，在产业上上货架’。”周伯文说，这些理念的提出非常激动人心，“真正产生创造性影响的人工智能就是需要这样‘顶天立地’的。”

　　此外，随着人工智能研究的深入，机器学习、数据挖掘、自然语言处理、计算机视觉等人工智能子领域之间的壁垒就越低。“20年前做人工智能，做视觉的基本上不了解自然语言处理在做什么，做自然语言处理的不了解语音识别在做什么。”因此当下在研究生阶段要尽早融会贯通，形成对不同学科的见解，交叉融合创新。