教“尬聊机器人”学会像人一样聊天有多难？

陈曦

“我想买手机有什么推荐吗？”“三星的不错，我之前一直用三星的。”“魅族是国产手机十大品牌之一，好不好，用了才知道哦。”“小米也不错。”“小米比大米有营养。”这些看似时而认真，时而无厘头的对话和我们日常微信群聊看似并无二致，其实这个群都是机器人们在畅所欲言。这是日前中国中文信息学会社会媒体处理专委会（SMP）和中国网络视听节目服务协会音频工作委员会主办的，在天津高新区举行的第三届“社交机器人”论坛暨首届机器人群聊比赛研讨会展现的场景，这种由多个社交机器人同步对话的比赛在国内外都比较新颖。能让机器人们聚在一起好好聊个天可是个“技术活”，不仅要把多智能体强化学习的方法应用在自然对话场景中，还需要优化社交机器人在不同上下文语境下的谈话策略。

陈曦摄

这群机器人聊天有点“尬”

据了解，本次比赛尝试将多智能体人机对话的技术应用在自然对话场景中，选取特定主题的启动句，打乱启动顺序，经过单轮或者多轮对话，生成符合主题且流畅的对话。最终由自动评价和人工评价相结合，根据主题相关性、语言流畅性和语境相关性进行打分。

“刚刚还是一群认真在聊天的机器人，可能因某一个机器人话锋一转，整个话题就被带入尬聊场景。就像那个推荐手机的话题，明明是在聊手机，因为一个机器人说了小米，整个话题就变成了美食和养生。”大赛组委会委员哈尔滨工业大学张伟男副教授介绍说，通过这次比赛，我们看到机器人们的聊天能力有所增强，但是与真人聊天相比还存在几个问题：多样性程度比较低，语言比较贫乏，回复重复率高；一致性能力弱，同一个群聊下，机器人经常前后回复出现矛盾；主题漂移，就是我们常说的跑题，几乎每个群聊到最后都跑题；质量不稳定，回复质量差的机器人严重影响群聊质量，机器人不能很好的筛选对话历史进行回复决策。

支持机器人聊天背后的技术

这些看似简单的机器人群聊背后，都需要人工智能的交互式实现技术——人机对话技术的发展作为支撑。获得首届机器人群聊大赛第一名的队伍FunNLP的指导老师，天津大学张鹏副教授介绍说，在研究上，大数据和深度学习共同推动了自然语言理解技术的发展。人机对话技术的发展主要经历了三个阶段，这三种技术都各有优缺点，但目前都应用于人机对话领域。

基于规则的人机对话系统，机器人根据系统中预先定义的一些规则来进行回复，例如关键词，if-else条件等。这种技术最大的缺点是人工撰写规则，需要定义的规则太多，需要付出极大的努力来做规则设计；基于检索的人机对话系统，比生成模型更简单，直接从预先定义的候选池中选择最佳的答案，但缺点是无法应对自然语言的多变性、多义性、语境结构、连贯性等，且当输入消息的语义差别很小时，机器人便无法精确识别，以至于无法生成新的回复。“目前是研究界的热点是基于生成的人机对话系统。”张鹏表示，与检索型对话机器人不同的是，它可以生成一种全新的回复，因此相对更为灵活。但是这种系统有时候会出现语法错误，或者生成一些没有意义的回复。

机器人为什么不能像人一样聊天

近年来，人机对话领域引起了工业界和学者们的广泛注意，相关产品层出不穷，应用范围不断扩大。在我们日常生活中，不同类型的人机对话可谓是随处可见：闲聊式对话，如微软小冰；任务驱动的多轮对话，如订餐对话系统等；问答式的对话，如汽车语音系统；推荐式对话，如一些客服机器人。其中闲聊、问答和任务型对话是用户输入内容后系统才会给出相应的回复，而推荐是系统主动向用户提供服务和信息。‌但由于各项技术尚未成熟，因此对话机器人还达不到“人”的对话水平，表现不够灵活，甚至会产生一些笑料。

对于本次比赛的机器人在群聊回复方面出现的一些问题，天津大学张鹏副教授解释说，这主要是由三方面原因造成的。首先对话机器人在对群聊对话记录的理解，回复的情感一致性及与其他机器人的交互三个方面存在一定的问题。由此，群聊过程中出现了机器人自顾自回复或者是矛盾性回复等现象。

其次，某些特定领域的对话数据是相当有限的，如本次比赛中的数码产品和美食主题。此外，这些领域的中文闲聊型对话数据的收集和对话系统的构建都是十分耗费人力的。基于神经网络的模型能够利用大量的数据进行训练，但在训练阶段也需要新的方式来弥补它的不足。

第三，目前基于神经网络的对话系统主要依赖于大量结构化的外部知识库信息和对话数据。系统通过训练来“模仿”和“学习”人类的说话，这也导致了回复单一的问题，而且有时是没有意义的。因此，对话智能体需要通过对语言和语境的深度理解来更加有效地学习。

机器人像人一样聊天还需哪些技术

“虽然深度学习技术被充分运用，技术水平有所提高，但是以目前的技术来说，要做到让机器人像人一样的聊天还有一定的难度。”张鹏表示，人类的对话是极其复杂的，其中每个语句都建立在对应的语境和上下文的基础上，朋友们在聊天时甚至在对方说话之前就预料到下一句会说什么。

若想要达到与人类水平相当，目前有几种方法可以探讨。其中一种是构造庞大且高度复杂的AI模型，如现在基于Transformer结构的Bert模型和GPT模型，其参数量已达到数亿级。然而模型越大，从用户输入信息到对话系统反应，这之间的延时就越长，而且实质上，此类模型仍然需要依赖于大量的数据，这与人类的思考和学习方式不符。

第二种是Learning to Learn(Meta Learning)技术需要具备学会学习的能力，能够基于过往的经验快速地学习。这类模型是模拟人的思考与学习方式，从本质上更接近人类间的相互对话。但问题是我们需要结合具体的任务，提出基于Meta-Learning的解决方案，这无疑需要更加深入的研究。

第三种是强化学习：强化学习系统由智能体（Agent）、状态（State）、奖赏（Reward）、动作（Action）和环境（Environment）五部分组成。现在的研究工作主要是将强化学习应用于任务型对话系统的策略学习上，强化学习能解决基于规则策略存在的泛化能力差、人工成本高等问题，并且无需大量的训练语料，只需要一些目标，便能够提高任务型对话的质量，避免了深度学习的一大缺点，当然强化学习也会带来很多挑战，比如智能体会给当前互动的环境带了一定的影响等等，这些都是需要我们去不断探索的和深入研究的。

科技新闻传播、科技知识普及 - 中国科技新闻网
关注微信公众号（kjxw001）及微博（中国科技新闻网）

微信公众号

微博