本系列为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》的全套学习笔记,对应的课程视频可以在 这里 查看。
ShowMeAI为CS224n课程的全部课件,做了中文翻译和注释,并制作成了 GIF动图!点击 第10讲-NLP中的问答系统 查看的课件注释与带学解读。更多资料获取方式见文末。
CS224n是顶级院校斯坦福出品的深度学习与自然语言处理方向专业课程,核心内容覆盖RNN、LSTM、CNN、transformer、bert、问答、摘要、文本生成、语言模型、阅读理解等前沿内容。
本篇笔记对应斯坦福CS224n自然语言处理专项课程的知识板块:问答系统。主要针对NLP中的问答系统场景,介绍了一些模型和思路。
QA 系统的概念是直接从文档、对话、在线搜索等中提取信息(有时是段落,或是单词的范围),以满足用户的信息需求。 QA 系统不需要用户通读整个文档,而是倾向于给出一个简短的答案。
现在, QA 系统可以很容易地与其他 NLP 系统(如聊天机器人)结合起来,有些 QA 系统甚至超越了文本文档的搜索,可以从一组图片中提取信息。
有很多类型的问题,其中最简单的是 Factoid Question Answering 事实类问题回答。它包含的问题看起来像
The symbol for mercuric oxide is?
(氧化汞的符号是什么?)Which NFL team represented the AFC at Super Bowl 50?
(哪支NFL球队代表AFC参加超级碗50赛?)当然还有其他类型的问题,如数学问题((2+3=?))、逻辑问题,这些问题需要广泛的推理(而且没有背景信息)。然而,我们可以说在人们的日常生活中,寻求信息的事实类问题回答是最常见的问题。
事实上,大多数 NLP 问题都可以看作是一个问答问题,其范式很简单:
因此,很自然地,我们想设计一个可以用于一般 QA 的模型。
为了实现这一目标,我们面临两大障碍。
我们可以使用NLP的共享体系结构来解决第一个问题:动态内存网络( DMN ),这是一种为一般 QA 任务设计的体系结构。 QA 很难,部分原因是阅读一段很长的文字很难。即使对于人类,我们也不能在你的工作记忆中存储一个很长的文档。
将 DMN 分为多个模块。首先我们来看输入模块。输入模块以单词序列 (T_I) 作为输入,输出事实表示序列 (T_C)。如果输出是一个单词列表,我们有 (T_C = T_I)。如果输出是一个句子列表,我们有 (T_C) 作为句子的数量, (T_I) 作为句子中的单词数量。我们使用一个简单的 GRU 来读取其中的句子,即隐藏状态 (h_{t}=operatorname{GRU}left(x_{t}, h_{t-1}right)),其中 (x_{t}=Lleft[w_{t}right]), (L) 为嵌入矩阵,(w_t) 为 (t) 时刻的单词,我们使用 Bi- GRU 进一步改进,如下图所示。
(本部分DMN网络频繁使用到GRU结构,具体的GRU细节讲解可以查看ShowMeAI的对吴恩达老师课程的总结文章深度学习教程 | 序列模型与RNN网络,也可以查看本系列的前序文章NLP教程(5) - 语言模型、RNN、GRU与LSTM)
我们也使用标准的 GRU 来读取问题(使用嵌入矩阵 (L : q_{t}=operatorname{GRU}left(Lleft[w_{t}^{Q}right], q_{t-1}right))),但是问题模块的输出是问题的编码表示。
动态记忆网络的一个显著特征是情景记忆模块,它在输入序列上运行多次,每次关注输入的不同事实子集。它使用 Bi- GRU 实现这一点, Bi- GRU 接收输入模块传入的句子级别表示的输入,并生成情景记忆表示。
我们将情景记忆表征表示为 (m^i),情景表征(由注意机制输出)表示为 (e^i)。情景记忆表示使用 (m^0 = q) 初始化,然后继续使用 (mathrm{GRU} : m^{i}=mathrm{GRU}left(e^{i}, m^{i-1}right))。使用来自输入模块的隐藏状态输出更新情景表征,如下所示,其中 (g) 是注意机制。
注意向量 (g) 的计算方法有很多,但是在原始的 DMN 论文(Kumar et al. 2016)中,我们发现以下公式是最有效的
这样,如果句子与问题或记忆有关,这个模块中的门就会被激活。在第 (i) 遍中,如果总结不足以回答问题,我们可以在第 (i +1) 遍中重复输入序列。
例如,考虑这样一个问题 Where is the football?
以及输入序列 John kicked the football
和 John was in the field
。在这个例子中,John和football可以在一个pass中连接,然后John和field可以在第二个pass中连接,这样网络就可以根据这两个信息进行传递推断。
回答模块是一个简单的 GRU 解码器,它接收问题模块、情景记忆模块的输出,并输出一个单词(或者通常是一个计算结果)。其工作原理如下:
通过实验可以看出, DMN 在 babl 问答任务中的表现优于 MemNN,在情绪分析和词性标注方面也优于其他体系结构。情景记忆需要多少个情景?答案是,任务越难,通过的次数就越多。多次传递还可以让网络真正理解句子,只关注最后一项任务的相关部分,而不是只对单词嵌入的信息做出反应。
关键思想是模块化系统,你可以通过更改输入模块来允许不同类型的输入。例如,如果我们用一个基于卷积神经网络的模块替换输入模块,那么这个架构就可以处理一个称为可视化问题回答(VQA)的任务。它也能够在这项任务中胜过其他模型。
自2015年以来,寻找能够解决所有问题的通用体系结构的热情略有减退,但在一个领域进行训练并推广到其他领域的愿望有所增强。要理解更高级的问答模块,读者可以参考动态注意力网络(DCN)。