【CS230-DL】15 序列模型和注意力机制

主课的最后一讲，我们来看看非常出名的 Seq2Seq 模型和注意力机制，这些都是 RNN 得以在机器翻译、语音识别、自然语言处理领域大放异彩的重要原因。

更新历史

2019.10.25: 完成初稿

Seq2Seq 结构

因为 Sequence to sequence 实在不太好翻译，后面统一叫 seq2seq。我们先来看如下场景：我想要把一个法语句子(Jane visite I’Afrique en Septembre)翻译成一个英语句子(Jane is visiting Africa in September)，我们用诸如 $x^{<1>}$ 表示输入句子的单词，$y^{<1>}$ 表示输出句子的单词，要如何训练出一个神经网络来通过 x 得到 y 呢？就可以用 seq2seq 模型，如下图所示：

编号 1 的网络叫做编码网络(encoder network)，是一个 RNN 结构(单元可以是 GRU 或 LSTM)，每次只向该网络中输入一个法语单词，全部输入后，网络会输出一个向量 A 来代表这个输入序列（可以理解为对这句话做了 encoding）。然后我们再建立一个解码网络(decoder network)，也就是编号 2 的部分，用前面编码网络输出的向量 A 作为输入，会解码出一个新的句子，这样就完成了翻译。

我们甚至可以输入一张图片，这样一来就变成了看图说话，如下图所示：

注：Image captioning 的模型称为 Image to Sequence，但思路是和 seq2seq 类似的。

选择最可能的句子 Pick the Most Likely Sentence

仔细观察 seq2seq 模型的后半部分，就会发现这和前面我们提到的语言模型很相似，都是一对多的模式。这里有一个差别在于 seq2seq 的 decoder 被称为条件语言模型(conditional language model)，为什么说是条件，因为 seq2seq 的 decoder 的输出取决于输入，而不是像语言模型直接从 $a^{<0>}$ 开始，如下图所示（注意紫色网络与语言模型的输入的差别）：

因为语言模型只是对应各个单词输出的概率，我们实际上是可以得到各种英文翻译所对应的可能性的，如下图：

我们要找的就是在 x（法语）的前提下，找到使 P 最大的 y（英语）的句子，这就涉及到如何在一个概率搜索空间中进行检索的问题，一般采用集束搜索(Beam Search)，这个我们后面再详细介绍。

说到搜索，为什么我们不能用最简单的贪心搜索？也就是每次都选择概率最大的词呢？简单来说就是每一步的最优并不能使得整句话最优，下面就是一个可能的反例：

比如我们要选择 is 后面的单词，因为 is going to 在英语中是更加常用的表达，going 的概率很可能比 visiting 要大，但是显然第一句翻译会比后面的更好。

所以，我们还是老老实实学习一下 Beam Search。

集束搜索 Beam Search

我们用一个实际的例子来看看 Beam Search 的工作原理，我们的词表如下图所示（绿色部分是 encoder，紫色部分是 decoder）：

我们想要找到输入 x 之后，第一个输出的 y，也就是 $y^{<1>}$ 是多少。和贪婪搜索只看概率最大的不同，Beam Search 会看多个选择，这个数量由 Beam Width 参数确定，这里我们设为 3，也就是一次会考虑 3 个选择。针对 $y^{<1>}$，我们选出最有可能的三个单词：in, jane, september（注意，这里的紫色箭头实际上是一个 softmax 层，会输出 10000 个概率值，我们选前 3 个存起来）。

接着我们要选择第二个单词，从 in 开始，这里我们选择的并不是 in 后面最大概率的词，而是和 in 一起出现概率最大的词组。第一步有 3 个选择，第二步拼起来就有 3x10000 种选择，我们再挑出其中概率最大的三组（图上 456 标记出来的）。然后我们再看下一步：

通过这样的方式，我们可以不断求出更长的条件概率，公式转化下就可以得到在 x 的条件下，使 y 条件最大的单词组合。

上面提到的集束搜索，本质是最大化 $P(y^{<1>}…y^{}|X)$ 的概率，因为不容易直接求解，所以一般来说会转化成若干条件概率相乘：

$P(Y^{<1>}|X)P(y^{<2>}|X,Y^{<1>})P(Y^{<3>}|X,Y^{<1>},Y^{<2>})...P(Y^{<T_y>}|X,Y^{<1>},Y^{<2>}...Y^{<T_y-1>})$

一般来说这些概率值都远小于 1，一直乘下去的话，会造成数值下溢出(numerical underflow)，所以实践中我们会对上面的公式取 log，变成求和来进行概率最大化。

另外，如果有一个很长的句子，那么在求和中会倾向于更短的翻译（因为多乘一个概率小于 1 的值，实际上很可能降低概率），所以我们可以改为求解每个单词的概率取对数的平均，就避免了对短句子的倾向，这就是长度归一化。

在实践中，相比于直接除以输出句子的单词总数 $T_y$，我们一般会在 $T_y$ 加上指数 a，比如 0.7（当 a 为 1 的时候相当于常规的长度归一化）。这里的 a 的值目前暂时没有理论验证，但是效果不错，所以也是一个需要调整的超参数。

集束搜索误差分析 Error Analysis in Beam Search

集束搜索是一种近似搜索算法，也被称为启发式搜索算法，问题在于，如果没搜索对，我们要如何判断是 RNN 模型的问题，还是集束搜索本身参数设置的问题呢？所以我们需要对集束搜索进行误差分析。

还是用 Jane visite I’Afrique en septembre 作为例子，人工翻译为 Jane visits Africa in September，我们记为 $y^$；而假设 RNN 模型输出的结果是 Jane visited Africa last September，记为 $\hat{y}$。注意，RNN 实际上是一个编码器和解码器，计算的就是 $P(y|x)$，所以我们直接把人工的翻译放到解码器的部分，计算出 $P(y^|x)$，然后再计算出 $P(\hat{y}|x)$，有了这两个值我们就可以比较了，如下图所示：

简单来说就是如果真实的翻译在网络中的概率比机翻的高，那么是集束搜索的锅，因为本来应该搜索到的，应对方法就是把 Beam Width 调大一些；反之，则是 RNN 模型的锅，因为模型对更好的句子的预估值反而低，应对方法就是看看模型本身有没有哪里可以改进。

另外一下，评价机器翻译有一个指标叫做 BLEU(bilingual evaluation understudy) 分数，详情这里不展开，但是分数越高，说明翻译得越好。

直观理解注意力模型 Attention Model Intuition

注意力模型现在已经是深度学习中最重要的思想之一，我们这一节会来简单了解下。

先来看看机器翻译中一个很突出的问题：长句翻译。在我们的网络中，绿色的部分需要读入整个句子并记忆，然后传递给后面的紫色网络生成翻译。对比下人类如何进行翻译的，并不是一下看全部，而是一点一点往后翻译的。正因如此，我们可以看到在句子越来越长的时候，Bleu 得分会急剧下降。

而注意力模型可以看作是对人类翻译的模仿，能够让一个神经网络只注意到一部分的输入句子，从而更好地利用上下文进行翻译。

注意力模型 Attention Model

关于注意力模型的介绍，可以参考这里，我个人感觉要比课程本身说明得更加清晰，这里就不再赘述。

课程的最后两部分是语音识别相关的，因为我做得比较少，这里就不再记录。