第五门课 序列模型(Sequence Models)
第一周 循环序列模型(Recurrent Neural Networks)
文章目录
-
- 第五门课 序列模型(Sequence Models)
- 第一周 循环序列模型(Recurrent Neural Networks)
-
- 1.1 为什么选择序列模型?(Why Sequence Models?)
- 1.2 数学符号(Notation)
- 1.3 循环神经网络模型(Recurrent Neural Network Model)
- 1.4 通过时间的反向传播(Backpropagation through time)
- 1.5 不同类型的循环神经网络(Different types of **RNN**s)
- 1.6 语言模型和序列生成(Language model and sequence generation)
- 1.7 对新序列采样(Sampling novel sequences)
- 1.8 循环神经网络的梯度消失(Vanishing gradients with **RNN**s)
- 1.9 **GRU**单元(Gated Recurrent Unit(**GRU**))
- 1.10 长短期记忆(**LSTM**(long short term memory)unit)
- 1.11 双向循环神经网络(Bidirectional **RNN**)
- 1.12 深层循环神经网络(Deep **RNN**s)
本周编程作业见:
1.1 为什么选择序列模型?(Why Sequence Models?)
循环神经网络(RNN)之类的模型在语音识别、自然语言处理和其他领域中引起变革。我们先看一些例子,这些例子都有效使用了序列模型。
在进行语音识别时,给定了一个输入音频片段 X X X,并要求输出对应的文字记录 Y Y Y。这个例子里输入和输出数据都是序列模型,因为 X X X是一个按时播放的音频片段,输出 Y Y Y是一系列单词。所以之后将要学到的一些序列模型,如循环神经网络等等在语音识别方面是非常有用的。
音乐生成问题是使用序列数据的另一个例子,在这个例子中,只有输出数据 Y Y Y是序列,而输入数据可以是空集,也可以是个单一的整数,这个数可能指代你想要生成的音乐风格,也可能是你想要生成的那首曲子的头几个音符。输入的 X X X可以是空的,或者就是个数字,然后输出序列 Y Y Y。
在处理情感分类时,输入数据 X X X是序列,你会得到类似这样的输入:“There is nothing to like in this movie.”,你认为这句评论对应几星?
系列模型在DNA序列分析中也十分有用,你的DNA可以用A、C、G、T四个字母来表示。所以给定一段DNA序列,你能够标记出哪部分是匹配某种蛋白质的吗?
在机器翻译过程中,你会得到这样的输入句:“Voulez-vou chante avecmoi?”(法语:要和我一起唱么?),然后要求你输出另一种语言的翻译结果。
在进行视频行为识别时,你可能会得到一系列视频帧,然后要求你识别其中的行为。
在进行命名实体识别时,可能会给定一个句子要你识别出句中的人名。
所以这些问题都可以被称作使用标签数据 ( X , Y ) (X,Y) (X,Y)作为训练集的监督学习。但从这一系列例子中你可以看出序列问题有很多不同类型。有些问题里,输入数据 X X X和输出数据 Y Y Y都是序列,但就算在那种情况下, X X X和 Y Y Y有时也会不一样长。或者像上图编号1所示和上图编号2的 X X X和 Y Y Y有相同的数据长度。在另一些问题里,只有 X X X或者只有 Y Y Y是序列。
所以在本节我们学到适用于不同情况的序列模型。
1.2 数学符号(Notation)
本节先从定义符号开始一步步构建序列模型。
比如说你想要建立一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于J.K.Rowling笔下的系列小说Harry Potter)。假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题,这常用于搜索引擎,比如说索引过去24小时内所有新闻报道提及的人名,用这种方式就能够恰当地进行索引。命名实体识别系统可以用来查找不同类型的文本中的人名、公司名、时间、地点、国家名和货币名等等。
现在给定这样的输入数据 x x x,假如你想要一个序列模型输出 y y y,使得输入的每个单词都对应一个输出值,同时这个 y y y能够表明输入的单词是否是人名的一部分。技术上来说这也许不是最好的输出形式,还有更加复杂的输出形式,它不仅能够表明输入词是否是人名的一部分,它还能够告诉你这个人名在这个句子里从哪里开始到哪里结束。比如Harry Potter(上图编号1所示)、Hermione Granger(上图标号2所示)。
更简单的那种输出形式:
这个输入数据是9个单词组成的序列,所以最终我们会有9个特征集和来表示这9个单词,并按序列中的位置进行索引, x < 1 > x^{<1>} x<1>、 x < 2 > x^{<2>} x<2>、 x < 3 > x^{<3>} x<3>等等一直到 x < 9 > x^{<9>} x<9>来索引不同的位置,我将用 x < t > x^{<t>} x<t>来索引这个序列的中间位置。 t t t意味着它们是时序序列,但不论是否是时序序列,我们都将用 t t t来索引序列中的位置。
输出数据也是一样,我们还是用 y < 1 > y^{<1>} y<1>、 y < 2 > y^{<2>} y<2>、 y < 3 > y^{<3>} y<3>等等一直到 y < 9 > y^{<9>} y<9>来表示输出数据。同时我们用 T x T_{x} Tx来表示输入序列的长度,这个例子中输入是9个单词,所以 T x = 9 T_{x}= 9 Tx=9。我们用 T y T_{y} Ty来表示输出序列的长度。在这个例子里 T x = T y T_{x} =T_{y} Tx=Ty,上一节里你知道 T x T_{x} Tx和 T y T_{y} Ty可以有不同的值。
你应该记得我们之前用的符号,我们用 x ( i ) x^{(i)} x(i)来表示第 i i i个训练样本,所以为了指代第 t t t个元素,或者说是训练样本i的序列中第 t t t个元素用 x ( i ) < t > x^{\left(i \right) <t>} x(i)<t>这个符号来表示。如果 T x T_{x} Tx是序列长度,那么你的训练集里不同的训练样本就会有不同的长度,所以 T x ( i ) T_{x}^{(i)} Tx(i)就代表第 i i i个训练样本的输入序列长度。同样 y ( i ) < t > y^{\left( i \right) < t>} y(i)<t>代表第 i i i个训练样本中第 t t t个元素, T y ( i ) T_{y}^{(i)} Ty(i)就是第 i i i个训练样本的输出序列的长度。
所以在这个例子中, T x ( i ) = 9 T_{x}^{(i)}=9 Tx(i)=9,但如果另一个样本是由15个单词组成的句子,那么对于这个训练样本, T x ( i ) = 15 T_{x}^{(i)}=15 Tx(i)=15。
既然我们这个例子是NLP,也就是自然语言处理,这是我们初次涉足自然语言处理,一件我们需要事先决定的事是怎样表示一个序列里单独的单词,你会怎样表示像Harry这样的单词, x < 1 > x^{<1>} x<1>实际应该是什么?
接下来我们讨论一下怎样表示一个句子里单个的词。想要表示一个句子里的单词,第一件事是做一张词表,有时也称为词典,意思是列一列你的表示方法中用到的单词。这个词表(下图所示)中的第一个词是a,也就是说词典中的第一个单词是a,第二个单词是Aaron,然后更下面一些是单词and,再后面你会找到Harry,然后找到Potter,这样一直到最后,词典里最后一个单词可能是Zulu。
因此a是第一个单词,Aaron是第二个单词,在这个词典里,and出现在367这个位置上,Harry是在4075这个位置,Potter在6830,词典里的最后一个单词Zulu可能是第10,000个单词。所以在这个例子中我用了10,000个单词大小的词典,这对现代自然语言处理应用来说太小了。对于商业应用来说,或者对于一般规模的商业应用来说30,000到50,000词大小的词典比较常见,但是100,000词的也不是没有,而且有些大型互联网公司会用百万词,甚至更大的词典。许多商业应用用的词典可能是30,000词,也可能是50,000词。不过我将用10,000词大小的词典做说明,因为这是一个很好用的整数。
如果你选定了10,000词的词典,构建这个词典的一个方法是遍历你的训练集,并且找到前10,000个常用词,你也可以去浏览一些网络词典,它能告诉你英语里最常用的10,000个单词,接下来你可以用one-hot表示法来表示词典里的每个单词。
举个例子,在这里 x < 1 > x^{<1>} x<1>表示Harry这个单词,它就是一个第4075行是1,其余值都是0的向量(上图编号1所示),因为那是Harry在这个词典里的位置。
同样 x < 2 > x^{<2>} x<2>是个第6830行是1,其余位置都是0的向量(上图编号2所示)。
and在词典里排第367,所以 x < 3 > x^{<3>} x<3>就是第367行是1,其余值都是0的向量(上图编号3所示)。如果你的词典大小是10,000的话,那么这里的每个向量都是10,000维的。
因为a是字典第一个单词, x < 7 > x^{<7>} x<7>对应a,那么这个向量的第一个位置为1,其余位置都是0的向量(上图编号4所示)。
所以这种表示方法中, x < t > x^{<t>} x<t>指代句子里的任意词,它就是个one-hot向量,因为它只有一个值是1,其余值都是0,所以你会有9个one-hot向量来表示这个句中的9个单词,目的是用这样的表示方式表示 X X X,用序列模型在 X X X和目标输出 Y Y Y之间学习建立一个映射。我会把它当作监督学习的问题,我确信会给定带有 ( x , y ) (x,y) (x,y)标签的数据。
那么还剩下最后一件事,我们将在之后讨论,如果你遇到了一个不在你词表中的单词,答案就是创建一个新的标记,也就是一个叫做Unknow Word的伪造单词,用<UNK>作为标记,来表示不在词表中的单词,我们之后会讨论更多有关这个的内容。
总结一下本节课的内容,我们描述了一套符号用来表述你的训练集里的序列数据 x x x和 y y y,在下节课我们开始讲述循环神经网络中如何构建 X X X到 Y Y Y的映射。
1.3 循环神经网络模型(Recurrent Neural Network Model)
上节中,你了解了我们用来定义序列学习问题的符号。现在我们讨论一下怎样才能建立一个模型,建立一个神经网络来学习 X X X到 Y Y Y的映射。
可以尝试的方法之一是使用标准神经网络,在我们之前的例子中,我们有9个输入单词。想象一下,把这9个输入单词,可能是9个one-hot向量,然后将它们输入到一个标准神经网络中,经过一些隐藏层,最终会输出9个值为0或1的项,它表明每个输入单词是否是人名的一部分。
但结果表明这个方法并不好,主要有两个问题,
一、是输入和输出数据在不同例子中可以有不同的长度,不是所有的例子都有着同样输入长度 T x T_{x} Tx或是同样输出长度的 T y T_{y} Ty。即使每个句子都有最大长度,也许你能够填充(pad)或零填充(zero pad)使每个输入语句都达到最大长度,但仍然看起来不是一个好的表达方式。
二、一个像这样单纯的神经网络结构,它并不共享从文本的不同位置上学到的特征。具体来说,如果神经网络已经学习到了在位置1出现的Harry可能是人名的一部分,那么如果Harry出现在其他位置,比如 x < t > x^{<t>} x<t>时,它也能够自动识别其为人名的一部分的话,这就很棒了。这可能类似于你在卷积神经网络中看到的,你希望将部分图片里学到的内容快速推广到图片的其他部分,而我们希望对序列数据也有相似的效果。和你在卷积网络中学到的类似,用一个更好的表达方式也能够让你减少模型中参数的数量。
之前我们提到过这些(上图编号1所示的 x < 1 > x^{<1>} x<1>…… x < t > x^{<t>} x<t>…… x < T x > x^{< T_{x}>} x<Tx>)都是10,000维的one-hot向量,因此这会是十分庞大的输入层。如果总的输入大小是最大单词数乘以10,000,那么第一层的权重矩阵就会有着巨量的参数。但循环神经网络就没有上述的两个问题。
那么什么是循环神经网络呢?我们先建立一个(下图编号1所示)。如果你以从左到右的顺序读这个句子,第一个单词就是,假如说是 x < 1 > x^{<1>} x<1>,我们要做的就是将第一个词输入一个神经网络层,第一个神经网络的隐藏层,我们可以让神经网络尝试预测输出,判断这是否是人名的一部分。循环神经网络做的是,当它读到句中的第二个单词时,假设是 x < 2 > x^{<2>} x<2>,它不是仅用 x < 2 > x^{<2>} x<2>就预测出 y ^ < 2 > {\hat{y}}^{<2>} y^<2>,他也会输入一些来自时间步1的信息。具体而言,时间步1的激活值就会传递到时间步2。然后,在下一个时间步,循环神经网络输入了单词 x < 3 > x^{<3>} x<3>,然后它尝试预测输出了预测结果 y ^ < 3 > {\hat{y}}^{<3>} y^<3>,等等,一直到最后一个时间步,输入了 x < T x > x^{<T_{x}>} x<Tx>,然后输出了 y ^ < T y > {\hat{y}}^{< T_{y} >} y^<Ty>。至少在这个例子中 T x = T y T_{x} =T_{y} Tx=Ty,同时如果 T x T_{x} Tx和 T y T_{y} Ty不相同,这个结构会需要作出一些改变。所以在每一个时间步中,循环神经网络传递一个激活值到下一个时间步中用于计算。
要开始整个流程,在零时刻需要构造一个激活值 a < 0 > a^{<0>} a<0>,这通常是零向量。有些研究人员会随机用其他方法初始化 a < 0 > a^{<0>} a<0>,不过使用零向量作为零时刻的伪激活值是最常见的选择,因此我们把它输入神经网络。
在一些研究论文中或是一些书中你会看到这类神经网络,用这样的图形来表示(上图编号2所示),在每一个时间步中,你输入 x < t > x^{<t>} x<t>然后输出 y < t > y^{<t>} y<t>。然后为了表示循环连接有时人们会像这样画个圈,表示输回网络层,有时他们会画一个黑色方块,来表示在这个黑色方块处会延迟一个时间步。我个人认为这些循环图很难理解,所以在本次课程中,我画图更倾向于使用左边这种分布画法(上图编号1所示)。不过如果你在教材中或是研究论文中看到了右边这种图表的画法(上图编号2所示),它可以在心中将这图展开成左图那样。
循环神经网络是从左向右扫描数据,同时每个时间步的参数也是共享的,所以下页幻灯片中我们会详细讲述它的一套参数,我们用 W ax W_{\text{ax}} Wax来表示管理着从 x < 1 > x^{<1>} x<1>到隐藏层的连接的一系列参数,每个时间步使用的都是相同的参数 W ax W_{\text{ax}} Wax。而激活值也就是水平联系是由参数 W a a W_{aa} Waa决定的,同时每一个时间步都使用相同的参数 W a a W_{aa} Waa,同样的输出结果由 W ya W_{\text{ya}} Wya决定。下图详细讲述这些参数是如何起作用。
在这个循环神经网络中,它的意思是在预测 y ^ < 3 > {\hat{y}}^{< 3 >} y^<3>时,不仅要使用 x < 3 > x^{<3>} x<3>的信息,还要使用来自 x < 1 > x^{<1>} x<1>和 x < 2 > x^{<2>} x<2>的信息,因为来自 x < 1 > x^{<1>} x<1>的信息可以通过这样的路径(上图编号1所示的路径)来帮助预测 y ^ < 3 > {\hat{y}}^{<3>} y^<3>。这个循环神经网络的一个缺点就是它只使用了这个序列中之前的信息来做出预测,尤其当预测 y ^ < 3 > {\hat{y}}^{<3>} y^<3>时,它没有用到 x < 4 > x^{<4>} x<4>, x < 5 > x^{<5>} x<5>, x < 6 > x^{<6>} x<6>等等的信息。所以这就有一个问题,因为如果给定了这个句子,“Teddy Roosevelt was a great President.”,为了判断Teddy是否是人名的一部分,仅仅知道句中前两个词是完全不够的,还需要知道句中后部分的信息,这也是十分有用的,因为句子也可能是这样的,“Teddy bears are on sale!”。因此如果只给定前三个单词,是不可能确切地知道Teddy是否是人名的一部分,第一个例子是人名,第二个例子就不是,所以你不可能只看前三个单词就能分辨出其中的区别。
所以这样特定的神经网络结构的一个限制是它在某一时刻的预测仅使用了从序列之前的输入信息并没有使用序列中后部分的信息,我们会在之后的双向循环神经网络(BRNN)的讲解中处理这个问题。但对于现在,这个更简单的单向神经网络结构就够我们来解释关键概念了,之后只要在此基础上作出修改就能同时使用序列中前面和后面的信息来预测 y ^ < 3 > {\hat{y}}^{<3>} y^<3>,不过我们会在之后讲述这些内容,接下来我们具体地写出这个神经网络计算了些什么。
这里是一张清理后的神经网络示意图,和我之前提及的一样,一般开始先输入 a < 0 > a^{<0>} a<0>,它是一个零向量。接着就是前向传播过程,先计算激活值 a < 1 > a^{<1>} a<1>,然后再计算 y < 1 > y^{<1>} y<1>。
a < 1 > = g 1 ( W a a a < 0 > + W a x x < 1 > + b a ) a^{<1>} = g_{1}(W_{
{aa}}a^{< 0 >} + W_{
{ax}}x^{< 1 >} + b_{a}) a<1>=g1(Waaa<0>+Waxx<1>+ba)
y ^ < 1 > = g 2 ( W y a a < 1 > + b y ) \hat y^{< 1 >} = g_{2}(W_{
{ya}}a^{< 1 >} + b_{y}) y^<1>=g2(Wyaa<1>+by)
我将用这样的符号约定来表示这些矩阵下标,举个例子 W ax W_{\text{ax}} Wax,第二个下标意味着 W ax W_{\text{ax}} Wax要乘以某个 x x x类型的量,然后第一个下标 a a a表示它是用来计算某个 a a a类型的变量。同样的,可以看出这里的 W ya W_{\text{ya}} Wya乘上了某个 a a a类型的量,用来计算出某个 y ^ \hat {y} y^类型的量。
循环神经网络用的激活函数经常是tanh,不过有时候也会用ReLU,但是tanh是更通常的选择,我们有其他方法来避免梯度消失问题,我们将在之后进行讲述。选用哪个激活函数是取决于你的输出 y y y,如果它是一个二分问题,那么我猜你会用sigmoid函数作为激活函数,如果是 k k k类别分类问题的话,那么可以选用softmax作为激活函数。不过这里激活函数的类型取决于你有什么样类型的输出 y y y,对于命名实体识别来说 y y y只可能是0或者1,那我猜这里第二个激活函数 g g g可以是sigmoid激活函数。
更一般的情况下,在 t t t时刻,
a < t > = g 1 ( W a a a < t − 1 > + W a x x < t > + b a ) a^{< t >} = g_{1}(W_{aa}a^{< t – 1 >} + W_{ax}x^{< t >} + b_{a}) a<t>=g1(Waaa<t−1>+Waxx<t>+ba)
y ^ < t > = g 2 ( W y a a < t > + b y ) \hat y^{< t >} = g_{2}(W_{
{ya}}a^{< t >} + b_{y}) y^<t>=g2(Wyaa<t>+by)
所以这些等式定义了神经网络的前向传播,你可以从零向量 a < 0 > a^{<0>} a<0>开始,然后用 a < 0 > a^{<0>} a<0>和 x < 1 > x^{<1>} x<1>来计算出 a < 1 > a^{<1>} a<1>和 y ^ < 1 > \hat y^{<1>} y^<1>,然后用 x < 2 > x^{<2>} x<2>和 a < 1 > a^{<1>} a<1>一起算出 a < 2 > a^{<2>} a<2>和 y ^ < 2 > \hat y^{<2>} y^<2>等等,像图中这样,从左到右完成前向传播。
现在为了帮我们建立更复杂的神经网络,我实际要将这个符号简化一下,我在下一张幻灯片里复制了这两个等式(上图编号1所示的两个等式)。
接下来为了简化这些符号,我要将这部分( W aa a < t − 1 > + W ax x < t > W_{\text{aa}}a^{<t -1>} +W_{\text{ax}}x^{<t>} Waaa<t−1>+Waxx<t>)(上图编号1所示)以更简单的形式写出来,我把它写做 a < t > = g ( W a [ a < t − 1 > , x < t > ] + b a ) a^{<t>} =g(W_{a}\left\lbrack a^{< t-1 >},x^{<t>} \right\rbrack +b_{a}) a<t>=g(Wa[a
今天的文章吴恩达deeplearning.ai系列课程笔记+编程作业(13)序列模型(Sequence Models)-第一周 循环序列模型(Recurrent Neural Networks)分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/63671.html