RNN神经网络模型原理

编程之家收集整理的这篇文章主要介绍了RNN神经网络模型原理编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

搜索热词

1. 前言

  循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。

  传统的机器学习算法非常依赖于人工提取的特征,使得基于传统机器学习的图像识别、语音识别以及自然语言处理等问题存在特征提取的瓶颈。而基于全连接神经网络方法也存在参数太多、无法利用数据中时间序列信息等问题。随着更加有效的循环神经网络结构被不断提出,循环神经网络挖掘数据中的时序信息以及语义信息的深度表达能力被充分利用,并在语音识别、语言模型、机器翻译以及时序分析等方面实现了突破。

2. RNN模型结构

  循环神经网络的主要用途是处理和预测序列数据。在之前介绍的全连接神经网络卷积神经网络模型中,网络结构都是从输入层到隐含层再到输出层,层与层之间是全连接或部分连接的,但每层之间的节点是无连接的。考虑这样一个问题,如果要预测句子的下一个单词是什么,一般需要用到当前单词以及前面的单词,因为句子中前后单词并不是独立的。比如,当前单词是“很”,前一个单词是“天空”,那么下一个单词很大概率是“蓝”。循环神经网络的来源就是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上,循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出。也就是说,循环神经网络的隐藏层之间的结点是有连接的,隐藏层的输入不仅包括输入层的输出,还包括上时刻隐藏层的输出

RNN结构如下图:

 

上图中左边是RNN模型没有按时间展开的图,如果按时间序列展开,则是上图中的右边部分。我们重点观察右边部分的图。

这幅图描述了在序列索引号t附近RNN的模型。其中:

  1、xt@H_403_45@代表在序列索引号t时训练样本的输入。同样的,xt−1@H_403_45@xt+1@H_403_45@代表在序列索引号t−1和t+1时训练样本的输入。

  2、ht@H_403_45@代表在序列索引号t时模型的隐藏状态。ht@H_403_45@xt@H_403_45@ht−1@H_403_45@共同决定。

  3、ot@H_403_45@代表在序列索引号t时模型的输出ot@H_403_45@只由模型当前的隐藏状态ht@H_403_45@决定。

  4、A代表RNN模型。

 

3. RNN前向传播算法

最后,给出经典RNN结构的严格数学定义。

输入为x1@H_403_45@,x2@H_403_45@,···,xt@H_403_45@对应的隐状态为h1@H_403_45@,h2@H_403_45@,ht@H_403_45@
输出y1@H_403_45@,y2@H_403_45@,yt@H_403_45@,如,则经典RNN的运算过程可以表示为

                  ht@H_403_45@=f(Uxt@H_403_45@+Wht−1@H_403_45@+b)

                yt=softmax(Vht@H_403_45@+c)

其中,U,W,V,b,c均为参数,而f()表示激活函数,一般为tanh函数

 

4.总结

RNN虽然理论上可以很漂亮的解决序列数据的训练,但是它也像DNN一样有梯度消失时的问题,当序列很长的时候问题尤其严重。因此,上面的RNN模型一般不能直接用于应用领域。

 

转载于 https://www.cnblogs.com/huangyc/p/10366783.html

总结

以上是编程之家为你收集整理的RNN神经网络模型原理全部内容,希望文章能够帮你解决RNN神经网络模型原理所遇到的程序开发问题。

如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢寻找一群志同道合、互帮互助的学习伙伴,可以点击下方链接加入:
编程之家官方1群:1065694478(已满)
编程之家官方2群:163560250(已满)
编程之家官方3群:312128206(已满)
编程之家官方4群:230427597

相关文章

猜你在找的NLP相关文章

HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种生成模型,定义了联合概率分布,其中x和y分别表示观察序列和相对应的标注序列的随机变
一、GRU算法 GRU(Gate Recurrent Unit,循环门单元)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Ter
本文简单整理了以下内容: (一)马尔可夫随机场(Markov random field,无向图模型)简单回顾 (二)条件随机场(Conditional random field,CRF) 这篇写的非常
什么是注意力(Attention)? 注意力机制可看作模糊记忆的一种形式。记忆由模型的隐藏状态组成,模型选择从记忆中检索内容。深入了解注意力之前,先简要回顾Seq2Seq模型。传统的机器翻译主要基于S
BERT 模型是 Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。在 11 个 NLP 领域的任务上都刷新了以往的记录,例如GLUE,SquA
一、前言 文本分类(Text Classification或Text Categorization,TC),或者称为自动文本分类(Automatic Text Categorization),是指计算
TextRank 算法是一种用于文本的基于图的排序算法,其基本思想来源于谷歌的 PageRank算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代
目录 Transformer 1. 前言 2. Transformer详解3. 总结 2.1 Transformer整体结构 2.2 输入编码 2.3 Self-Attention 2.4 Multi