正则化详解 深度学习中过拟合、欠拟合问题及解决方案

编程之家收集整理的这篇文章主要介绍了正则化详解 深度学习中过拟合、欠拟合问题及解决方案编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

搜索热词

一、为什么要正则化

  学习算法,包括线性回归和逻辑回归,它们能够有效地解决许多问题,但是当将它们应用到某些特定的机器学习应用时,会遇到过拟合(over-fitting)的问题,可能会导致它们效果很差。正则化(regularization)技术,可以改善或者减少过度拟合问题,进而增强泛化能力。泛化误差(generalization error)= 测试误差(test error),其实就是使用训练数据训练的模型在测试集上的表现(或说性能 performance)好不好。

  如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为0),但是可能会不能推广到新的数据。

  下图是一个回归问题的例子:

 

  第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。我们可以看出,若给出一个新的值使之预测,它将表现的很差,是过拟合,虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好;而中间的模型似乎最合适。

  分类问题中也存在这样的问题:

就以多项式理解,$x$的次数越高,拟合的越好,但相应的预测的能力就可能变差。

  如果我们发现了过拟合问题,可以进行以下处理:

  1、丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA)。

  2、正则化。 保留所有的特征,但是减少参数的大小(magnitude)。

二、正则化的定义

  正则化的英文 Regularizaiton-Regular-Regularize,直译应该是"规则化",本质其实很简单,就是给模型加一些规则限制,约束要优化参数,目的是防止过拟合。其中最常见的规则限制就是添加先验约束,常用的有L1范数和L2范数,其中L1相当于添加Laplace先验,L相当于添加Gaussian先验。 

三、L1正则和L2正则

  在介绍L1范数、L2范数之前,我们先介绍以下LP范数。

  3.1 范数

  范数简单可以理解为用来表征向量空间中的距离,而距离的定义很抽象,只要满足非负、自反、三角不等式就可以称之为距离。

  LP范数不是一个范数,而是一组范数,其定义如下:

$\left \| x \right \|_{p}=(\sum_{i}^{n}x_{i}^{p})^{\frac{1}{p}}$ 

$\left \| x \right \|_{p}=(\sum_{i}^{n}x_{i}^{p})^{\frac{1}{p}}$ 

$p$的范围是[1,)[1,∞)。$p$(0,1)(0,1)范围内定义的并不是范数,因为违反了三角不等式。

  根据$p$的变化,范数也有着不同的变化,借用一个经典的有关P范数的变化图如下: 

  上图表示了$p$从0到正无穷变化时,单位球(unit ball)的变化情况。在P范数下定义的单位球都是凸集,但是当0<

总结

以上是编程之家为你收集整理的正则化详解 深度学习中过拟合、欠拟合问题及解决方案全部内容,希望文章能够帮你解决正则化详解 深度学习中过拟合、欠拟合问题及解决方案所遇到的程序开发问题。

如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢寻找一群志同道合、互帮互助的学习伙伴,可以点击下方链接加入:
编程之家官方1群:1065694478(已满)
编程之家官方2群:163560250(已满)
编程之家官方3群:312128206(已满)
编程之家官方4群:230427597

相关文章

猜你在找的NLP相关文章

HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种生成模型,定义了联合概率分布,其中x和y分别表示观察序列和相对应的标注序列的随机变
一、GRU算法 GRU(Gate Recurrent Unit,循环门单元)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Ter
本文简单整理了以下内容: (一)马尔可夫随机场(Markov random field,无向图模型)简单回顾 (二)条件随机场(Conditional random field,CRF) 这篇写的非常
什么是注意力(Attention)? 注意力机制可看作模糊记忆的一种形式。记忆由模型的隐藏状态组成,模型选择从记忆中检索内容。深入了解注意力之前,先简要回顾Seq2Seq模型。传统的机器翻译主要基于S
BERT 模型是 Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。在 11 个 NLP 领域的任务上都刷新了以往的记录,例如GLUE,SquA
一、前言 文本分类(Text Classification或Text Categorization,TC),或者称为自动文本分类(Automatic Text Categorization),是指计算
TextRank 算法是一种用于文本的基于图的排序算法,其基本思想来源于谷歌的 PageRank算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代
目录 Transformer 1. 前言 2. Transformer详解3. 总结 2.1 Transformer整体结构 2.2 输入编码 2.3 Self-Attention 2.4 Multi