过拟合与欠拟合问题

正则表达式 2020-06-28

今天看了Andrew Ng cs229 Machine Learning 的公开课，很有收获，虽然对于视频中公式等的推导还是“晕”，但是，这是一步很好的开端！万事开头难！

术语

hypothesis 假设
regularization 正则化
convex 凸
cost function 成本函数
polynominal 多项式
fit the parameter 拟合参数

过拟合（overfitting or high variance)

过拟合又叫高偏差

现象：

就是模型太过复杂，力求覆盖每个数据，对训练集预测效果非常好！但是，泛化能力不好，一旦用测试集测试，预测结果却并不好！！！

线性回归和logistic回归都存在欠拟合和过拟合的问题。

原因

过拟合问题的出现常常因为下面两个原因：
1. 变量多（feature）
2. 数据少
3. 函数过于复杂

解决办法：

reduce features（人工选择重要的特征或者模型自动选择）
regularization-正则化1
吴提出的观点：

越小的参数 $\theta$ ,假设就越简单

欠拟合（high bias)

指不能很好地拟合数据，一般是因为模型函数太简单或者特征较少。

参考

机器学习笔记4 正则化 ↩

相关文章

正则替换html代码中img标签的src值

正则替换html代码中img标签的src值在开发富文本信息在移动端...

【C++】正则表达式

正则表达式

shell之三剑客awk基础用法

AWK是一种处理文本文件的语言，是一个强大的文件分析工具。它...

正则表达式

正则表达式是特殊的字符序列，利用事先定义好的特定字符以及...

Python基础知识进阶之正则表达式

Python界一名小学生，热心分享编程学习。

开发者神器，代码文档终于有救了

收集整理每周优质开发者内容，包括、、等方面。每周五定期发...