Summary

本文档概述了机器学习的概念,包括机器学习的目标、不同类型的机器学习及其发展历程。它还讨论了机器学习中的关键概念,例如泛化能力、独立同分布等。此外,还介绍了过拟合和欠拟合的问题。

Full Transcript

1. 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性 能,从而在计算机上从数据中产生“模型”,用于对新的情况给出判断。 2. 机器学习根据学习目标的不同可以分为分类(离散值,包括二分类和多酚 类),回归(连续值)和聚类(无标记信息)。 3. 机器学习根据有无监督信息可以分为监督学...

1. 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性 能,从而在计算机上从数据中产生“模型”,用于对新的情况给出判断。 2. 机器学习根据学习目标的不同可以分为分类(离散值,包括二分类和多酚 类),回归(连续值)和聚类(无标记信息)。 3. 机器学习根据有无监督信息可以分为监督学习:分类、回归,无监督学习: 聚类和半监督学习:两者结合。 4. 机器学习的目标是使得学到的模型能很好的适用于“新样本”,模型适用于新 样本的能力为泛化(generalization)能力。 5. 机器学习通常假设样本空间中的样本服从”独立同分布”(i.i.d) 6. 机器学习算法的归纳偏好“奥卡姆剃刀”原则,“若有多个假设与观察一致, 选最简单的那个”。 7. “没有免费的午餐定理”,即一个算法 a 如果在某些问题上比另一个算法 b 好, 必然存在另一些问题,b 比 a 好。当所有场景出现的概率一致时,总误差和学 习算法无关。 8. 机器学习发展历程推理期、知识期(专家系统)和学习期(符号主义:决 策树等;连接主义:神经网络;统计学习:支持向量机及核方法) 9. 机器学习错误率为错分样本的占比;误差是样本真实输出与预测输出之间 的差异,分为训练(经验)误差(训练集),测试误差(测试集)和泛化误差 (除训练集外所有样本) 10. 过拟合:学习器把训练样本学习的“太好”(训练误差很低),将训练样本 本身的特点当做所有样本的一般性质,导致泛化性能下降;欠拟合:对训 练样本的一般性质尚未学好。

Use Quizgecko on...
Browser
Browser