机器学习复习_1122 PDF
Document Details
Tags
Summary
This document is a summary of machine learning topics, covering a broad range of concepts including classification, regression and clustering methods, along with supervised, unsupervised and semi-supervised learning. It describes how machine learning algorithms work and provides an explanation of different learning models, including supervised learning such as classification and regression, and unsupervised learning such as clustering.
Full Transcript
机器学习复习 1. 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据中产生"模型",用于对新的情况给出判断。 2. 机器学习根据学习目标的不同可以分为分类(离散值,包括二分类和多酚类),回归(连续值)和聚类(无标记信息)。 3. 机器学习根据有无监督信息可以分为监督学...
机器学习复习 1. 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据中产生"模型",用于对新的情况给出判断。 2. 机器学习根据学习目标的不同可以分为分类(离散值,包括二分类和多酚类),回归(连续值)和聚类(无标记信息)。 3. 机器学习根据有无监督信息可以分为监督学习:分类、回归,无监督学习:聚类和半监督学习:两者结合。 4. 机器学习的目标是使得学到的模型能很好的适用于"新样本",模型适用于新样本的能力为泛化(generalization)能力。 5. 机器学习通常假设样本空间中的样本服从"独立同分布"(i.i.d) 6. 机器学习算法的归纳偏好"奥卡姆剃刀"原则,"若有多个假设与观察一致,选最简单的那个"。 7. "没有免费的午餐定理",即一个算法a如果在某些问题上比另一个算法b好,必然存在另一些问题,b比a好。当所有场景出现的概率一致时,总误差和学习算法无关。 8. 机器学习发展历程推理期、知识期(专家系统)和学习期(符号主义:决策树等;连接主义:神经网络;统计学习:支持向量机及核方法) 9. 机器学习错误率为错分样本的占比;误差是样本真实输出与预测输出之间的差异,分为训练(经验)误差(训练集),测试误差(测试集)和泛化误差(除训练集外所有样本) 10. 过拟合:学习器把训练样本学习的"太好"(训练误差很低),将训练样本本身的特点当做所有样本的一般性质,导致泛化性能下降;欠拟合:对训练样本的一般性质尚未学好。 11. 机器学习需要对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估。评估方法为:留出法(直接将数据集划分为两个互斥集合,比例2:1-4:1);交叉验证法(分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集)和自助法(对数据集有放回采样得到训练集,其余为测试集) 12. 性能度量是衡量模型泛化能力的评价标准。 对于分类任务,错误率和精度是最常用的两种性能度量:错误率(分错样本占样本总数的比例);精度(分对样本占样本总数的比例) ![](media/image2.png) 13. 性能度量的3条曲线 查准率-查全率曲线,简称"P-R曲线"(平衡点是曲线上"查准率=查全率"时的取值) 受试者工作特征,ROC曲线(以"假正例率"为横轴,"真正例率"为纵轴;根据ROC曲线下面积大小进行比较,也即AUC值) 代价曲线,因权衡不同类型错误所造成的不同损失,可为错误赋予"非均等代价",此时将ROC曲线上的每个点转化为代价平面上的一条线段。 14. 机器学习性能评估中直接选取相应评估方法在相应度量下比大小的方法不可取,因为测试性能并不等于泛化性能;测试性能随着测试集的变化而变化;很多机器学习算法本身有一定的随机性 15. 机器学习性能评估常见方法:二项检验、T检验、交叉验证T检验、McNemar检验、Friedman检验、Nemenyi后续检验 16. 机器学习中泛化误差可分解为偏差、方差与噪声之和。 偏差度量了学习算法期望预测与真实结果的偏离程度;即刻画了学习算法本身的拟合能力; 方差度量了同样大小训练集的变动所导致的学习性能的变化;即刻画了数据扰动所造成的影响; 噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界;即刻画了学习问题本身的难度。 17. 一般来说,偏差与方差是有冲突的,称为偏差-方差窘境。 18. 线性模型 表达式:![](media/image4.png) 优点:形式简单、易于建模;可解释性强;非线性模型基础 任务主要分为: 回归任务:线性回归 分类任务: 二分类任务:对数几率回归、线性判别分析 多分类任务:1对1,1对多和多对多(纠错输出码) 19. 回归任务(线性回归) **目的**:学得一个线性模型以尽可能准确地预测实值输出标记 **离散属性处理**:"有序"属性连续化为连续值,"无序"属性转为K维变量 **优化方法**:最小二乘法(最小化平方损失) 20. 分类任务 **目的**:寻找函数将分类标记与线性回归模型输出联系起来 **联系函数**: 最理想:单位阶跃函数(不可导,不连续) 替代:对数几率函数(logistic function),单调可微、任意阶可导 21. 分类任务-对数几率回归 **本质**:使用对数几率联系分类标记和模型输出 对数几率:样本作为正例的相对可能性的对数 **优点**: 无需事先假设数据分布;可得到"类别"的近似概率预测;可直接应用现有数值优化算法求取最优解 **解决方法**:极大似然法(最大化样本分布似然) **优化方法**:梯度下降法/牛顿法 22. 分类任务-线性判别分析(LDA) **目的**: 使同类样例的投影点尽可能接近(同类样例投影点的协方差尽可能小); 使异类样例的投影点尽可能远离(不同类中心之间的距离尽可能大) **解决方法**:广义瑞利商 **优化方法**:奇异值分解 可被视为一种监督降维技术 23. 分类任务-类别不平衡 欠采样:去除一些反例使正反例数目接近 过采样:增加一些正例使正反例数目接近 阈值移动 24. K近邻(KNN) 找到训练集中距离最近的k个样本,分类问题使用"投票法",回归问题使用"平均法"。没有显式的训练过程,属于"懒惰学习"。 25. 维度灾难:高维情形下出现的数据样本稀疏、距离计算困难等。 26. 低维嵌入 多维缩放(MDS):原始空间中样本之间的距离在低维空间中得以保持。 线性降维:对原始高维空间进行线性变换。 27. 主成分分析(PCA) 最近重构性:样本点到这个超平面的距离都足够近 最大可分性:样本点在这个超平面上的投影能尽可能分开。 求解方法:拉格朗日乘子法和特征值分解。 目的:降维。一方面可以使得样本的采样密度增大,另一方面可以进行去噪。 28. 核化主成分分析(KPCA),基于核技巧对线性降维方法进行"核化"。 29. 流形学习(manifold learning),局部具有欧氏空间的性质,能用欧氏距离来进行距离计算。用于降维或数据可视化。 30. 等度量映射(Isomap),可通过Dijkstra算法或Floyd算法计算测地线距离(最短距离) 31. 局部线性嵌入(LLE),在降维后的空间中邻域内的线性关系 32. 度量学习-近邻成分分析(NCA),使用多数投票法进行判别。 33. 聚类任务 **目的**:将数据集中的样本划分为若干个通常不相交的子集("簇",cluster).。可以作为其它任务的前置任务。 **性能度量**("有效性指标"):"簇内相似度"高,"簇间相似度"低。外部评估指标:Jaccard系数、FM指数、Rand指数;内部指标:DB指数(越小越好),Dunn指数。 **相似距离**:常用欧氏距离和曼哈顿距离。其它还有:VDM、MinkovDM、加权距离等。 34. 聚类任务-原型聚类 基础假设:假设聚类结构能通过一组原型刻画。 主要代表方法包括:k均值算法、学习向量量化算法、高斯混合聚类算法 35. 原型聚类-k均值算法 方法:最小化每个聚类所得簇中样本点到中心点的欧式距离和。 36. 原型聚类-学习向量量化(LVQ) 方法:使用假设的数据样本类别标记来辅助聚类. 37. 原型聚类-高斯混合聚类 方法:假设样本的生成过程由高斯混合分布 38. 聚类任务-密度聚类 基础假设:样本密度的角度考察样本的连接性,使密度相连的样本归结到一个簇 主要代表方法包括:DBSCAN 39. 密度聚类-DBSCAN,基于一组"邻域"参数来刻画样本分布的紧密程度。密度直达、可达,相连。 40. 层次聚类-AGNES,自底向上。 41. 集成学习,构建并结合多个学习器来完成学习任务,应好而不同 42. 集成学习-Boosting, 特点:个体学习器存在强依赖关系;串行生成;每次调整训练数据的样本分布。 代表算法:AdaBoost 43. AdaBoost,是基学习器的线性组合。通过重赋权法或重采样法进行学习。 从偏差-方差的角度:降低偏差,可对泛化性能相当弱的学习器构造出很强的集成。 44. 集成学习-Bagging和随机森林 特点:个体学习器不存在强依赖关系;并行化生成;通过对训练样本采样使基学习器尽可能具有较大的差异 从偏差-方差的角度:降低方差,在不剪枝的决策树、神经网络等易受样本影响的学习器上效果更好 45. 集成学习结合策略。数值型输出:简单评价法、加权平均法;分类输出:绝对多数投票法、相对多数投票法、加权投票法。 46. 集成学习-误差-分歧分解,个体学习器准确性越高、多样性越大,则集成效果越好。 47. 集成学习-多样性度量,包括不合度量、相关系数、Q-统计量、к-统计量、к −误差图 48. 集成学习-增强个体学习器的多样性,包括:数据样本扰动(采样法)、输入属性扰动(随机子空间算法)、输出表示扰动(翻转法、输出调制法和ECOC法)、算法参数扰动(随机修改参数)或者同时使用多种扰动方式。 49. 稳定基学习器:线性学习器,支持向量机,朴素贝叶斯,k近邻等;不稳定基学习器:决策树,神经网络等。 50. 决策树,目的是产生一棵泛化能力强,即处理未见示例能力强的决策树 51. 决策树-节点划分,目的是让节点的纯度越来越高,常用方法:信息增益(偏好数量较多的属性,代表为ID3)、增益率(偏好数量较少的属性,代表为C4.5)、基尼指数(代表为CART)。 52. 决策树-剪枝,解决过拟合。 预剪枝:优点是降低过拟合风险并显著减少时间开销;缺点是带来了欠拟合风险。 后剪枝:优点是欠拟合风险小,泛化性能好;缺点是训练时间开销大 53. 决策树-连续值处理使用连续属性离散化(二分法) 54. 决策树-多变量决策树,划分属性可以为多个。 55. 贝叶斯决策论(Bayesian decision theory)在分类问题中,是基于已知所有相关概率和误判损失来选择最优的类别标记,目标是最小化总体风险。 56. 贝叶斯最优分类器,即每个样本上选择那个能使条件风险最小的类别标记,反映了机器学习模型精度的理论上限。 57. 后验概率估计方法:判别式模型(决策树,BP神经网络,支持向量机等)和生成式模型 ![](media/image6.png) 58. 极大似然估计:先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布参数估计(频率主义学派和贝叶斯学派) 59. 朴素贝叶斯分类器:采用了"属性条件独立性假设"。现实应用为:速度要求高,"查表";任务数据更替频繁,"懒惰学习" (lazy learning);数据不断增加,增量学习等等 60. 半朴素贝叶斯分类器:假设每个属性在类别之外最多仅依赖一个其他属性,做法包括:SPODE、TAN、TAN 61. 贝叶斯网:亦称"信念网",借助有向无环图 (DAG)来刻画属性间的依赖关系,并使用条件概率表 (CPT)来表述属性的联合概率分布。评估方法为最小描述长度。贝叶斯网的近似推断常使用吉布斯采样(Gibbs sampling)。 62. EM算法:最大化已观测数据的对数"边际似然" 63. 支持向量机解的稀疏性: 模型仅与支持向量有关。求解方法为SMO,使用拉格朗日法构建对偶问题。 64. 支持向量机-核函数:将样本从原始空间映射到一个更高维的特征空间, 65. 支持向量机-软间隔:允许支持向量机在一些样本上不满足约束,使用hinge损失函数,缓解特征空间中线性不可分 66. 支持向量回归(SVR):允许模型输出和实际输出间存在偏差,落入间隔带的样本不计算损失, 从而使得模型获得稀疏性 67. 核函数方法可以推广到其它算法中,核SVM、核LDA、核PCA等 1. 人工智能使一部机器的反应方式像人一样进行感知、认知、决策、执行的人工程序或系统; 2. 神经网络成为深度学习理论的基础; 3. 人工智能>机器学习>深度学习;深度学习:利用神经网络从数据中学习模式; 4. 第一代神经网络(MCP人工神经元模型)、第二代神经网络(多层感知器(MLP)的BP算法)、第三代神经网络(DL); 5. 深度学习在计算机视觉中的应用:人脸识别、物体识别、图像风格迁移、图像检索; 6. 人工智能基础学科:高等数学、线性代数、凸优化、概率论; 7. 测量空间→特征空间→类别空间; 8. 深度学习在自然语言处理领域优势:利用大量无标注数据进行预训练,减少对标注数据的需求;解决传统方法的稀疏性问题;自动学习特征表示,更灵活。 9. 深度学习三大核心问题:representation、objective、optimization; 10. 多层感知机:输入层和输出层之间加入隐藏层,每层的计算都由一个线性函数加一个非线性激活函数构成。 11. ![](media/image8.png) 12. 二隐层的感知机能够解决任何问题。 13. 前馈神经网络:正向传播、反向传播。 14. 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大;常用的正则化项有模型参数向量的范数,l1-norm(lasso回归)、l2-norm(岭回归)。 15. 在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符合二项式分布。 16. 条件概率,事件A在另外一个事件B已经发生条件下的发生概率。 17. 香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小,香农信息量的单位为比特。熵是信息量的期望。 18. 联合熵是描述一对随机变量平均所需要的信息量。 19. 相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。也称KL距离。 20. 交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。 21. 互信息I(X;P)是在知道了Y的值以后X的不确定性的减少量,即Y的值透露了多少关于X的信息量。 22. 当两个汉字x和y关联度较强时,其互信息值1(,y)\>0;x与y关系弱时,\[(x,y)≈0;而当(c,y)\ 1. 强化学习由两部分组成:智能体和环境。 2. 智能体针对环境的某个状态,输出一个动作,这个动作也称为决策。 3. 动作在环境中执行,环境输出下一个状态,以及这个动作带来的奖励。 4. 强化学习输入的样本是序列数据。 5. 智能体获得自己能力的过程,其实是不断的试错探索的过程,探索和利用是强化学习非常核心的问题。 6. 在与环境的交互过程中,智能体会获得很多观测。针对每一个观测,智能体会采取一个动作,也会得到一个奖励。所以历史是观测、动作、奖励的序列。 7. 动作:智能体采取的不同动作。有效动作的集合经常被称为动作空间,可以被分为离散动作空间和连续动作空间。 8. 模型表示智能体对环境的状态进行理解,它决定了环境中世界的运行方式。 9. 策略分为随机性策略和确定性策略。 10. Value function:某一状态的奖励期望;Q function:在某一状态下执行某一动作的奖励期望。 11. 模型决定下一步的状态,下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成。 12. 策略、价值函数和模型 3 个组成部分,形成了一个马尔可夫决策过程。 13. Q-价值函数由策略π、当前状态s和当前动作a确定,目标就是要选择最优策略π,使得Q-value函数最大。 14. 有模型(model-based)强化学习智能体,它通过学习状态的转移来采取动作。免模型(model-free)强化学习智能体,它没有去直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习价值函数和策略函数进行决策。 15. 学习(learning)和规划(planning)是序列决策的两个基本问题。 16. 深度强化学习是利用深度神经网络进行价值函数和策略近似。 17. 多臂老虎机三个主要算法:e-贪婪算法、上置信界算法、汤普森采样算法。 18. e-贪婪算法包括:贪心策略、ℇ-greedy 策略、衰减贪心策略。 19. 成功率高的按钮是有高利用价值的,不确定性高的按钮是有高探索价值的,评分 = 预估奖励概率 + 不确定性度量。 20. Beta分布: 是一种连续性概率密度分布,由形状参数(a,b)表示,一般用于伯努利事件成功概率的概率分布,定义域在(0,1)之间。 21. 概率论研究静态随机现象的统计规律,随机过程研究动态随机现象的统计规律。 22. 马尔可夫性质(Markov property)定义:是指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。 23. 在马尔可夫过程的基础上加入奖励函数和折扣因子,就可以得到马尔可夫奖励过程。 24. 贝尔曼方程定义了当前状态与未来状态之间的关系。未来奖励的折扣总和加上即时奖励,就组成了贝尔曼方程。 25. 将迭代的方法应用于状态非常多的马尔可夫奖励过程,大致分为三种:动态规划方法,基于后继状态价值的估计来更新现在状态价值的估计。蒙特卡洛方法(Monte-Carlo methods),通过采样大量轨迹,取平均来计算。时序差分学习方法:动态规划和蒙特卡洛方法的一个结合。 26. 马尔可夫决策过程5元组,S(状态集合)、A(动作集合)、P~sa~(状态转移概率)~、~γ(折扣因子)、R(奖励函数)。 27. 马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别:马尔可夫决策过程,过程由转移概率决定;马尔可夫过程/马尔可夫奖励过程,由策略产生动作,采取动作来决定未来的状态转移。 28. 在马尔可夫奖励过程中,一个状态的期望回报(即从这个状态出发的未来累积奖励的期望)被称为这个状态的价值函数(V),对动作价值函数(Q)的动作进行加和就可以得到价值函数。 29. 把状态价值函数和 Q 函数拆解成两个部分:即时奖励和后续状态的折扣价值,即可得到各自的贝尔曼期望方程(定义了当前状态与未来状态之间的关联)。 30. 备份类似于自举之间的迭代关系,对于某一个状态,它的当前价值是与它的未来价值线性相关的。 31. 动态规划:预测,给定马尔可夫决策过程和策略,输出每个状态的价值函数,也叫策略评估;控制,给定马尔可夫决策过程,输出每个状态的最佳价值函数和最佳策略。 32. 在马尔可夫决策过程里面,预测和控制都可以通过动态规划解决。 33. 动态规划(dynamic programming,DP)适合解决满足最优子结构(optimal substructure)和重叠子问题(overlapping subproblem)两个性质的问题。 34. 策略评估是指给定马尔可夫决策过程和策略,我们可以估算出价值函数的值。 35. 寻找最佳策略的过程,就是去寻找一个最佳策略使我们得到一个最大的价值函数值。因此可以通过两种常用方法:策略迭代和价值迭代。 36. 若概率函数和奖励函数已知,则环境已知,即有环境模型。可以通过策略迭代和价值迭代来找最佳的策略。 37. 无模型强化学习方法:Q表、蒙特卡洛、时序差分、Sarsa、Q-learning。 38. 用下一个状态的价值来更新当前状态的价值值,也就是强化学习里面自举的概念。 39. 蒙特卡洛从完整的片段进行学习,只能将其应用于有限长度的马尔可夫决策过程。 40. 蒙特卡洛策略评估使用经验均值累计奖励而不是期望累计奖励。 41. 时序差分方法直接从不完整的经验片段中进行学习。 42. 蒙特卡洛和时许差分的优缺点:时序差分能够在每一步之后进行在线学习;蒙特卡洛必须等待片段结束,直到累计奖励已知。时序差分能够从不完整的序列中学习;蒙特卡洛只能从完整序列中学习。时序差分在连续(无终止的)环境下工作;蒙特卡洛只能在片段化的(有终止的)环境下工作。时序差分方法利用了马尔可夫性质,在马尔可夫环境下有更高的学习效率;蒙特卡洛方法没有假设环境具有马尔可夫性质,利用采样的价值来估计某个状态的价值。 43. 时许差分→更新广度→动态规划;时序差分→更新深度→蒙特卡洛。 44. 同策略(on-policy):Sarsa 45. 异策略(off-policy)(目标策略和行为策略不同):Q-learning,与Sarsa区别只在目标计算部分。 46. 深度Q网络(DQN)是基于价值的算法,学习的是一个评论员(Critic)。 47. 探索-利用窘境(exploration-exploitationdilemma)问题,有两个方法可以解决这个问题:ε-贪心和玻尔兹曼探索。 48. DQN算法不稳定的解决办法:经验回放和双结构网络。 49. DDQN的更新方式更加稳定,改善了Q值overestimate问题。 50. 强化学习主要分为两类:基于价值的方法,先计算每个状态对应的动作Q值,再选择Q值最大的动作执行。代表算法有Sarsa算法、Q-learning和DQN算法。基于策略的方法,直接计算每个状态对应的动作或者动作的概率。代表算法有蒙特卡洛策略梯度算法REINFORCE、TRPO、PPO算法等。 51. RL希望最大化期望奖励,因此可使用梯度上升(gradientascent)来最大化期望奖励。 52. 蒙特卡洛策略梯度,算法完成一个回合之后,再利用这个回合的数据去学习,做一次更新。时序差分策略梯度,算法每个步骤更新一次。 53. 基于策略学习方法的优缺点:具有更好的收敛性,每次总朝着好的方向在改善;基于策略的学习更高效。对于那些拥有高维度或连续状态空间来说,不用比较各种行为的价值大小;能学习到一些随机策略;有些环境计算价值函数非常复杂,但基于策略会简单很多。缺点:原始的、未经改善(Naive)的基于策略的学习有时候学习效率不够高,改进得比较慢。 54. 行为克隆算法的一个缺点------泛化能力差。 55. 逆强化学习算法从专家演示中学习一个奖励函数。 56. 元动作(MovementPrimitives)是一种从示范中学习动作,并将学到的动作在一个机器人系统中复现出来的技术。 57. EditMP(元动作算法)有两个模块,一个模块是动作学习,另一个模块是动作编辑。 ![微信图片\_20241119232450](media/image14.jpeg)