2025年机器学习算法（机器学习）

编程日记 • 2025-03-09 18:27 • 阅读 68

K Nearest Neighbor算法又叫KNN算法，它的原理是如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

两个样本间距离可通过欧式距离计算，如a(a1,a2,a3)，b(b1,b2,b3)，则：

k值取的太小容易受到异常点的影响，而取的过大容易受到样本不均衡的影响。

目的是为了让训练得到的模型结果更加准确。做法：将拿到的训练数据，分为训练集和验证集。以下图为例：将数据分成4份，其中一份作为验证集，然后经过4次(组)的测试，每次都更换不同的验证集，即得到4组模型的结果，取平均值作为最终结果，称为4折交叉验证。

通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的k值），这种叫超参数。但是手动调参繁杂，所以需要对模型预设几种超参数组合。每种超参数都采用交叉验证来进行评估，最后选出最优参数组合建立模型。

朴素是因为加了个假设：特征与特征之间是相互独立的。故朴素贝叶斯算法=朴素+贝叶斯公式。

贝叶斯公式：

注：w为给定文档的特征值，c为文档类别。

一般还需要引入拉普拉斯平滑系数进行计算，目的是为了防止计算出的分类概率为0（数据少时易出现）。

为指定系数一般为1，m为训练文档中统计出的特征词个数。

缺点：由于加了样本属性独立性的假设，所以如果特征属性有关联时效果不好。

类似于if-else嵌套构建起的一颗树。

简单来说信息是消除随机不定性的东西，比如当我不知道小明的年龄时，小明说他今年18岁，那么小明的话就是一条信息，这时小华接着说小明明年19岁，小华的话就不是信息了。而要衡量消除的不确定性有多少，就引入了信息熵。

H的专业术语称之为信息熵，单位为比特，其中底数b一般为2。

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的信息熵H(D)于特征A给定条件下D的信息条件熵H(D|A)之差：

比如从下面这个例子来理解公式，应该选取什么特征开始构建一棵树，从而决策是否贷款。

集成学习通过建立几个模型组合来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立的学习和作出预测，这些预测最后结合成组合预测，因此优于任何一个单分类的作出预测。在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数决定。