1. 线性模型简介

0x1：线性模型的现实意义

在一个理想的连续世界中，任何非线性的东西都可以被线性的东西来拟合（参考Taylor Expansion公式），所以理论上线性模型可以模拟物理世界中的绝大多数现象。而且因为线性模型本质上是均值预测，而大部分事物的变化都只是围绕着均值而波动，即大数定理。

事物发展的混沌的线性过程中中存在着某种必然的联结。事物的起点，过程，高潮，衰退是一个能被推演的过程。但是其中也包含了大量的偶然性因素，很难被准确的预策，只有一个大概的近似范围。但是从另一方面来说，偶然性自身也可以组成一条符合大数定理的线性。

0x2：线性模型的基本形式

给定有d个属性描述的示例 $x = (x_{1};x_{2};...;x_{d})$ ，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即：

$f(x)=\omega _{1}*x_{1}+\omega _{2}*x_{2}+...+\omega _{d}*x_{d}$

一般用向量形式写成：，其中，；

线性模型中 f(x) 可以是各种“尺度”上的函数，例如：

f(x)为离散的值：线性多分类模型
f(x)为实数域上实值函数：线性回归模型
f(x)为对数：对数线性模式
f(x)进行sigmoid非线性变换：对数几率回归
...

实际上，f(x)可以施加任何形式的变换，笔者在这篇blog中会围绕几个主流的变换形式展开讨论，需要大家理解的是，不同的变换之间没有本质的区别，也没有好坏优劣之分，不同的变换带来不同的性质，而不同的性质可以用于不同的场景。

1. 线性模型参数求解的本质 – 线性方程组求解

不管对 f(x) 施加什么样的变化，从方程求解角度来看， $f(x)=\omega _{1}*x_{1}+\omega _{2}*x_{2}+...+\omega _{d}*x_{d}$ 是一个线性方程组。

在这个方程组中，x 是我们已知的，因为我们有训练样本，所以在初始化时，我们的线性方程组看起来是如下形式：

y1 = 1 * w1 + 2 * w2 + .... + 3 * wn；
....
yn = 3 * w1 + 4 * w2 + .... + 3 * wn；

每个样本代表线性方程组的一行，样本中完全线性共线的可以约去。

这样，我们就得到了一个 N(样本数) * M(特征维度) 的巨大矩阵。而样本的值和标签即（x，y）共同组成了一个巨大的增广矩阵。注意，是样本组成了系数矩阵，不是我们要求的模型参数！

求解线性模型的参数向量（w，b）就是在求解线性方程组的一个方程解，所有的方程解组成的集合称为线性方程组的解集合。

同时，在机器学习中，我们称 w 和 b 为线性模型的超参数，满足等式条件的（w，b）组合可能不只一种，所有的超参数构成了一个最优参数集合。实际上，根据线性方程组的理论，线性方程组要么有唯一解，要么有无限多的解。

唯一解的条件比较苛刻，在大多数的场景和数据集下，解空间都是无限的，机器学习算法的设计目标就是：

基于一种特定的归纳偏置，选择一个特定的超参数（w，b），使得模型具备最好的泛化能力，机器学习算法的目的不是解方程，而是获得最好的泛化能力。

当超参数通过训练拟合过程确定后，模型就得以确定。

0x3：线性模型蕴含的基本思想

线性模型的形式很简单，甚至可以说是一种最简单质朴的模型，但是却蕴含着机器学习中一些重要的基本思想：

1. 原子可叠加性：许多功能更为强大的非线性模型（nonlinear model）可在线性模型的基础上通过引入层级结构或高维映射而得到；
2. 可解释性（comprehensibility）：权重向量 w 直观表达了各个属性在预测中的重要性（主要矛盾和次要矛盾），而误差偏置 b 则表达了从物理世界到数据表达中存在的不确定性，即数据不能完整映射物理世界中的所有隐状态，一定存在某些噪声无法通过数据表征出来；

Relevant Link:

https://www.cnblogs.com/jasonfreak/p/5551544.html
https://www.cnblogs.com/jasonfreak/p/5554407.html
http://www.cnblogs.com/jasonfreak/p/5595074.html
https://www.cnblogs.com/pengyingzhi/p/5383801.html

2. 线性回归 – 基于线性模型的一种回归预测模型

0x1：线性回归模型的基本形式

通常给定数据集：D={(x1,y1)，(x2,y2)，…，(xn,yn)}，其中xi=(xi1；xi2；…；xid)，yi∈R。

线性回归（linear regression）试图学得一个线性模型：

，以尽可能准确地预测实值输出标记。

注意，这里用”尽可能地准确“这个词，是因为在大多数时候，我们是无法得到一个完美拟合所有样本数据的线性方程的，即直接基于输入数据构建的多元线性方程组在大多数时候是无解的。

例如下图，我们无法找到一条完美的直线，刚好穿过所有的数据点：

这个时候怎么办呢？数学家高斯发现了最小二乘，它的主要思想是：寻找一个解向量，它和目标数据点的距离尽可能地小。

所以现代线性回归算法所做的事情是：在一定的线性约束条件下，求解线性目标函数的极值问题，这是一个线性规划问题。

0x2：线性回归模型中损失函数的选择

我们上一章说道，直接基于输入数据求解对应线性方程组是无解的，高斯为了解决这个问题，引入了最小二乘。在此之上，之后的数学家又发展出了多种损失评估函数，其数学形式各异，但其核心思想是一致的。

我们知道，损失函数的选择，本质上就是在选择一种误差评价标准。我们知道，损失函数的本质是物理世界和数学公式之间的桥梁，选择何种损失函数取决于我们如何看待我们的问题场景，以及我们希望得到什么样的解释。关于损失函数的讨论，读者朋友可以参阅另一篇blog。

我们这章来讨论主要的常用损失函数。

1. 最小二乘损失函数

1）线性最小二乘的基本公式

考虑超定方程组（超定指未知数小于方程个数）：

，其中m代表有m个等式，n代表有 n 个未知数

，m>n ；

将其进行向量化后为：

，

前面解释过，在大多数情况下，该方程组一般而言没有解，所以高斯为了选取最合适的

，让该等式”尽量成立”，引入残差平方和函数：

在统计学中，残差平方和函数可以看成n倍的均方误差MSE，常数n不影响参数求解，在计算时可忽略。

2）为什么是最小二乘？不是最小三乘或者四乘呢？

这节我们来讨论一个问题，为什么MSE的形式是平方形式的，这背后的原理是什么。

这里先抛出结论：在假设误差符合大数定理正态分布前提假设下，解线性模型参数优化问题等同于均方误差损失函数最小化问题。

下面来证明这个结论：

在线性回归问题中，假设模型为，其中 x 为输入，b为偏置项。

根据中心极限定理（注意这个前提假设非常重要）（关于大数定理的相关讨论，可以参阅我另一篇blog）假设模型 h(θ) 与实际值 y 误差 ϵ 服从正态分布（即噪声符合高斯分布），即:

则根据输入样本 xi 可以计算出误差 ϵi 的概率为：

$x_{i}$

对应似然公式为：

其中 m 为样本总数。基于以上公式可以写出对数最大似然，即对 $l (θ)$

则最大化似然公式 $L (θ)$

$L (θ)$

因此我们可以试图让均方误差最小化，即：

均方误差有非常好的几何意义，它对应了常用的欧几里得距离或简称欧氏距离（enclidean distance）。基于均方误差误差最小化来进行模型求解的方法称为“最小二乘法（least square method）”。

在一元线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。

求解 w 和 b 使最小化的过程，称为线性回归模型的最小二乘参数估计（parameter estimation）。我们可将分别对 w 和 b 求导，得到：

令上式等于零可得到 w 和 b 最优解的闭式（closed-form）解，同时损失函数中极值就是上式参数优化公式的最小值，线性规划问题得解。

注意：这里 E(w,b) 是关于 w 和 b 的凸函数，当它关于 w 和 b 的导数均为零时，得到 w 和 b 的最优解。
但是对于更高维的线性模型甚至非线性模型，目标函数往往并不是全局凸函数，因此不能继续使用导数为零的方式进行最优解求解，这个时候就需要例如GD这种递归优化求解算法。

Relevant Link:

https://www.zhihu.com/question/20822481
https://www.jianshu.com/p/985aff037938
https://juejin.im/entry/5be53a575188257cf9715723

3.2）逆矩阵计算参数求解方法

根据最小二乘求解公式，我们有：

令，对求导得到：

令上式为零可得最优解的闭式解。

接下来的问题就是，该线性方程组矩阵是否有解？如果有解，是有唯一解还是有无穷多解？这个问题在矩阵论中有明确的理论定义和讨论，读者朋友可以参阅一些清华/北大初版的线性代数书籍，讲解特别好。

1）满秩情况下

当为满秩矩阵（full-rank matrix）或正定矩阵（positive definite matrix）时，令上面求导公式为零可得：

其中，是矩阵的逆矩阵，令，则最终学得的多元线性回归模型为：

2）非满秩情况下

然而，在现实中，往往不是满秩矩阵。

例如在许多任务中我们遇到大量的变量（即特征维度），其数目甚至超过样例数，导致 X 的列数多于行数，显然不满秩。此时可解出无限多个，它们都能使均方误差最小化。

选择哪一个解作为输出，将由学习算法的归纳偏好来决定，一个常用的做法是引入正则化（regularization）项。

笔者思考：

线性方程组的行数就是样本数吗？
答案是否定的，准确来说，线性方程组的行数应该是互相线性不相关的样例的行数。因为可以把同一个向量复制N遍，得到N+1个样本，例如(1,1)、(2,2)、(3,3)其实是同一个样例。这里背后其实是矩阵的秩的概念原理。

过拟合和线性方程组求解的关系是什么？
这提示我们可以从线性方程组角度解释过拟合问题的原因。过拟合的问题本质上是方程组的解有无穷多个，而算法模型选择了其中较为复杂的一种。
我们将训练样例输入模型，转化为一个线性方程组，如果从线性方程组化简化阶梯矩阵后，非零行数 < 未知量个数的角度，则该线性方程组有无穷多个解，即有可能发生过拟合。
发生过拟合并不是算法有问题，算法做的就是是合理的，符合现行方程组原理的，其实在解空间中，所有的解都是一样的，都可以使得在这个训练集上的损失最小，但是机器学习的目的是得到一个泛化能力好的模型，而根据奥卡姆剃刀原理，越简单的模型在未知的样本上的泛化能力越好。解决过拟合问题是一个机器学习的技巧，并不是线性代数的数学问题。
关于过拟合问题的详细讨论，可以参阅另一篇blog。

Relevant Link:

https://zhuanlan.zhihu.com/p/34842727
https://zhuanlan.zhihu.com/p/33899560
https://blog.csdn.net/shiyongraow/article/details/77587045

3.3）梯度下降算法（Gradient decent）来求解线性回归模型参数

我们前面说过，为了解决基于原始输入样本数据构成的线性方程组无解的问题，我们引入了损失函数，之后问题转换为了求解损失函数的参数解。

需要明白的，线性模型无论多复杂其本质上都是凸函数，凸函数一定可以求得全局最优的极值点，也即最优参数。

但是，当函数复杂度继续提高，例如增加了非线性变换之后的复合函数之后，目标函数不一定就是凸函数了（例如深度神经网络），这个时候我们就很难直接求得闭式解，矩阵求逆也不一定可以完成。

针对这种复杂函数，GD梯度下降就是一种相对万能通用的迭代式参数求解算法。

当然，理论上，我们也可以将GD算法用于线性模式的参数求解中。

下面的代码中，我们通过GD算法来求解一个二元线性模型的参数，并且将GD的求解结果和使用LSM算法求解的结果进行对比。

首先用3D绘制出数据集的分布：

# -*- coding: utf-8 -*- import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D import numpy as np import random from sklearn import linear_model #首先要生成一系列数据，三个参数分别是要生成数据的样本数，数据的偏差，以及数据的方差 def getdata(samples, bias, variance): X = np.zeros(shape=(samples, 2)) #初始化X Y = np.zeros(shape=samples) for i in range(samples): X[i][0] = 2 * i X[i][1] = i Y[i] = (i + bias) + random.uniform(0, 1) * variance return X, Y # 梯度下降算法来解决最优化问题，求损失函数的最小值 def gradient(X, Y, alpha, m, iter_numbers): theta = np.ones(2) # 初始化theta的值 初始化要求解模型中参数的值 bias = np.ones(1) X_trans=X.transpose() # 转化为列向量 for i in range(iter_numbers): Y_hat = np.dot(X, theta) + bias # 待预测的函数: y = wx + b loss = Y_hat - Y # 得到的仍然是一个m*1的列向量 coss = np.sum(loss**2) / (2 * m) # 平方和损失函数 print("iteration:%d / Cost:%f"%(i, coss)) #打印出每一次迭代的损失函数值，正常情况下得到的损失函数随着迭代次数的增加该损失函数值会逐渐减少 gradient_theta = np.dot(X_trans, loss) / m #损失函数的对 theta 参数求导后的结果，后面梯度下降算法更新参数theta的值时会用到这一项的值 gradient_bias = np.sum(loss) / m #损失函数的对 b 参数求导后的结果 theta = theta - alpha * gradient_theta bias = bias - alpha * gradient_bias return theta, bias if __name__=="__main__": m = 100 X, Y = getdata(m, 25, 10) # Plot data ax = plt.subplot(111, projection='3d') ax.scatter(X[:,0], X[:,1], Y, c='r',marker='1') theta, bias = gradient(X, Y, 0.00002, m, 2000000) print("GD -> the parameters (theta) is: ", theta) print("GD -> the parameters (bias) is: ", bias) # 打印GD得到的参数对应的函数曲线 X_GD = np.zeros(shape=(m, 2)) Y_GD = np.zeros(shape=m) for i in range(m): X_GD[i][0] = 2 * i X_GD[i][1] = i Y_GD[i] = theta[0] * X_GD[i][0] + theta[1] * X_GD[i][1] + bias ax.plot(X_GD[:,0], X_GD[:,1], Y_GD, c='b', lw=1) clf = linear_model.LinearRegression() clf.fit(X,Y) print("LSM -> the theta is: ", clf.coef_) print("LSM -> the bias is: ", clf.intercept_) # 打印MSE得到的参数对应的函数曲线 X_LSM = np.zeros(shape=(m, 2)) Y_LSM = np.zeros(shape=m) for i in range(m): X_LSM[i][0] = 2 * i X_LSM[i][1] = i Y_LSM[i] = theta[0] * X_LSM[i][0] + theta[1] * X_LSM[i][1] + bias ax.plot(X_LSM[:,0], X_LSM[:,1], Y_LSM, c='g') plt.show()

运行结果如下：

('GD -> the parameters (theta) is: ', array([0.2020337 , 0.60101685])) ('GD -> the parameters (bias) is: ', array([29.915184]))  ('LSM -> the theta is: ', array([0.40202688, 0.20101344])) ('LSM -> the bias is: ', 29.916313760692574)

从运行结果以及我们将GD和LSM得到的参数打印出轨迹图中我们可以看出以下几点：

1. 尽管使用了相同的损失函数，但是GD算法得到的结果和LSM最小二乘法的最优结果并不一致，GD算法只是在逼近最优值，且接近最优值，并不能在有限步骤内完全达到最优点； 2. GD算法是一种参数求解算法，和使用什么损失函数没有关系，笔者在代码中使用了MSE平方和损失误差，读者朋友可以自己换成交叉熵代价损失，并不影响最终结果。 3. 在梯度下降中，权值更新是一个迭代的过程，每个维度权值（wi）更新取决于当前轮次中的误差，误差较大大的个体（xi）会使得对应的 wi 调整的更剧烈，这点从代码中可以体现。这种权值更新办法比较直观，但是同时也比较低效：即人人都有发言的权利，每次只考虑部分人，容易顾此失彼。 相比之下，LSM直接基于大数定理进行最小化均方误差，本质上就是求每个属性维度 xi 的样本均值。

3.4）其他参数优化算法

最速下降法是一种最优化求极值的方法。与此相关的还有共轭梯度法，牛顿法，拟牛顿法(为解决海森矩阵求逆代价过大的问题)等。

笔者思考：最小二乘和GD都需要计算 w 和 b 的偏导数。但是不同的的是，最小二乘直接基于偏导数求极值求得最全最优的参数值，而GD基于偏导数作为本轮迭代对 w 和 b 的修正因子（梯度方向）。

$L (θ)$

https://blog.csdn.net/Wang_Da_Yang/article/details/78594309

L (θ)

如何将非线性模型转化为线性模型_什么是线性模型

1. 线性模型简介

0x1：线性模型的现实意义

0x2：线性模型的基本形式

1. 线性模型参数求解的本质 – 线性方程组求解

0x3：线性模型蕴含的基本思想

2. 线性回归 – 基于线性模型的一种回归预测模型

0x1：线性回归模型的基本形式

0x2：线性回归模型中损失函数的选择

1. 最小二乘损失函数

1）线性最小二乘的基本公式

2）为什么是最小二乘？不是最小三乘或者四乘呢？

3.2）逆矩阵计算参数求解方法

3.3）梯度下降算法（Gradient decent）来求解线性回归模型参数

3.4）其他参数优化算法

3.2）最小二乘和投影的关系

2）衡量两个事件/分布之间的不同 – KL散度

3）KL散度的数学定义

4）k-l散度的数学特性

5）交叉熵

6）交叉熵在一定条件下等价于KL散度

7）交叉熵作为损失函数在机器学习中的作用

3. 其他损失函数

3. 对数几率回归 – 基于线性回归的一种概率函数

0x1：阶跃函数 – 硬分类

0x2：sigmoid函数（对数几率函数） – 软分类

1. logistic function中体现的几率性质

0x3：对数几率回归的优点性质

0x4：求解模型参数（w，b）

4. 广义线性回归

0x1：对数线性回归

0x2：广义线性模型

4. 线性判别分析（Fisher linear discriminant analysis） – 基于线性模型的线性投影判别算法

0x1：LDA的思想

0x2：LDA算法数学公式

0x3：LDA算法求最优解

0x4：LDA和PCA的内在共通之处

5. 类别不平衡问题，及其缓解手段

0x1：类别不平衡带来的“伪训练成功问题”

0x2：类别不平衡带来的影响的原理分析

0x3：类别不平衡问题的一种解决策略 – 再缩放（rescaling）

0x4：类别不平衡问题的另一种解决策略 – 代价敏感学习（cost-sensitive learning）

0x5：如何利用类别不平衡问题实现特定的分类策略

相关推荐

发表回复