在进行线性回归时,为什么最小二乘法是最优方法?
推荐先了解一下Decisiontheory(Decisiontheory),你会明白,取不同的损失函数就会得到不同的最优解(在机器学习中就会得到不同的分类器),适应不同的应用场景。所以,要问这个问题,首先请定义“最优”。如果明确了“最优”的定义,答案自然也就清楚了,就是一个最优化问题。在实际工作中,大部分的时间要花在根据数据的分布和噪音等因素定义“最优”上。
一个非常intuitive的理解,你需要拟合出的直线应该使得预测值与真实值之间差异最小,因此是最小二乘,而非同时使得自变量与因变量与拟合线的距离最短
什么叫“最优”方法?凭啥说这条直线比另一条更优?要回答这个问题,首先要给出“最优”的定义是什么:最小化误差平方和(2范数)可以,最小化你说的误差距离和(1范数)也可以,还有其他许多最优的准则:例如加入各种regulation项...所以没有统一的“最优”。这个问题是,你首先得定义一个合理的目标函数(例如提到的2范数,1范数等等),而最小化该目标函数的解就是某个意义下的最优。没有哪一个目标函数比另外的目标函数更优,每一个合理的目标函数有其适用范围并且可以在数学上证明其特性,例如一个核心问题是,使用误差平方和作为目标函数时,200多年前的高斯就发现可以求导得到唯一的显式解,而这个解法也因此被称作最小二乘法,人们进一步研究时发现在高斯噪声等条件下可以得到一些漂亮的结论:如最小二乘解等价于最大似然估计,最佳线性无偏估计等。而是用其他目标函数,很难显式得到最优解——而近年来凸优化的发展,使用1范数等目标函数也可以有成熟算法求得其最优解。总结:(1)首先你得定义什么叫最优,即定义一个合理(makesense)的误差目标函数去最小化;(2)然后,你得有算法求得该目标函数对应的最优解。
最小二乘的假设是高斯噪声,最大似然估计推导出来的,你不妨推一遍,AndrewNg的视频里也有讲过你说的距离之和其实是一范数,是拉普拉斯噪声推导出来的具体用那种,看噪声的分布假设是什么
你那个距离之和最小叫做最小一乘法,这个是线性回归理解起来最直观的做法,而且拟合效果也很好,据说有实验表明,最小一乘法做的线性拟合,和靠人眼估计做的拟合非常接近。关键问题是,最小二乘法是让误差的平方和最小,这个可以用偏导数来研究,并且可以给出参数的公式。而最小一乘法是让误差的绝对值之和最小,数学上解决这个问题比最小二乘法复杂得多。它只是看起来简单,可惜这是一种错觉。实际上最小一乘法比最小二乘法要先诞生,为何被抛弃,主要还是当时的数学水平解决不了这个问题,后来才发现线性规划的解决方法,还要借助计算机才可以搞定。
回答请先登录