梯度下降算法简单理解：一阶泰勒展开式，梯度下降数学原理<泰勒展开展开到几阶>

发表时间：2024-10-01 08:58:49

梯度下降算法简单理解：一阶泰勒展开式，梯度下降数学原理

梯度下降算法简单理解

一阶泰勒展开式

梯度下降数学原理

梯度下降算法简单理解

梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

下山问题

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在当前位置的导数。

上式中，θ 是自变量，f(θ) 是关于 θ 的函数，θ 表示梯度。

如果函数 f(θ) 是凸函数，那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了：

其中，θo 是自变量参数，即下山位置坐标，η 是学习因子，即下山每次前进的一小步（步进长度），θ 是更新后的 θo，即下山移动一小步之后的位置。

一阶泰勒展开式

如果函数足够光滑的话，在已知函数在某一点的各阶导数值的情况之下，泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的邻域中的值。

这里需要一点数学基础，对泰勒展开式有些了解。简单地来说，一阶泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例：

凸函数 f(θ) 的某一小段 [θo,θ] 由上图黑色曲线表示，可以利用线性近似的思想求出 f(θ) 的值，如上图红色直线。该直线的斜率等于 f(θ) 在 θo 处的导数。则根据直线方程，很容易得到 f(θ) 的近似表达式为：

这就是一阶泰勒展开式的推导过程，主要利用的数学思想就是曲线函数的线性拟合近似。

梯度下降数学原理

知道了一阶泰勒展开式之后，接下来就是重点了！我们来看一下梯度下降算法是如何推导的。

先写出一阶泰勒展开式的表达式：

其中，θ−θo 是微小矢量，它的大小就是我们之前讲的步进长度 η，类比于下山过程中每次前进的一小步，η 为标量，而 θ−θo 的单位向量用 v 表示。则 θ−θo 可表示为：

特别需要注意的是，θ−θo 不能太大，因为太大的话，线性近似就不够准确，一阶泰勒近似也不成立了。替换之后，f(θ) 的表达式为：

重点来了，局部下降的目的是希望每次 θ 更新，都能让函数值 f(θ) 变小。也就是说，上式中，我们希望 f(θ)