2025年应用微积分（MIT 18.013A）（一）

前言

这里呈现的 18.013A 课程旨在为在高中学习过微积分的学生提供一个一个半学期的微积分课程。它旨在是自包含的，因此可以在没有任何微积分背景的情况下跟随，对于那些冒险的人来说是可能的。

它利用了一些相对较新的工具，比如小程序，旨在使学科更易学习和更有趣。

然而，我们并不打算让这门课程仅仅成为一个简单的微积分课程，覆盖与传统课程相同的所有内容，但由于小程序和电子表格的使用，更容易吸收。

实际上，现代节省劳动力的设备并没有使生活更轻松简单。相反，它们节省了我们时间，使我们能够在生活中做更多事情，使生活变得比以往更加复杂和繁忙。

同样，我们希望这些新工具能让学生在同样甚至更多的努力下学到更多、更彻底地学到更多。

因此，所涵盖的材料在深度和多样性上远远超出了通常在微积分课程中尝试的范围。

实际上，我们试图在这个网站上的每一章几乎都注入了新的材料。

为什么我们这样做呢？

部分原因是人类的脆弱性：为了在创作这些材料时不至于发疯。

此外，也是为了保持对已经接触过该主题的人的兴趣。最后，是为了展示现在吸收和使用不久前对学生完全无法接触、很少教授，甚至在教授时很少掌握的材料是多么容易。

显然，一些额外材料主要是为了让学生感到困惑，有些做得很糟糕，尽管可以改进，有些可能会给你提出更好的建议，可以包含在其中。

作者们会很高兴如果你找到一种使用这些材料或从中学习的方法。如果您能通过电子邮件（djk@math.mit.edu）向我们发送您对此的任何评论，尤其是那些不喜欢看到的人，我们将不胜感激。

它仍处于可以更改的阶段。

那么在这里对微积分课程有什么新的内容呢？

引入电子表格的第零章是全新的。

第一章中对标准函数的讨论是新的。

通过插图在第二章中对三角函数进行几何定义是新的，第三章中关于各种度量标准（3.8）的部分是新的。（在那里可能带来更多的伤害而不是好处。）

第四章和第五章的主要创新是小程序，尽管在这个阶段引入特征向量和特征值的概念可能有些不同寻常。

第六章涉及在所有维度中定义微分的内容是新颖的；但我认为这有助于让学生看到为什么微分规则是什么样的，以及微积分为何有用。

第七章关于数值微分对我来说是新的。

第八章没有太多新内容，除了它适用于所有维度。

除了小程序之外，这门课程的主要创新可能是数值分析部分，单变量和多变量微积分的研究，复平面中积分的引入以及与物理学的应用。尽管这些在物理学中很常见，但在微积分课程中很少讨论。

我们的目的是涵盖足够多关于数学更高级领域的内容，让学生们意识到它们的存在，并激励他们想要进一步学习这些内容。

这些材料理论上可以由学生自学，但这很少会成功。学生往往会在某些地方卡住，由于没有目标来推动他们继续前进，他们会试图以逐渐减少的精力克服困难，最终对继续学习产生心理障碍。有组织的课程通过强迫他们面对考试和作业等障碍来防止这种情况的发生。

如果你尝试这样做并陷入困境，几乎是不可避免的，你可以尝试给我们发电子邮件，我们会尽力帮助你解决困难。

第一章：哲学、数字和函数

引言

我们考虑我们的努力将集中在的基本上下文：数字和函数的领域。我们描述了“标准函数”，这些函数在你的世界中最常出现，并且逆函数

主题

1.1 哲学

1.2 数字

1.3 函数

1.4 标准函数

1.5 其他函数

1.6 反函数

1.7 隐式函数

1.1 哲学

我们不会深入探讨哲学，只是列出一些我们希望在课程中融入的特点。

课程的哲学

1. 尽可能多地使用计算机。

2. 使用电子表格。

3. 鼓励积极学习而不是被动学习；试图让你思考材料。

4. 将一元微积分与多元微积分结合起来，使它们一起处理而不是一个接一个地处理。

5. 在适当时通过电子邮件向我提交作业。

6. 让你重新做作业直到正确为止。

7. 反馈是所需活动的重要组成部分。

学习的哲学

1. 学到的东西与投入的时间成正比。

2. 学习的最佳方式是自己想出想法或将其教给别人。

3. 第二好的方法是通过朋友或我们这样的人的提示来做。

4. 第三好的是从阅读中获取思想；但在阅读中停下来思考它们。

5. 第四好的：不可接受的：根本不了解它们。

6. 一个讲座的目的不是告诉你重要的事实，而是激发你尝试学习某个概念。

7. 课程的目标是使您能够在任何情境中使用微积分的概念。

1.2 数字

我们从数字的基本概念开始。自然数，表示为 N，是数字 1,2,3,…，在加法下是封闭的。

能够与 N 或 N 的子集建立一一对应关系的集合称为可数集。 对应

引入减法的概念使我们将 N 扩大到得到整数，表示为 Z，正数、负数或 0，使得我们的数字在减法运算下是封闭的。

练习 1.1 Z 可数吗？ 解答

Z 在乘法下是封闭的；也就是说，两个整数的乘积是一个整数。

要得到一个在除法下封闭的数字集合：我们必须将 Z 扩大以得到有理数 Q，其形式为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/07a9bf071fac73cce46767170ea9cd5e.jpg，其中 a 是 Z 中的数，b 是 N 中的数。

练习：

1.2 Q 可数吗？（参见图片提示。）解答

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/741df25d3b57dc5cbe66975e9dba8e67.jpg

1.3 证明或反驳：可数集的可数子集是可数的。 解答

数字的十进制形式

0 到 1 之间的数可以表示为小数点后跟着无限位数字的形式，每个数字为 1、2、3、…、9、0 中的一个。

有理数在某一点之后无休止地重复自己：（例如 1 / 4 是 .250* 或者 .249*，星号表示你无休止地重复星号后的数字）1 / 3 是 .3*，1 / 7 = .(142857)，57 / 100 = .570。

无理数不会这样做。

练习：

1.4 证明有理数无休止地重复相同的有限数字序列，而无理数不会。 解答

1.5 是否存在非有理小数位序列？ 解答

1.6 所有这样的序列都可数吗？（查看图片以获取提示。）解答

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5927803d403b844ae2993696f96c9d3f.jpg

一个数，其第 k 位小数与列表中第 k 位数不同，不能在任何位置上！

代数数是整系数多项式方程的解。

练习 1.7 代数数可数吗？ 解答

实数 R是所有不同的无限数字序列，有一个符号和有限位数的小数点前的数字。

你可以对它们进行加减乘除，但不允许除以 0。

还有其他我们可能称之为数的集合吗？

是的！有“模 x 的数”。这些是当你除以 x 时得到的 Z、Q 或 R 的余数。

还有复数，形成集合 C。这些是形如 a + ib 的表达式，其中 i² = -1，a 和 b 在 R 中，乘法和除法与 R 中的规则相同，附加规则如上。

评论 - 更多关于复数的内容

1.3 函数

集合是一个基本概念。我们以集合（或者另一个称呼：集合）作为基本概念。

有序可数集也被称为序列。1, 2, 3, … 就是一个序列。

如果有两个元素，它被称为有序对。（3, 4）就是这样一个对。

函数是一组有序对的集合，其第一个元素都不相同。

第一个元素称为参数，第二个称为值。

参数的集合称为其定义域。

值的集合称为其值域。

我们通过f(参数) = 值来描述函数 f 中的每一对。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1f5f96dd551bdfa9be58fb4e48900025.jpg

当 f 对两个不同的参数具有相同的值时，比如对 f(d) 和 f(e) 的值相同，这是完全可以的。

我们可以通过列出其对或者通过通常方式绘制代表性对的图形来描述一个函数：如果f(a) = b，在 x 轴上通过 a 的垂直线和 y 轴上通过 b 的水平线的交点处放一个点。

然而，我们无法列出具有无限或巨大定义域的任何函数中的所有对。

我们定义这样一个函数，通过提供一个你可以用来构建其值的过程，你可以选择其定义域中的任意参数。这个过程通常被称为函数的“公式”。

1.4 标准函数

标准函数 是在 R 的一个区间上定义的，它通过从任意三个基本函数的任意组合开始的有限序列的标准操作获得。

基本函数是什么？

恒等函数 f(x) = x

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/60b82fe2a684942f21881e0dbb8f67af.jpg

**指数函数 f(x) = exp(x)

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1a00852bf1a6c7f85201e4bce1e20d25.jpg

**正弦函数 f(x) = sin(x)

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8647f623b4575cd7f59f5c867ea9158c.jpg

标准操作是什么？

实数中的乘法、加法、减法、乘法、除法、将一个函数的值代入另一个函数作为参数，并进行“逆运算”。

我们遇到的大多数函数将是标准函数。

例如：4x²，x sin(x)，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/d81d612e77a2121b4d39ed65ffee050b.jpg

你可以在下面的小程序中输入你喜欢的标准函数 f 和 g，并观察以各种方式组合 f 和 g 的效果，还可以查看 f 的逆函数。

注意，当 f 对于多个参数具有相同的值时，你必须决定你想将哪个参数称为逆函数的值。

1.5 其他函数

还有其他函数吗？

是的，但我们主要关注标准函数。

我们可能会遇到哪些其他函数？

分段标准函数: 这些是在其定义域的子区间上是标准函数的函数，但在所有子区间中不一定是相同的标准函数。对于任何负参数为 0，对于正参数为 1 的函数是一个例子。这被称为阶梯函数。

x 的绝对值，对于负参数 x 是 -x，对于正 x 是 +x，是另一个例子。它的图像在 x 轴原点处呈 V 形。

通过无限级数定义的函数: 特别是通过一系列幂 x^n 和系数是幂的标准函数。一个简单而基础的例子是几何级数，由 g(x) = 1 + x + x² + … + x^k + … 定义。

使用微积分运算定义的函数: 这些通常是由标准函数的导数或积分定义的函数。一旦这些概念被定义，这样的定义就很容易。

序列可以被看作是以 N 或 N 的子集为其定义域的函数。

**递归或隐式定义的函数：**函数的递归定义是通过一个需要重复应用的过程来构造其值的过程来描述的，以便在整个定义域上定义它们。

例如，斐波那契数 f(n) 根据以下规则形成一个序列：f(0) = f(1) = 1；对于大于 1 的整数 n，f(n) = f(n - 1) + f(n - 2)。

这是这个序列的递归定义。

隐式定义的函数将在第 1.7 节中详细讨论。

**来自真实现象的函数：**这些通常起初是未知的。它们可能是任何东西。令人惊讶的是，我们将它们视为标准函数，或者视为上述其他类别中的一个函数时，我们的表现有多么出色。

为什么考虑标准函数？

它们可在计算器和电脑上使用。

它们只有孤立的奇点。

除了通常很容易定位的某些奇异点外，它们在大部分定义域上都是无限可微的。

它们可以在复平面上定义。

它们非常有用。

我们可以对任何在同一定义域上定义的序列或函数进行加、减或乘，并且在其中一个被除的地方，只要不是 0，就可以除另一个。为此，在它们的定义域中的每个自变量处，加、减、乘或除它们的值。

1.6 反函数

什么是反函数？

取一个函数 f：按照通常的方式画出它的图形；交换 x 和 y 轴，然后你就得到了反函数 f^(-1) 的图形。

y = f(x) 意味着 x = f^(-1)(y)。

这可以通过在纸上画图，将纸翻转过来，使旧的第一象限出现在右上角，并透过纸看旧图形来完成。

不要混淆反函数与倒数函数；它们是完全不同的概念。粗心的人可能会使用相同的符号表示法。这样做是错误的，因为它会引起混淆。

请注意，如果将 x = f^(-1)(y) 替换到 y = f(x) 中，你会得到 x = f^(-1)(f(x))。这最后一个方程可用作 f 的反函数的替代定义。

定义反函数存在问题。对于每个自变量，一个函数只能有一个有序对，而同样的值可以出现多次。这意味着交换自变量和值（这是我们在创建反函数时所做的），会产生一个非函数，除非原始函数确实每次都采用每个值。

当一个函数多次取值时，我们必须额外工作来为其定义一个反函数。换句话说，我们必须选择一个值作为新的自变量，并且放弃其他值。当 f 不是单值时，可以用许多不同的方式来做到这一点，因此在定义 f^(-1) 时总会存在某种任意性。

这方面最清晰的例子是函数 x²。它每个正值都有两个对应值。4 和 -4 都有相同的平方。对于这个函数的标准做法是定义其逆函数，x^(1/2)，为正平方根，忽略负平方根。（然后负平方根用 -x^(1/2) 表示。）这个定义有两个优点：一个是正数比负数更正。另一个是，用这个定义（而不是选择负根作为逆函数），乘积的平方根是其因子的平方根的乘积。

一般来说，你可以通过查看 f 的图像，在 f 是单值的定义域上进行选择，并将其作为 f ^(-1) 的值域来选择 f 的逆。

一些有趣的配对：��

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/39ddb231ae27620154e8a099c2b5364c.jpg https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/053378fb5c692490e406e266d91a0663.jpg

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/83b80149068106d026e78eae0341ae46.jpg https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c095811b16567767933f452b7f73dc53.jpg

练习 1.8 对于哪些值可以定义函数 cos(sin x) 的逆函数。(提示：设 f = cos(sin x)，看看它的逆函数并找出答案。) 解答

1.7 隐式函数

函数的隐式定义是指没有给出其值的显式公式，而是通过给出其满足的条件来定义它。因此，其值必须被推断为定义的结果，因此它是“通过暗示”定义的。

一个例子是：通过 x² + y² =1 和 y > 0 来定义 y(x)。

将一个函数定义为其逆函数是隐式定义的另一个例子。

注意，在这个例子中你可以得到一个关于 y(x) 的公式；该公式表示了这个相同函数的显式定义。

练习：

1.9 这些内容对你来说有多熟悉？

1.10 陈述 cos x 是 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/11483568453085185de1d28fdaaedb24.jpg 意味着什么关于 arccos y 和 arcsin y？ 解答

1.11 想出一个可以放在这里的问题。

第二章：指数函数和三角函数

简介

我们考虑我们基本函数的性质。

主题

2.1 指数函数

2.2 三角函数

2.3 三角函数的性质

2.4 对数

2.1 指数函数

指数函数，用 exp x 表示，由两个条件定义：

它在参数 0 处的值为 1。

它是它自己的导数。 评论

这意味着它在 0 处的斜率为 1，这意味着它在那里增长，因此随着 x 的增加增长得更快，并且作为它自己的斜率，即使在负值时也增长得更快，永远不会变成 0。

如果你绘制它，并在参数 x 处画一条切线，那么该切线将保持在它下方，并在 x 轴上的 x - 1 处相交。

我们可以将 exp x 的表达式找到为 x 的无限级数，从一个常数开始，通过使用定义条件和导数的整数幂 x^n 的导数是 nx^(n-1) 的事实。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ff9c1b3b62f83b7ec0f38f2bd661e979.jpg

（如果这对你来说不熟悉，现在就相信它；在定义了我们的术语之后我们将证明它。如果你是初学微积分的人，你可能会觉得这一切都很神秘。如果是这样，请不要担心，但请阅读解答以了解下面提到的基本性质。）

如何？

当 x = 0 时，exp 为 1，这意味着第一个或常数项为 1。这一项必须是另一项的导数，根据上述幂导数公式，唯一可能的具有 1 作为其导数的项是 x。

类似地，唯一具有 x 作为其导数的项是 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c038d59f4d2ec9b8145ade16378c28ee.jpg。因此等等，这导致了指数函数表达式的级数的一般项是…

现在轮到你了。通过做下面的练习来完成这个句子。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f86476452bebab2aa295ebe185db8c27.jpg

练习：

2.1 弄清楚 exp x 的级数，并证明它确实如此。 解答

2.2 设定一个电子表格，使用你的级数计算它直到第 100 项为止。 解答

2.3 对于 x = 1，你需要多少项才能获得 10 位的精度？ 解答

2.4 随机选择一个 x 并用电子表格计算 (exp x)(exp(-x))。你得到什么？(exp 3x)(exp(-x))³呢？ 解答

对于任何函数，如果它是自己的导数或其导数是它的一个常数倍数，那么都可以获得相同类型的级数解。

这一事实使我们能够证明 指数函数的基本性质。

这些是 exp(x + r) 和 exp rx 的替代表达式。

exp(x + r) 的导数是它自己，但在 x = 0 时值为 exp r；

exp rx 在 x = 0 处的值为 1，但其导数为 r 乘以它自身。

这两个陈述都是导数的链式法则的直接结果，这将在第七章中详细讨论。

给定一个正数 $a$ ，我们可以通过将 $n$ 个 $a$ 的因子相乘来计算任意整数 $n$ 的 $a^n$ 。我们可以定义 $a^{(1/n)}$ 为 $a^n$ 的逆函数。我们可以定义 $a^{(m/n)}$ 为 $a^{(1/n)}$ 的 $m$ 个因子的乘积。因此我们可以为任意有理数 $r$ 定义 $a^r$ 。

但我们如何定义无理数 $r$ 的 $a^r$ 呢？

我们可以证明，对于任意有理数幂 $r$ ，有https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/45a2135bbee7c9653637620f537de12c.jpg 暂时就这样接受吧。

我们现在将明确地定义 $x^r$ ，以便它具有相同的性质。

我们需要的条件是它的导数是自身乘以https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/16d1cdbc78e3adc5c7144998b616efac.jpg

这意味着根据链式法则，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/e2edb489ffd45edbdbb6545f9b2d34b3.jpg必须具有导数为https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c7de609cf6ff1ac74c4997074cdff4a7.jpg乘以 exp x 的导数，而后者是 exp x。因此，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/e2edb489ffd45edbdbb6545f9b2d34b3.jpg的导数必须是自身的 r 倍。

但这恰恰就是 $\exp rx$ 的导数。当 $x$ 为 0 时，这两个函数都是 1。

这意味着它们必须有相同的幂级数展开，因此必须是相同的函数！

所以我们有了我们对 $\exp rx$ 的替代表达式，并且一下子定义了无理数次幂。至于 $\exp(x + r)$ 呢？轮到你了。

练习 2.5：陈述并证明这些基本性质，即，表达式 exp(x + r)和 exp rx。(提示：它们在 x = 0 时有什么值？它们的导数是什么？从这些陈述中推导出它们的级数并识别它们。) 解答

由于我们有 $exp rx = (\exp x)^r$ ，对于任何 $x$ ，我们可以将其应用于 $x = 1$ ，利用我们总是可以写成 $r = 1 * r$ 的事实，来注意到： $exp r = (\exp 1)^r$ 。

习惯上我们定义 $\exp 1$ ，这样我们可以写成 $exp r = e^r$ 。

表达式 $e^a$ 在 99%的情况下都是指 $\exp a$ 。事实上，使用符号 $\exp a$ 的主要用途是当使用上标不方便时，比如在打字或机器输入时，特别是当 $a$ 有上标或下标时。计算机和电子表格使用 $e^a$ 的符号表示，这样可以避免上标，但不美观。

2.2 三角函数

正弦在直角三角形中是对边长度与斜边长度的比。

如果斜边长度为 1，那么 sinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg就是三角形的对边长度。

如果角度很小，单位斜边对应的对边长度接近但小于单位圆周围两边的距离；而这个距离就是弧度中的角度大小。

因此，对于小角度，正弦略小于以弧度表示的角度本身。

余弦的补角被称为余弦 $x$ ，并写为 $\cos x$ 。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/14eb18e8def6dd43371d348590a03b83.jpg

下面的小程序可以帮助您可视化正弦和余弦代表单位圆上位置的 x 和 y 分量，作为角度（用弧度表示）的函数。它下面的图片显示了各种三角函数的大小表示为图中线段的长度的含义。

还有其他四个三角函数的几何定义如此处的插图所示

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/4247020afbc10f037154e184ac28506f.jpg

它们彼此相关，可以从图中通过观察相似三角形推断出来。

角 OAC、OBE 和 DBC 都等于https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg。

sin https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg = DB = OE，

tan https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg= BC，

sec https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg = OC，

cos https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg= OD = EB，

cot https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg = AB，

csc https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg = OA

因此，第一象限中角的切线是垂直于该角的一边，在距其中心 1 的地方到另一边的切线的长度。

该象限中的角的正割是从其中心到与该角的一边距离为 1 的切线在该角的另一边的交点的线段的长度。

每个这些函数都有对应的余弦函数，对于余角来说是相同的。 在其他象限中，它们有适当的符号。

练习：

2.6 通过使用相似三角形推导出这些函数之间的关系。 解答

2.7 在不同象限中，每个函数的适当符号是什么？ 解答

2.8 找出(tan x� + cot x)²的另一种表达式。 解答

2.9 哪些三角形与 OBD 相似？ 解答

2.3 三角函数的性质

重要的性质有：

勾股定理（这实际上是我们下面讨论的距离的定义）。

加法定理，即 sin(a + b)和 cos(a + b)的表达式。

半角定理（前两者的推论）。

所有三角函数仅取决于角度模 2 的值https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/3830640beb29fa681400d68fd5bf6310.jpg。

正弦定理：在三角形 ABC 中，长度 AB 和 AC 的比是相对角的正弦比：https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0b261cf0d4b4d8feffa3eb40c8aaf91d.jpg。这只是事实，ABsin B 和 ACsin C 都等于 AH。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b77afdcf94be705e134a759359aa57a0.jpg

余弦定理。（参见练习 3.5）

在原点为中心的单位圆上，角度为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg 的点的坐标是 (coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg, sinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg)，这意味着 y = sinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg，x = coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg。

通过原点的单位圆的切线穿过 (x, y) 垂直于从中心到 (x, y) 的线，并指向第一象限的 y 轴。其方向由 (-sinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg, coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/86e0d6bfbe012d837896932a1f8634f1.jpg) 给出。

所有性质都可以从正弦的微分性质中得出。

目前我们假设

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2f8d203301301b09b6f2af4e4adb0898.jpg

然后使用

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/08a82dc5c1d2a81367467e931408d87d.jpg

我们得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0a43beeeacd83ff907dff59e15bfff72.jpg

这两个声明结合起来告诉我们，如果我们两次对 sin x 进行微分，我们得到 -sin x；三次微分得到 -cos x，四次回到我们从 sin x 开始的地方。

并且我们有 cos 0 = 1，sin 0 = 0。

所以我们有 sin 0 = 0，(sin 0)’ = 1，(sin� 0 )" = 0，(sin 0)‘’’ = -1，并且进一步的导数在参数为 0 时重复为 (从起始点 0 1 0 -1 0 1 0 -1 0 1 0 -1，等等)。

这些信息确定了 x 的正弦的幂级数公式。

常数项必须为 0；线性项 x，二次项 0，三次项 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/9ca8575398766cfcf6d7f18682f51b56.jpg，继续下去，所有偶次幂项必须为 0，并且奇次幂项必须交替出现，并且除此之外就像 exp x 的级数展开中的那样。

所有这些都是因为单项式 x^k 在 x = 0 处的所有导数都为 0，除了第 k 个导数为 k！因此，我们可以从在 0 处的导数值序列中读取正弦的幂级数。

我们得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ff8f337d67e7891d2643105461a43979.jpg

同样地

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1b0439e2c8f964e427c80d98d8520057.jpg

这意味着

exp ix = cos x + i sin x�� (A)

因此，我们可以使用指数函数的性质推导三角函数的性质。

例如，正弦和余弦的加法定理可以推导如下

exp i(a+b) = cos (a + b) + i sin( a + b) = (exp ia) * (exp ib)

= cos a cos b � sin a sin b + i(cos a sin b + cos b sin a)

对这些表达式进行实部和虚部的识别给出了加法公式。

练习：

2.10�推导出以 exp ix 和 exp(-ix) 表示的 sin x 和 cos x 的公式，该公式源于上述方程(A)。 解答

2.11 从勾股定理和余弦加法定理中找出 (sin t/2)² 和 (cos t/2)² 的表达式。 解答

2.12 设置一个电子表格来计算任意输入 x 的 sin x。需要评估 sin .5 到 8 位小数的 sin x 幂级数展开需要多少项？ 解决方案

2.4 对数

自然对数，表示为ln x，是指数函数 exp x 的反函数。

它实际上在许多情境中自然出现。它有两个重要性质，可以从指数的两个基本性质推导出来。

ln x 的定义可以这样表述：它是你必须将 e 提升到的幂次方，以便得到 x：e^(ln x) = x = e ^(ln x)。

我们经常将其他数字，特别是 2 和 10，提升到幂次方，并通常会问：为了得到 x，你必须将 z 提升到什么幂次方？ 答案被称为以 z 为底 x 的对数，写作 log [z] x。它是 z^x = z^x 的反函数。

上述提到的两个重要性质可以写成

ln ab = ln a + ln b

和

log[a]b * log[b]c = log[a]c 对于任何 a、b 和 c

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b6b6d6facee2917c57e791df621fb385.jpg

练习：

2.13 推导它们。（我必须承认，我总是被糟糕的符号搞混，但我相信你们，年轻又聪明，能够做到。） 解决方案

2.14 从这两个方程推导出对于任何基数的对数我们有 log ab = log a + log b。 解决方案

第一个性质或者说练习 2.13 的结果意味着我们可以通过取 a 和 b 的对数，将它们相加，然后从其对数中检索出 ab 来执行乘法。因此，乘法可以简化为加法和取对数以及“反对数”。

在计算器出现之前，加法和乘法同样困难，这是对对数的一个重要用途，我记得在高中时被迫使用对数表和反对数表进行练习，并且当然要在这些表格中的值之间进行插值。很难想象比这更繁琐的数学事情了，你们这些幸运的家伙！

第三章：向量，点积，矩阵乘法和距离

引言

我们在这里引入向量和矩阵以及点积和矩阵乘法的概念。我们注意到点积在坐标旋转下是不变的，定义了线性依赖性，并描述了极坐标及其在三维中的推广。

主题

3.1 向量

3.2 欧几里得空间中的旋转坐标

3.3 点积

3.4 矩阵乘法

3.5 线性相关性和独立性

3.6 极坐标

3.7 柱面和球面坐标

3.8 关于向量空间中长度和距离的离题讨论

3.1 向量

我们将长度为 k 的数字序列称为 k-向量。

我们将 k-向量之间的加法和减法定义为逐项加法和减法，因此对于 2-向量，我们有

(a, b) + (c, d) = (a + c, b + d)

如果我们在欧几里得平面中选择一个原点 O，我们可以用一个向量来描述平面上的任意点，其第一个分量是点的 x 坐标，第二个是 y 坐标，即 (x, y)，一个 2-向量。

我们称第 i 个分量值为 1，其余为 0 的向量为第 i 个方向上的基向量。在普通的三维空间中，x、y 和 z 方向上的基向量分别表示为 i、j 和 k。向量 (x, y, z) 也可以写作 xi + yj + zk。

我们在这里假设基向量彼此垂直，并且每个基向量的长度为单位长度。

3.2 在欧几里得空间中旋转坐标

如果我们将基向量 i’ 和 j’ 按角度 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg 从 i 和 j 旋转（以使 i’ 方向朝向 j），则固定向量 v 的分量变化如下：

v[i] 变为

v[i]’ = v[i] coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg +� v[j] sinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg

并且 v[j] 变为

v[j]’ = - v[i] sinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg + v[j] coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg

这些效果在附带的小程序中有所说明。你可以移动向量，也可以旋转基向量。

3.3 点积

给定两个分量为 R 中元素、具有相同分量数的向量 v 和 w，我们将它们的点积定义为 **对应分量的乘积之和，写作 vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/aaf843a818e698b2dfcaa19d6c9f7dfd.jpgw 或 (v, w)，如 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f1de0f8ab24e0a9e14a4e54be3ce8349.jpg.。

显而易见的事实：点积在 v 和 w 中是线性的，并且在它们之间是对称的。

我们定义 v 的长度 为 (v, v) 的正平方根；v 的长度 通常用 |v| 表示。

奇妙的事实：点积在坐标旋转下保持不变。

练习 3.1 证明此陈述。 解答

由于这个事实，当评估vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/aaf843a818e698b2dfcaa19d6c9f7dfd.jpgw时，我们可以旋转坐标，使第一个基向量指向v的方向，第二个基向量垂直于在v和w的平面上。

**那么 v 将具有前两个坐标（|v|, 0），如果 v 和 w 之间的角度为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg，则 w 将具有定义类似的坐标（|w|coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg，|w|sinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg)。

因此，点积 v****https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/aaf843a818e698b2dfcaa19d6c9f7dfd.jpgw** 在此坐标系（即具有这些基向量的坐标系）中为 |v||w| coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg，因此在通过从中旋转得到的任何坐标系中也是如此。

点积在每个参数上是线性的这一事实非常重要和有价值。这意味着您可以在任一参数上应用分配律来表示和差的点积为点积的和或差。

示例

练习 3.2 用点积表达具有 v 和 w 为边的平行四边形的面积的平方。 解答

v 和 w 的点积除以 w 的大小，即 |v|coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg，称为 v 在 w 方向上的分量。

与 w 方向的矢量，其大小和符号为 |v|coshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg，被称为 v 在 w 上的投影。

从 v 在 w 上的投影中减去 v 得到的矢量称为 v 垂直于 w 的投影 或 w 的法向量。（按定义，此投影在 w 方向上的分量为零，因此法线于 w。）

练习：

3.3 用点积表达 v 在 w 方向上分量的平方。 解答

3.4 用点积表达 v 垂直于 w 方向上的分量。 解答

3.5 利用点积在每个参数上的线性性质，写出 (v - w)****https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/aaf843a818e698b2dfcaa19d6c9f7dfd.jpg(v - w)。这建立了哪个著名定律？解答

3.6 用点积和向量 w 表达 v 在 w 上的投影。 解答

3.4 矩阵乘法

一个数字的矩形数组，比如 n 行 m 列，被称为一个矩阵。矩阵 A 的第 i-j 个元素是第 i 行第 j 列的元素，并表示为 A[ij]。

这里有两个矩阵的示例，一个是 2 行 2 列，另一个是 2 行 3 列

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1fe933bae20e6ed690f3d2889bedb00e.jpg

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8ea8959f2e8b808e463b646ebf4424f9.jpg

如果矩阵 A 的列数与 B 的行数相同，我们定义乘积矩阵 AB 为 A 的行与 B 的列之间的点积。通过取 A 的第 i 行和 B 的第 j 列的点积得到的元素描述为 (AB)[ij]。 详见第 32.2 节以获取有关矩阵及其属性的更全面讨论。

练习：

3.7 找到上述两个矩阵的乘积。

3.8 构建一个可以将 4 行 4 列矩阵相乘的电子表格。 解决方案

3.9 在练习 3.8 中：

1. 矩阵乘积 AB 在哪里？

2. 在前四行中列 p、q、r 和 s 中出现了什么？

如果更改 A 或 B 中的任何条目，乘积将自动更改，因此您已经构建了一个 4 行 4 列的矩阵自动乘积查找器。

3. 你能用这个方法找到一个 2 行 3 列矩阵和一个 3 行 4 列矩阵的乘积吗？如何做？

4. 使用您的乘积查找器找到矩阵 A 的十次幂。（提示：对 A 和 B 使用它，并在正确的位置查找，您将找到它。）

向量 v 可以被写成由单行组成的矩阵，或由单列组成的矩阵。当将其写为列时，我们将写为 |v>；当写为行时，<v|。然后，向量 v 的长度的平方可以写为矩阵乘积 <v||v>。

当 Mv 是 v 的倍数时，向量 v 是矩阵 M 的特征向量。倍数称为 M 具有特征向量 v 的特征值。如果特征值为 s，则我们有 Mv = sv。

此处的小程序允许您输入任意 2 行 2 列的矩阵，并移动向量v。当 Mv 与 v 对齐时，v 是 M 的特征向量，其实数特征值由 Mv 的长度（在小程序中称为v’）与 v 的长度之比给出，当它们指向相同方向时，符号为正。

练习 3.10 选择一个对称矩阵，并使用小程序近似确定两个特征向量。在纸上画出它们。你能注意到什么？是什么？

3.5 线性相关性和独立性

向量 v(1) 到 v(k) 之间的线性相关性是一个方程，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/96e1fc5891276f1059a83d43d1d209d2.jpg 其中一些 c 不为 0。如果一组向量之间没有线性相关性，则称为线性独立，如果存在一个或多个线性相关性，则称为线性相关。

例子：假设 v(1) = i + j；v(2) =2i；v(3) = 3j。

那么 v(1), v(2) 和 v(3) 线性相关，因为存在关系

6v(1) = 3v(2) + 2v(3), 或者 6v(1) - 3v(2) - 2v(3) = 0

练习 3.11 证明：任何 k + 1 个 k-向量都是线性相关的。（你可以通过使用数学归纳法来做到这一点。）（如果你不熟悉数学归纳法，请阅读这个解决方案并熟悉一下！）解答

3.6 极坐标

一个二维向量 (x, y) 可以由两个不是求和系数的数字描述：它的长度和它的向量与 x 轴的角度。

这两者中的第一个通常写作 r，第二个写作 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg。**

**这些参数遵循 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c2d7ab782441c1a8c9e102705b9a01f5.jpg

逆关系是 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/e30e7b5c1b28df4638e6fc9a5aba0b1d.jpg

r 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg 被称为极坐标。**

计算极坐标中的角度 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg 有点棘手；显而易见的尝试是 atan(y, x) 但是它只定义在 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/d6d5d202cb3530076d261868d7a91172.jpg 到 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/572dac74550f306b13504d610d4887ab.jpg 之间，而 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg 的定义域大小为 2https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf331488f507fd544e36ee765a48e09b.jpg。

这里有一个有效的方法：https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/90b08785bf739657bb2ff807e795421e.jpg

这给出了范围为 -https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf331488f507fd544e36ee765a48e09b.jpg 到 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf331488f507fd544e36ee765a48e09b.jpg 的 theta。如果你想要它的范围为 0 到 2https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf331488f507fd544e36ee765a48e09b.jpg，你可以给它添加 if(y < 0,8 * atan(1), 0)。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/6bbdf0ef5de2859a427cb55db463a3d8.jpg

3.7 圆柱坐标和球坐标

在三维中有两个极坐标的类比。

在圆柱坐标中，x 和 y 被 r 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df2942d844a000a508d2690b277f2e01.jpg 正好像在二维中一样描述，而第三维度 z 被视为普通坐标。

r 然后表示到 z 轴的距离。

在球坐标系中， 一个一般的点由两个角度和一个径向变量描述，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/bf090083cff29bc4d7d16ae5d57a1db2.jpg，代表到原点的距离：https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8c7612c876052508330f616f9961d90c.jpg

这两个角度变量与经度和纬度相关，但纬度在赤道为零，而我们使用的变量 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/22fea489d4a662d233f2f71c123c6d40.jpg 在 z 轴上为零（这意味着在北极）。

我们定义 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/3b4204ec9d9c32df1e14fffa2619afc9.jpg，以使得 r 总是由 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/376aa59233a59225744dd55e1232de41.jpg 这里定义

经度角https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg由https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/af2cd9486a0a11439c0bec7d035fa1bb.jpg定义，与二维情况完全相同。因此我们有https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cb5417d290173c1727609b0a408ce6e0.jpg，y 是什么？

练习：

3.12 用 x、y 和 z 表示柱面和球面坐标的参数。

3.13 构建一个电子表格转换器，将坐标 x、y 和 z 转换为球面坐标的三个参数；反之亦然。通过将一个的结果替换为另一个的输入来验证它们的工作。

3.8 �关于向量空间中长度和距离的离题

两个向量v和w之间的距离是差向量v - w的长度。

在世界上你会遇到许多不同的距离函数。我们这里使用“欧几里得距离”，其中我们使用勾股定理。

如果距离和长度的概念在没有额外描述的情况下被使用，这就是我们的意思：

向量 w 的长度的平方是其分量的平方之和（或更一般地说，当分量为复数时，是其绝对值的平方之和）。它是点积（w，w）或 whttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/aaf843a818e698b2dfcaa19d6c9f7dfd.jpgw。

但这并不是你在生活中会遇到的唯一距离概念。

向量的长度应具有哪些性质？

传统的要求如下：

它应为正，并且对于零向量为零。

它应遵守三角不等式：两个向量的和的长度不大于它们长度之和。

如果长度为 0，则向量为(0)向量。

还有哪些长度或距离概念存在？

曼哈顿距离： 向量的长度是其分量的绝对值之和。

汉明距离： 长度是非零分量的数量。

最大分量距离： 长度是最大分量的绝对值。

假设我们称分量为 x[i]，任何一个 dx[i]的小量，以及具有分量 dx[i]的距离值，我们称之为 ds。

然后在欧几里得空间中我们有**https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2c983011126e486c3e973829e2de095c.jpg。我们定义度量**https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/4c2b441f5b049830efd2db561349d5f4.jpg。**

欧几里得空间可以被描述为L[2]。

练习 3.14 在 L[j]的定义中，哪些 j 值对应于汉明、曼哈顿和最大分量大小？（提示：j 可以是无穷大；对于汉明距离，概念类似但并非完全相同，并且仅在极限情况下类似。）

在使用非直角坐标时的欧几里得空间中的长度：

当你用极坐标描述欧几里得空间中的普通向量时，这些向量不遵守普通直角坐标的线性性质。例如，两个向量的和的长度不是它们长度的和，和的角度与 x 轴的角度也不是和的角度的和。

我们可以问，一个小向量的长度是多少，其端点之间的坐标差为 r 坐标 dr，角度差为 dhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg？

如果我们在具有给定坐标的特定点，r 方向是指向远离原点朝向该点的方向，这个方向上的距离的测量方式与 x 或 y 方向上的测量方式相同。在这个方向上，具有坐标 dr 的向量的长度是|dr|。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg方向垂直于 r 方向，逆时针方向增加，但距离不是 dhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg。圆周的周长与圆的半径成比例，因此角向的距离也与 r 成比例。

结果是，极坐标中的距离由以下方式测量

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5c80232b1e224d053468119d7ad8055b.jpg

非正交坐标中的长度：

任何 k 个线性无关的 k-向量都可以用作基础：任何其他 k-向量都可以表示为它们的线性组合。（为什么？通过练习 3.11，任何其他 k-向量与它们线性相关，可以用基础来解决该 k-向量。）

因此，在二维空间中，例如，任意两个具有不同方向的向量a和b可以形成基础，任何向量v都可以用这两个向量的系数来描述：如果v = s a + t b，那么我们可以用 2-向量（s，t）来描述v。

然而，如果我们描述欧几里得空间，向量a和b不是正交的，那么v的长度平方将不是 s² + t²。总的来说，如果我们定义（s，t）为v’，我们得到长度平方为<v’|G|v’>，其中矩阵 G 取决于a和b之间的角度。

因此，如果a和b是夹角为https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/99b450c47d0816e8df048c6d94c386ee.jpg的单位向量，则矩阵 G 为

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0c876056598a652d9715068cac5175af.jpg

矩阵 G 被称为给定基础的度量张量。

不同的度量：闵可夫斯基空间：

甚至有些向量空间中，距离的概念被可以是正的或虚的东西所取代：这就是闵可夫斯基空间：它有四个维度，三个空间维度和一个时间维度。在其中，距离的类比由��描述。

ds² = dx² + dy² + dz² �c²dt²

具有正或负 s²的向量被称为空间样或时间样；s² = 0 的向量被称为位于“光锥”上。

为什么有人要费心研究这些？

在欧几里得空间中，坐标的线性变化具有不改变距离的特性（使得两点之间的距离在变化后仍然保持不变），这些变化称为空间中的旋转。在闵可夫斯基空间中类似的变化是麦克斯韦电动力学方程的对称性，并且对应于空间中的旋转和“洛伦兹变换”。因此，即使是最后这个概念也具有重要的物理应用。所有其他概念在适当的情境下也是如此。

第四章：平行四边形的面积、行列式、体积和超体积，向量积

引言

我们考虑平行四边形的面积和平行六面体的体积以及二维和三维中行列向量作为边的图形的行列式概念。然后我们考虑矩阵应用于描述向量上的线性变换，并评估行列式的方法。

我们进一步讨论了矩阵的逆的概念以及如何计算它，引入了特征值和特征方程的概念，以及向量或叉乘。

主题

4.1 二维和三维中的面积、体积和行列式

4.2 矩阵和向量上的变换；零行列式的含义

4.3 通过高斯消元和通过行或列展开来评估行列式

4.4 行列式和矩阵的逆

4.5 向量积

4.6 特征值和矩阵的特征方程

4.1 二维和三维中的面积、体积和行列式

在二维空间中，由向量v和w限定的平行四边形的面积有一个简单的公式，其中v = (a, b)和w = (c, d)：即https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf06276d21fe810233f470d26f6741f6.jpgad - bchttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf06276d21fe810233f470d26f6741f6.jpg

为什么会这样？

1. 如果 b 和 c 为 0，那么以向量(a, b)和(c, d)为边的平行四边形的面积是|ad - bc|显然成立，因为平行四边形是边长为|a|和|d|的矩形，其面积为|ad|。

2. **如果我们给(a, b)或(c, d)添加它们的倍数，面积和https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf06276d21fe810233f470d26f6741f6.jpgad - bchttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cf06276d21fe810233f470d26f6741f6.jpg都不会改变。**平行四边形只是倾斜，其底和高保持不变。例如，如果我们给 c 加上 a，那么 ad - bc 就变成 ad - b(c + a)，所以是-ba；但是如果给 d 加上 b，则产生的变化是 ab 到它；a(b + d) - b(c + a) = ad - bc，变化的净值为 0。

3. 从任意的 a、b、c 和 d 开始，通过反复添加其中一个行的倍数到另一个行，我们可以使 b 和 c 变为 0，之后我们就处于第一段考虑的情况，我们知道面积是|ad - bc|。

4. 由于这些添加没有改变面积，也没有改变|ad - bc|，所以这些必须从一开始就是相同的。

矩阵的行是(a,b)和(c,d)的矩阵的组合ad - bc称为行列式。通常写成

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cef3f39017b5e329971b19be3897ac7b.jpg

给定三维空间中的三个向量，我们可以形成一个 3×3 矩阵，其元素为它们的分量，并且我们将看到该矩阵的行列式的绝对值是由这三个向量确定的平行六面体的体积。

实际上，对于 k k-向量，类似的结果成立：它们的分量矩阵的行列式的绝对值是它们所界定的图形的 k-体积。

那么一个矩阵的行列式是什么呢？

在任何维度中，行列式的定义如下：

1. 行列式对任意行（或列）的元素是线性的，因此将该行中的所有元素乘以 z 会使行列式乘以 z，并且行为 v 和 w 的行列式等于除了该行为 v 和该行为 w 的行列式之外的所有其他行的行列式之和。

2. 如果两行交换，则行列式的符号会改变（等价条件是如果两行相同则行列式为 0）。

3. 对角线为 1，其他位置为 0 的矩阵的行列式为 1。

k×k 矩阵的行列式的另一个定义是它是 k 维度中体积的“带符号”版本，因此是线性的。

行列式通常写作 det M 或| M |，有时候也写作|| M ||。

如果 v 和 w 是矩阵 M 的两行，我们可以从前两个条件推断，将 v 的倍数添加到 w 不会改变 M 的行列式。

由 u，v 和 w 的方向和长度确定的平行六面体的体积几乎与 u，v 和 w 成线性关系；它与线性度的不同之处仅在于它总是正的，就像一维中的长度一样。

如果向量长度为单位长度并且相互垂直，则该体积为 1，并且如果将一边加到另一边，则不会改变；（这只是使平行六面体倾斜而不改变其体积。）由这三个向量的分量形成的矩阵的行列式的绝对值完全遵循相同的条件，因此是同一件事情。

在更高维度中，体积的类比被称为超体积，通过相同的论证可以得出相同的结论：由 k 维度中的 k 个向量确定的平行边区域的超体积是行列式的绝对值，其元素是它们在（标准正交）基向量方向上的分量。

实际上，行列式可以被认为是超体积的线性和带符号版本。

考虑一个以 x 为变量的平行边区域的超体积。对于正或负的 x，它对 x 是线性的，但它总是正的，并且其图形看起来像一个 V，对于 x = 0 取值为 0。

行列式对于正或负的 x 是相同的超体积，对于另一个 x 是超体积的负，且对 x 是线性的。其符号由约定确定，即对于具有对角线为 1 且其他位置为 0 的**“单位矩阵”**，其行列式为正。该单位矩阵通常写作 I。

练习：

4.0 证明上述论断：行列式在两行交换时改变符号的条件等价于另一条件，即当两行相同时行列式为 0（考虑到它对行的线性性质）。

4.1 假设 A、B 和 C 是平面上的三个向量。考虑三个三角形，其边分别是 A 和 B、A 和 C、A 和 B + C。它们的面积之间存在什么关系？（如果你没有看到，尝试一些简单的例子并推广。这里寻求的关系是一个或另一个的陈述。）关于行列式，其行是给定向量的分量（A 和 B）、（A 和 C）和（A 和 B + C）的，类似的陈述是什么？

在下面的小程序中，您可以输入三个 3 维向量，看到它们及其定义的平行六面体，以及其绝对值为体积的行列式的值。我们很快将看到如何计算行列式。还显示了这些向量（或叉乘）对的向量积，它们将在4.5 节中定义。

4.2 矩阵和向量的变换；0 行列式的含义

矩阵和行列式在另外两个重要的情境中出现；一个是在解多个变量的同时线性方程组时。另一个是在表示向量的线性变换时。其中第一个在第三十二章中有详细讨论。

在后一情境中，矩阵表示将列基向量转换为矩阵对应列的向量的转换。

原始基向量的和被转换为相应列的相同和。 这一事实定义了所有向量的变换。

当矩阵的行列式为零时，由其列或行给出的区域的体积为零，这意味着将基向量转换为线性相关的向量，并定义 0 体积的矩阵被考虑为一种转换。

当矩阵的列（和行）线性相关时，行列式为零。

练习：

4.2 哪个矩阵描述了将 x 轴方向的单位向量转换为 y 轴方向的单位向量，类似地，将 y 轴方向的单位向量转换为 z 轴方向的单位向量，将 z 轴方向的单位向量转换为 x 轴方向的单位向量？

4.3 哪个矩阵描述了将向量在 x 方向的分量加倍，y 方向的分量减半，而 z 方向的分量保持不变的转换。

4.4 哪个矩阵描述了将向量投影到（x，y）平面的三维转换？投影到 x 轴？投影到（x，y）平面上的对角线？

4.3 通过高斯消元和通过行或列展开来评估行列式

这一部分非常简略。有关更多讨论，请参见第三十二章。

通过高斯消元法求行列式： 通过将一行的倍数加到另一行，直到主对角线下的所有条目为 0，来进行这个操作。行列式（这些操作不会改变行列式）然后是对角线条目的乘积。机器可以对数百或数千的 n 阶矩阵进行这样的操作，但人们觉得这个练习有点乏味。

行列式在行或列中的展开： 让矩阵 M 具有元素 m[ij]。第一个索引描述行号，第二个描述列号。

M 的行列式是任意单行元素乘以一个因子的和。什么因子？

对于第 i 行的第 j 个元素，它是通过去掉该行和列得到的矩阵的行列式，乘以一个符号因子-1 到元素的索引之和，i + j

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/be3089eddd9c5ea6ae884f5f056e6676.jpg

其中M[ij]是通过消除第 i 行和第 j 列并将其余部分合并成一个方阵得到的矩阵的行列式。

为什么会这样？

乘以 m[ij]的因子必须是其他行中的线性因子，并且如果其中两行相同，则必须为 0，因此它必须与它们的行列式 M[ij]成比例。（还因为行列式对第 j 列是线性的，所以这个项除了来自该列的 m[ij]外不能有其他因子。）

那么，唯一剩下的问题是：为什么有符号因子？

当矩阵的两行或两列具有相同奇偶性（这意味着两者都有偶数索引或奇数索引）时，您可以通过偶数次单行或单列交换来交换它们，而当它们具有相反奇偶性时，您需要奇数次交换。每次交换都需要一个符号变化，因此如果行和列索引的奇偶性不同，必须有一个符号变化，以使不同索引的计算保持一致。

注意我们还有

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c811716e17b4d6f033dcaf54c387998b.jpg

因为根据方程（A），这是一个矩阵的行列式，其中两行，第 i 行和第 k 行，等于 M 的第 k 行，而两个相同的行的矩阵行列式为 0。

公式（A）称为在第 i 行中展开 det M。同样的操作也可以在列中进行，甚至可以同时对几行或几列进行。

表达式（-1）^(i + j)M[ij]被称为矩阵 M 的 ij-th 余子式。然后可以表述为：M 的任意一行与该行中条目的余子式向量的点积是 M 的行列式。 如果将“行”替换为“列”，同样的陈述也成立。

练习：

4.5 评估矩阵的行列式，其行依次为（1, 2, 5），（3, 1, -2）和（4, -2, 7），使用上述每种方法。你觉得哪种方法更快？

4.6. 对于一个随机但非平凡的 4 乘 4 矩阵，做同样的事情。哪个更快？

4.4 矩阵的行列式和逆矩阵

方阵 M 的逆矩阵是一个矩阵，表示为 M^(-1)，满足 M^(-1) M = M M^(-1) = I。这里的 I 是与 M 相同大小的单位矩阵，对角线上为 1，其它位置为 0。

就变换而言，M^(-1)撤消了 M 产生的变换，因此组合 M^(-1)M 代表了什么变换都没有改变。

条件 MM^(-1) = I 可以写成

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cb03041f06ea0e80e78211e11037c6b7.jpg

和

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/261875dfed402c9a8ad04c3f486e5a9b.jpg

当 k 和 i 不同时，这些条件完全确定了给定 M 时矩阵 M^(-1)，当 M 具有逆时。

这些方程与 4.3 节的两个条件(A)和(B)具有相同的形式，不同之处在于在(A)中行列式 det M 位于左边，而不是 1，在(A)和(B)中出现的是(-1)^(i + j)M[ij]，而不是 M^(-1)[ji]。

因此我们可以将(A)和(B)两边都除以 det M，推导出

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/a81604aae92b22fb4cac4004489bc59a.jpg

记住这里 M[ij]是通过省略 M 的第 i 行和第 j 列而得到的矩阵的行列式；M 的元素是 m[ij]，而 M^(-1)[ji]代表的是 M 的逆矩阵中第 j 行第 i 列的元素。

我们可以用文字表达为：矩阵 M 的逆是其代数余子式组成的矩阵，行列互换，除以其行列式。

练习：

4.7 使用这个公式计算 练习 4.4 中矩阵的逆。检查乘积 M^(-1)M 以确保结果正确。

**4.8 设置一个电子表格，使用这个公式计算任意非零行列式的三乘三矩阵的逆。

（提示：通过将前两行复制到第四行和第五行，将前两列复制到第四列和第五列，你可以一次性获得所有的(-1)^(i + j)M[ij]。然后剩下的就是重新排列以交换指标，并除以行列式（行列式是 M 的任意一行与相应余子式的点乘）。）**

4.5 向量积

两个 3 维向量v和w的向量积，记作vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw，是一个 3 乘 3 矩阵的行列式，其前两列是向量v和w的分量，第三列是基向量i, j和k。

这个定义看起来有些神秘。但它的意思只是在各个轴方向上的分量是这里的 i, j,和k的代数余子式。这些是普通二乘二矩阵的行列式。

vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw是一个向量而不是一个数，有时被称为**“叉乘”的v和w**的结果。

从这个定义中，我们可以看到vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw与另一个向量u的点积是一个矩阵的行列式，这个矩阵的列（或行）是这三个向量的分量，按照v, w, u的顺序排列，这使得它的大小成为由这些向量确定的平行六面体的体积。

明确地，叉乘的 x 分量为https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2060b7325b050b7b3582bb08b8499f48.jpg。

其他分量可以通过在变量 x、y 和 z 之间循环移位来获得，将 x 变为 y，y 变为 z，z 变为 x。

向量积是根据行列式的性质对其向量因子都是线性的。因此，如果你将v乘以 10，vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw也会乘以 10，而且你还有

(v + z)https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw = vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw + zhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw

此外，vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw如果其因子的顺序颠倒，则会改变符号：vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw = - whttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgv。这些陈述源自行列式的类似性质。

vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw 的大小是由其因子定义的平行四边形的面积，即

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/4c06505fdc42b3e863f1cfd8edc0d9ab.jpg

vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw垂直于其两个参数：vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgwhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/071f52d9568eed49a669a89edb7a4579.jpgv = vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgwhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/071f52d9568eed49a669a89edb7a4579.jpgw = 0。这是因为具有两个相同列的矩阵的行列式为 0。

我们可以推断**(vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw)https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/071f52d9568eed49a669a89edb7a4579.jpg (vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw) = (vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/071f52d9568eed49a669a89edb7a4579.jpgv)(whttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/071f52d9568eed49a669a89edb7a4579.jpgw) - (vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/071f52d9568eed49a669a89edb7a4579.jpgw)(whttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/071f52d9568eed49a669a89edb7a4579.jpgv),** 因为这两边代表的是以v和w为边的平行四边形的面积的平方（见 Exercise 3.2）。

人类在计算 3x3 行列式或向量积时，大约每四次中就会出现数值错误，尤其是当向量分量或矩阵条目具有许多负值时。在电子表格上建立一个行列式和向量积工具，并用它来检查而不是替换你自己的计算是明智的。这样你每次都会得到正确的答案。

实际上，构建这样一个工具比手动进行叉乘要容易得多。这几乎和进行点积一样容易。要做到这一点，将 v 和 w 输入为两个平行行，比如将 v[x] 放在 A2，v[y] 放在 B2，v[z] 放在 C2，以及类似地将 w 的分量放在 A3-C3。在 D2 中输入 =A2，并将其复制到 D3、E2 和 E3。（你现在完成了一半。）接下来，在 A4 中输入 =B2C3-C2B3，并将其复制到 B4 和 C4。就是这样！第四行包含 vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw，v 与 w 的叉乘。你可以通过验证它与前两行中的任意一行的点积是否为 0 来检查。

请注意，现在你可以改变 v 和 w，然后（幸运的话）第四行将包含新的第二行和第三行的叉乘。

你可以从第 4.1 节的 applet 中看到向量积的样子。

练习：

4.9 将向量积 vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f2074d3db9f79425fe458e2cc3cd8563.jpgw 明确写出，用其因子的分量表示。

4.10 计算两个向量 (1, 2, 3) 和 (4, 5, 6) 的向量积。

4.11 按照上述指示构建一个向量积工具。

4.6 特征值和矩阵的特征方程

满足 Mv = xv（其中 x 是某个数）的向量称为矩阵 M 的特征向量，x 被称为 M 对应于 v 的特征值。（v 被称为对应于 x 的特征向量。）

条件 Mv = xv 可以重写为 (M - xI)v = 0。这个方程表示矩阵 (M - xI) 将 v 转换为 0 向量，这意味着 (M - xI) 不能有逆矩阵，因此其行列式必须为 0。

方程 det (M - xI) = 0 是给定 M 的变量 x 的多项式方程。它被称为矩阵 M 的特征方程。你可以解它以找到 M 的特征值 x。

方阵 M 的迹，写作 Tr(M)，是其对角元素的和。

一个 2x2 矩阵 M 的特征方程形式为

x² - xTr(M) + det M = 0

一旦你知道矩阵 M 的特征值 x，就有一种简单的方法可以找到对应于 x 的列特征向量（当 x 不是特征方程的多重根时有效）。我们将其描述为 3x3 矩阵，但可以推广应用于任何大小的方阵。为此，取 (M - xI) 的任意两行的叉乘。

如果它不是 0 向量，那么它就是列特征向量！

为什么这样做有效？

v 是矩阵 M 的列特征向量的条件是 (M - xI)v = 0。

(M - xI)v 的分量是 (M - xI) 的行与 v 的点积。

如果 v 是 (M - xI) 两行的向量积，那么它肯定与这两行的点积为 0。

另一方面，它与 (M - xI) 的另一行的点积是 (M - xI) 的行列式，也是 0。

我们可以推断出，任意两行的向量积 (M - xI) 与 (M - xI) 的每一行都有 0 的点积，这是v是 M 的一个特征向量，对应于特征值 x 的条件。

问题可能出在哪里呢？嗯，向量积可能是0。如果其中一行是另一行的倍数，这种情况就会发生。如果两个不同的行对都发生了这种情况，这意味着所有行都是彼此的倍数，这意味着垂直于任何非全零行的每个向量都是特征向量。

练习：

4.12 为行 (1, 2) 和 (3, 4) 的矩阵写出特征方程。

4.13 对于行 (1, 2, 5)，(3, 1, -3) 和 (4, -2, -8) 的矩阵也做同样的事情。

4.14 找到该矩阵的一个特征值。（提示：有一个是相当简单的数字。）

4.15 找到与之对应的一个列特征向量。

第五章：二维和三维中的向量与几何

介绍

我们研究了三维空间中的平面和二维和三维空间中的线的各种描述，以及描述点、线和平面之间相互关系的向量的使用。我们还研究了向量三重积的性质。

主题

5.1 一些问题

5.2 线或平面的表示：初步说明

5.3 二维和三维中线的表示

5.4 三维中平面的表示

5.5 投影与应用

5.6 向量三重积

5.7 关于向量和平面的事实回顾

5.1 一些问题

这里有一些我们将要讨论的问题。

我们如何描述二维中的一条线或三维中的一条线或平面？

如何找到一条线上或平面内的点？

一个点与一个平面之间的距离，或者与一条线？

三维空间中两条斜线之间的距离？

平行线之间的距离？

一个点在一条线或平面上的投影？

所有这些都可以通过适当定义和操纵向量来回答。

5.2 线或平面的表示：初步说明

一个单一线性方程可以用来解出一个变量，其余变量的值用其他变量表示。它将解的维度降低 1。

因此，三维空间中平面中的点将是一个线性方程的解。在二维中，一个线性方程确定一条线，而在三维中，需要两个方程来确定一条线。

形式为 ax + by + cz = d 的线性方程可以写成点积 vhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgr = d，其中v是向量(a, b, c)，r是(x, y, z)。

因此，对其的解决方案在v方向的分量上都具有相同的值，并且在v的垂直、法向或正交方向上不确定(所有这些词都是指同一件事)。因此，v是从一个解到另一个解的向量的法线。

线可以通过给出其上的两点的坐标来描述（在任何空间），而平面可以通过给出三个不全位于一条直线上的点的坐标来描述。

此外，我们可以通过给出其上的任意一点和指向其方向的向量来描述一条线。

同样，我们可以通过给出一个点和从该点开始指向平面上其他点的两个线性独立向量来描述平面上的点。

我们现在来研究各种线和平面的各种特征之间的关系。

5.3 二维和三维中线的表示

线 L 上的两点 P[1]和 P[2]确定了 L。

L 可以被参数化描述为具有坐标 P[1] + s * (P[2] - P[1])的点集，其中 s 是某个数字。

（P[2] - P[1]）是指向 L 方向的向量。

在二维空间中，向量是二维向量，只有一个垂直于 L 的方向，并且可以通过交换(P[2] - P[1])的坐标并改变一个符号来获得该方向（因此(7，-4)垂直于(4，7)）。

使用垂直向量N，线的方程变为N****https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgr = N****https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgP[1].

我们明确地做出了这个。L 由遵守的点组成

x� = P[1x]� + s * (P[2x] - P[1x] )

y� = P[1y]� + s * (P[2y] - P[1y] )

而 L 的方程是

（P[2y] - P[1y] ) x - (P[2x] - P[1x] )y = (P[2y] - P[1y] )P[1x] - (P[2x] - P[1x] )P[1y]

当求解 y 时：

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cb4337e5f947e76d0cc19b025938b8bc.jpg对于某个常数 C。

比值https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/e5519d57029d220af7bac759fbf9507b.jpg，即线的方程中 x 的系数，是两点的 y 坐标之差除以 x 坐标之差。 它被称为线 L 的斜率。

常数 C 称为线 L 的 y 截距。它是 L 与 y 轴相交的地方的 y 值。

在三维空间中，一条直线由两个方程确定。您可以像上面那样参数化描述它（尽管现在所有点和向量都有三个分量），但是您必须找到**（P[2] - P[1]）**的两个垂直向量以找到表征它的方程。您可以自由选择这样做，但是两个方便的选择是：

i**https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg( P[2] - P[1]) ** 和 jhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg(P[2] - P[1])

您可以要求这两者与r（回忆r =（x，y，z））的点积与**P[1]**相同。这给您提供了两个共同确定直线的方程。

从方程中找到一条直线上的点，您可以任意固定一个坐标，然后解另外两个坐标的方程。

以下小程序允许您输入任意两点。然后，它会显示您的点确定的三维空间中的直线，以及该直线的参数表示。

练习 5.1 找出此小程序中默认直线的两个方程。然后选择两个随机点，并找出它们所在直线的两个方程。

5.4 三维空间中的平面表示

我们现在解决问题：用点，一个点和一个向量，或者一个方程来描述平面的不同方法之间的关系是什么？

假设点**P[1], P[2,] P[3]**位于平面 Q 上，它们不全在一条直线上。

然后向量 P[2] - P[1] 和 P[3] - P[1] 在 Q 中具有方向，Q 中的任意点将具有 P[1] + s (P[2] - P[1]) + t (P[3] - P[1]) 的坐标，其中 s 和 t 是一对值。

这被称为具有参数 s 和 t 的平面的**"参数化"表示**。

(s 和 t 可以被认为是在由 (P[2] - P[1]) 和 (P[3] - P[1]) 给定的基底中的平面上的点的分量。)

你可以通过取叉积 (P[2] - P[1])https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg(P[3] - P[1]) 来计算 Q 的法线。

我们通过定义缩写来简化

N = (P[2] - P[1])https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg(P[3] - P[1]) = P[2]https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgP[3] + P[3]https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgP[1] +P[1]https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgP[2]

因此平面的方程为

**Nhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpg**P = Nhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgP[1]

其中 P = (x, y, z)。

您可以明确写出这个方程

N[x] x + N[y] y + N[z] z = (N, P[1]) = (N[x]P[1x] + N[y]P[1y] + N[z]P[1z])

通常，但不是必要的对 N 进行 “标准化”，即用 n 替换它，其中 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ed77443cc42a075361b42919c78a42c1.jpg

在实践中，平面通常由一个法向量描述，如这里的 n，以及其中的一个点。

我们从三个点开始，从中得到了平面的参数表示。然后从该表示中找到描述平面的方程。

如果我们可以通过这个方程从 Q 的描述回到三个点，我们将能够完全绕一圈并从任何其他点找到 Q 的任何表示。

Q 中有无限多个点，选择其中三个需要做出任意决定以确定其中三个。

如果 N 的三个分量都非零，我们可以将每对变量设为零并解出第三个。然后三个点将是

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ab5750cf05b50356fcfb499b24049c39.jpg

这些是平面与三个坐标轴相交的点。

从这些点出发，您可以再次绕圈，确定 Q 的任何表示。

在这个 applet 中，您可以输入三个任意点，它将找到并显示平面，显示 N, (N, P[1])，以及平面上点的参数表示。您可以做所有这些事情，除了制作图片。

练习：

5.2 写出此 applet 中默认平面的方程，并找到在该平面上具有两个 0 坐标的三个点。

5.3 从三个随机点开始，按照这个步骤找到 N 和平面与坐标轴相交的点。

5.4 建立一个电子表格，每当 N 的所有分量都不为零时就执行此操作。

当 N[z]不为零时，我们可以解方程得到平面的方程，N**https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgP = N****https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgP[1]** 关于 x 和 y，得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/34a12109c75457ca801ea6a74c3969a5.jpg

这里的 x 和 y 的系数对我们来说特别有趣。如果你固定 y，那么我们的三维空间就变成了一个平面。https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/cc444bc59ac65bca1367fafdfa013900.jpg 然后代表着我们的平面与方程描述的平面的交点处的线的斜率：y = constant。 在这个情况下，交换 x 和 y 后，同样的陈述成立。

5.5 找到您在练习 5.3 和 5.4 中描述的平面的两个斜率（y 固定和 x 固定）。

5.5 投影与应用

如果你从一个点向一条线或平面垂直投影，你到达该线或平面上的点被称为该点到该线或平面的投影。

假设我们有一个点P’，一条线 L 和一个平面 Q。假设 L 由两个点P[1]和P[2]描述，Q 由法向量N和一个点**P[3]**描述。

在将向量概念应用于几何情况时，有一个基本事实是相当简单而极其有用的：

向量 A 在向量 B 上的投影由https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5c0321694f51a8f00fa7a9ac0915b5f2.jpg给出

为什么会这样？

因为它是一个在 B 方向上的向量，其长度是 A 的长度乘以 A 和 B 之间的角度的余弦，这正是这个投影所代表的。

我们如何利用这个事实？

假设我们想要找到P’到 L 的投影。我们可以将 P’写成P’ - P[1] + P[1]，其中**P’ - P[1]是一个向量。如果我们将P’ - P[1]投影到P[2] - P[1]**上，那么（**P[1]**加上这个投影）将在 L 上，并且是我们想要的点。

因此答案是

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/eefb24be62c7e31729e8b318c87980f1.jpg

如果我们想要P’到 L 的距离，我们可以从 P’减去这个点。得到的向量的长度就是我们要找的答案。

假设我们想要找到P’到 Q 的距离。这将是P[3] - P’在N上的投影的长度。

P’在 Q 上的投影可以通过将P[3] - P’在N上的投影加到 P’上获得。

两条直线之间的距离就是两条直线上的一个点之间的向量的投影长度，该向量在每个点上的向量的叉乘方向上。如果两条直线是平行的，则这不起作用，因为这里需要的叉乘将是零向量。

如果直线平行，你可以形成一个从一条直线上的一个点到另一条直线上的一个点的向量，将其投影到直线方向的一个向量上，并将这个投影从中减去。得到的向量将垂直于直线，其长度将是所需的距离。

因此，如果你知道如何将一个向量投影到另一个上，并保持头脑清醒，你可以回答 5.1 节中提出的所有几何问题。

练习：

**5.6 绘制一个适当的图片并找到计算以下各项的公式：

然后根据以下输入计算答案：

P’ = (1, 2, 3), P[1] = (1, 0, 0), P[2] = (1, 1, 1), P[3] = (-1, 2, -1), N = (2, 1, 4) , P[1]’ = (-1, 4, 3), P[2]’ = (2, 3, 4), P[1]" = (6, 0, 3), P[2]" = (6, 2, 6).**

5.7. 将点 P’ 投影到线 L（包含 P[1] 和 P[2]）。

5.8 将点 P’ 投影到平面 Q（法线为 N，包含 P[3]）。

5.9 点 P’ 和 Q 之间的距离。

5.10 点 P’ 和线 L 之间的距离。

5.11 三维空间中两条斜线 L 和 L’ 之间的距离（包含 P[1]’ 和 P[2]'）。

5.12 三维空间中两条平行线 L 和 L" 之间的距离（包含 P[1]“和 P[2]”）。

5.6 矢量三重积

具有边长 A，B 和 C 的平行六面体的体积是其底面的面积（比如面积为 |Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC| 的平行四边形）乘以其高度，即 A 在 Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC 方向上的分量。这就是 Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgBhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC; 但它也是由列为 A，B 和 C 的矩阵的行列式，所以这里向量的线性函数是相同的，直到符号相同。通常的符号约定给出

Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpg(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC) = det(A, B, C)

通过循环排列向量（例如到 B，C，A）或通过反转点积因子的顺序，这个乘积不会改变。

我们可以推断出 Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgBhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC = Chttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgAhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgB = Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgBhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgC. 换句话说，我们可以在不改变这个实体的情况下交换点积和叉积。（当然，你必须先进行叉积运算。）与行列式一样，如果你只是反转叉积中的向量，这个乘积会改变符号。

矢量三重积 Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg****(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC) 是一个向量，是法线于 A 和法线于 Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC 的，这意味着它在 B 和 C 的平面上。它在所有三个向量上都是线性的。

我们可以推断它是B的一个关于A和C的线性倍数加上C的一个关于A和B的线性倍数，条件是它与A垂直。

任何**B(A****https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgC) - C(A****https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB)**的倍数都将满足所有这些条件。

什么是**Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg****(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg**C)**的倍数？

假设Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC) **= q(B(Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgC) - C(Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB))**成立。

早些时候我们看到一个具有边长为A和B的平行四边形的面积的平方可以写成**（Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgA)( Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB) - (Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB)( Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB)**或者(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgA)https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpg(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg****A)。通过在右边的点和第一个叉积处交换，您可以将这个等式重写为

(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgA)https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpg(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgA) = Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpg(Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgA)) =(Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgA)( Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB) ) - (A**https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB)( Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB)**

如果我们在Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC)中将A和C标识为相同的，并且将Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg****(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg****A)与B进行点积，我们得到 q = 1，然后我们得到

Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpg****(Bhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgC)� = B(Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgC) - C(Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgB)

这有时被称为后车法则，以便更容易记住适当的符号。当使用这个名称时，请记住这里的括号都尽可能地在表达式的最后。在不记住任何内容的情况下正确获取这里的符号的最简单方法是猜测一个符号，然后在A = i = C，B = j的情况下检查它。

练习 5.13 假设我们有一个三维空间中的向量 A 和一个未知向量 v，但我们知道 Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/58f20e2afdd36d0ec9500430097f29f8.jpgv 和 Ahttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7e602c591f306ccd58a2921a2a2138aa.jpgv。我们能找到 v 吗？是的！怎么做？

5.7 向量和平面事实回顾

这里是你应该对这些事物感到舒适的关键事实清单。

向量的每个分量分别相加。

通过将向量的每个分量乘以该数字来将向量乘以一个数字。

标量（点）积对每个参数都是线性的（因此您可以在其上使用分配律）。

标量积是通过将相同分量相乘然后求和来计算的。

标量积是两个向量参数的长度与它们之间夹角的余弦的乘积。

行列式在每一行和每一列中都是线性的，其大小是由其列（也由其行）确定的平行四边形或平行六面体的面积。

如果交换其两列，行列式的符号会改变。

作为单个元素 a[ij] 的函数，行列式的形式为 det(A) = ra[ij] + s；（它是一个具有非齐次项的线性函数）

系数 r 是 ij-余子式：从 A 中移除第 i 列和第 j 行后得到的矩阵的行列式，乘以 (-1)^(i+j)。

行列式可以通过行变换或在列或行上展开来求值。

两个向量的向量积是通过将它们的分量作为矩阵的前两列，并取其行列式来获得的向量，其中i, j, k是第三列。

向量积垂直于其向量因子，在三维空间中的大小是它们的平行四边形的面积。它还与其因子向量是线性的。

二维空间中的一条直线可以通过参数方程或线性方程来描述。

三维空间中的平面可以通过方程来描述，或者其点可以通过具有两个线性参数的公式确定。

如果一个平面的方程是 az + by + cx = d，它的方程也可以写成 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ff66fb8b8a956cec3f203556e1f90c11.jpg。

量 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/059818f0d3281cf1e349f4283979b658.jpg 分别称为 z 在 x 和 y 方向上的斜率。在二维空间中没有 z，斜率类似于 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/3237fbb5515d4a69b1cd8bc63b1ce444.jpg。

第六章：可微函数、导数和微分

介绍

我们介绍了可微性的概念，讨论了标准函数的可微性以及不可微行为的示例。然后我们描述了两个变量函数的可微性、方向导数、偏导数、切平面和梯度。一些哲学含义也被讨论了。

主题

6.1 可微性、切线-线性近似

6.2 标准函数的可微性

6.3 非可微行为示例

6.4 二维导数：方向导数和偏导数

6.5 切平面和梯度向量

6.6 梯度和方向导数

6.7 哲学含义

6.1 可微性、切线-线性近似

一元实变量函数 f 在参数 x 处被称为可微的，如果其图形在任何包括 x 的开区间内的参数看起来像一条直线。（开区间是不包含其端点的区间。）

它在 x 处的导数是该直线的斜率。

（更确切地说，无论您选择多小的正近标准，都存在一个包含 x 的开区间，以便于该区间中除 x 本身之外的每个 x’，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7d0c17959c4ff6dcbaccf5185a9c154f.jpg 与该直线的斜率之差小于该近标准。）注

在参数 x 处，f 类似于的线称为f 在参数 x 处的切线，它表示的线性函数称为f 在参数 x 处的线性近似。

在 x 处切线的斜率由该线上任意两点 P[1] 和 P[2] 的https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7b42499a9698fe93d9c12a6bb9767a4e.jpg 给出，其中 P[1] = (P[1x], P[1y])，P[2] = (P[2x], P[2y])

df = P[2y]- P[1y]

dx = P[2x] - P[1x]

我们使用符号dx和df来表示对应变量的变化，这种变化非常小，以至于我们可以假设对于 f（以及定义 f 的任何其他函数）的线性近似是精确的满足（如果没有这样的距离，请在您的想象中创建一个）。

这种变化称为微分。f 在参数 x 处的导数通常写作https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1ce3e5139c0539b8a5459188cefc5990.jpg

实际上，如果 df 和 dx 是微分，那么根据定义，导数是https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8a8fb820197627a4ff96bc5e335688f6.jpg，因为导数是线性近似中 f 的变化与 x 的变化的比率。

此处的小程序允许您输入任何标准函数和定义域，并查看它，它的斜率和导数。

6.2 标准函数的可导性

所有标准函数在某些奇异点处可导，具体如下：

多项式在所有自变量处可导。

有理函数 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8458fe49d6a3e9d6ee38215c93cd8013.jpg 在 q(x) = 0 处不可导，函数在那里趋向无穷大。这发生在两种方式中，由 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/a147bf0fba0c23f8e2514691fb50fb9a.jpg 演示。

正弦、余弦和指数函数在所有点可导，但正切和割线在某些值处是奇异的。（在哪里？）

诸如 x^(1/2) 和 x^(1/3) 的幂函数的反函数在它们定义的地方可导，除非它们的逆函数在那里的导数为零。

6.3 非可导行为的示例

函数发生跳跃时在跳跃处不可导，也不可导的是具有尖点的函数，就像 |x| 在 x = 0 处那样。

通常，最常见的非可导行为形式涉及函数在 x 处趋向无穷大，或者在 x 处跳跃或出现尖点。

然而也有一些更奇怪的情况。例如，函数 sin(1/x) 在 x = 0 处是奇异的，即使它总是位于 -1 和 1 之间。很难说它在 0 附近的行为如何，但它肯定不像一条直线。

如果函数 f 的形式为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2e577c7afce919a56db1d4e49a5729f0.jpg，如果 h 在那里消失，f 通常会在参数 x 处奇异，h(x) = 0。但是如果 g 在 x 处也消失，那么 f 通常在 x 附近表现良好，尽管严格来说在那里是未定义的。

我们通常在这种情况下定义 x 处的 f 为 x 很接近的地方的线性近似到 g 和 h 的比值，这意味着我们定义 f(x) 为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8d250aa7ff5ac2a1ad1beb811bc0789f.jpg，当然，这里的分母不会为零。（如果分母为零且分子也为零，则可以尝试类似地定义 f(x) 为这些导数的比值，依此类推。）

这种情况，即函数在孤立点处未定义，称为 “可去奇点”，刚才讨论的消除它的程序称为 “洛必达法则”。

一个例子是 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c57680771748ae0207c673a594c22d97.jpg 在 x = 0 处。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/9a5a85512720ed68756d320e5528c9c9.jpg https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/36b1ede1ed75d3f14ca64e9bfdee7419.jpg

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/bda92e35fb81cbec240dff230a340f76.jpg https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0d7a60ae8b1c82e123e2faebd1d9359d.jpg

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2ba493037f972470f6ab13c75a84ca48.jpg

连续但非可导函数

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/9049e9623fa6d9d71052e945c692431f.jpg https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/aab6d23f71be8b9a912e89f8dc024083.jpg

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/4b1ff99979493efc6cb0482aad5a72ca.jpg

6.4 二维导数：方向导数和偏导数

假设我们有一个两个变量的函数 f(x, y)。

这些东西有时被称为标量场。（标量表示它们不是向量，场表示有两个或更多变量。）

我们可以在 xy 平面中选择一条特定的线（例如 x = x[0] + rcoshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/47489dce21c6722ab340eae6e4524b74.jpg, y = y[0] + rsinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/47489dce21c6722ab340eae6e4524b74.jpg），并考虑 r 的函数（其他所有内容固定）：f(x[0] + rcoshttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/47489dce21c6722ab340eae6e4524b74.jpg, y[0] + rsinhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/47489dce21c6722ab340eae6e4524b74.jpg）。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c51f7bfdd0b31ce94ef563c833ef82ac.jpg 然后被称为在 xy 平面上以 tanhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/956d1ce9a9a5d0ac8ae11270ad440408.jpg斜率方向上在(x[0], y[0])处 f 的方向导数。

换句话说，我们可以通过在 xy 平面中选择任何特定的线，将 f 简化为在该线上定义的单个值的函数，并定义该单变量函数关于该线上的距离的导数。

这个导数称为沿着该线方向的 f 的方向导数。（您可以在 applet 中查看两个变量函数的方向导数。）

f 关于 x 轴方向的方向导数称为关于 x 的偏导数，并写为https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/bb05f6d2deff109eec9ea3d6b4bdeac8.jpg

类似地，f 在 y 轴方向上的方向导数称为关于 y 的偏导数，并写为https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b7c32d8e5521856c3bdf37c9693e4432.jpg

这些偏导数的计算方式与普通一维导数完全相同。计算关于 x 的偏导数时，将 y 视为常数，并且与一维情况下完全相同地对 x 进行微分。

6.5 切平面和梯度向量

我们定义二维可微性如下。如果两个变量的函数 f 在参数(x[0], y[0])处的曲面在(x, y, f)空间中对于接近(x[0], y[0])的参数看起来像一个平面，那么我们称其在该参数处可微。

（给定任何正数标准，存在一个以(x[0], y[0])为中心的圆，在该圆内，其图形与平面之间的差异小于该标准。）

回想一下，f, x 和 y 变量的平面由一个线性方程定义，可以写成以下形式

f(x, y) = a (x - x[0]) + b (y - y[0]) + f(x[0], y[0]) (A)

这里 f 类似的平面称为在(x[0], y[0])处 f 的切平面，它代表的函数称为在(x[0], y[0])处定义的 f 的线性近似。

量 a 和 b 被称为关于 x 和 y 的偏导数，并写成如下形式

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1931911757a41582268fbf5f60cc2dac.jpg

这里 a 是 f 在 x 轴方向的方向导数，i，而 b 是 f 在 y 轴方向的方向导数，j。

因此，在参数 x[0]和 y[0]处描述 f(x, y)的线性近似，描述在(x[0], y[0])处的 f 的切平面，因此采用以下形式

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/d938e27747b87b59e96b7610b17f56aa.jpg

其中向量grad f，称为在(x[0], y[0])处 f 的梯度向量，是在点(x[0], y[0])处 f 在 x 和 y 方向的偏导数的向量

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8b2567c8d83aacebff36d4f207800c8c.jpg

我们通常不写出指示梯度和线性近似定义点(x[0], y[0])的繁琐下标，因为它们太繁琐了，只需写成

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7f622d948bef4440a0859bdc27c048ad.jpg

注意我们可以将grad f 写成https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/122167f8fe7ae308fb8b83126120debc.jpg，其中符号https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b81218e9164d354b8855090bce1b20eb.jpg称为“del”，表示组合https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/a094a56839f99a31f0473d51deb3ec89.jpg。

6.6 梯度和方向导数

我们已经看到上面的 2-矢量

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1b564e368fc1e38e7884b45afe9708bf.jpg

被称为在参数(x[0], y[0])处 f 的梯度，通常写为grad f 或https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b81218e9164d354b8855090bce1b20eb.jpgf.

在点(x[0], y[0])处由 f 定义的曲面的切平面方程可以用梯度描述为

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/27012ed202ed27b76e5fc320143908de.jpg

从这个方程我们可以推断，切平面的法线在三维空间中的方向是(grad f, -1)的方向。

这个法线在(x, y)平面上的投影就是grad f 本身。

因此，grad f 在投影到 f 在(x[0], y[0])处的切平面的法线到(x, y)平面的方向。

这种关系可以在下面的小程序中看到。

符号https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b81218e9164d354b8855090bce1b20eb.jpg被称为“del”。它是一个奇怪的矢量算子。单独来看，它的意义和单手拍掌的声音一样难以理解。但放在可以作用其导数的东西旁边，它就变得很有意义。

在点(x[0], y[0])处对 f 的线性近似 fL 的方程使我们能够计算该点的 f 的方向导数。

假设我们寻求 f 在由单位向量u定义的方向上的方向导数。那么如果(r - r[0]) = su，那么 f 在该方向上的方向导数（在(x[0], y0)附近接近 fL）就是对 s 的 fL 导数。

但我们有

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/3238e929819fa0c45712a96170c074b9.jpg给出

如果 f 是一个更多变量的函数，比如 x、y、z、t，…我们可以用完全相同的方法来描述变化，唯一的区别是切线平面变成了切平面，而且有更多方向的偏导数。结论完全相同：

1. 梯度向量在法线投影的方向上进入坐标的超平面。

2. 任意方向的方向导数由该方向上的单位向量与梯度向量的点积给出。

3. 梯度向量在任意轴方向上的分量是 f 对应距离变量在该方向上的偏导数。

4. 那个偏导数是假定所有其他变量保持不变的情况下，对那个变量的普通导数。

所有这些的结果是，梯度向量，其分量可以通过普通的一维微分来计算，对于任意维度的场，都是计算其任意方向的方向导数所需的一切。

如果这些概念对你来说很奇怪，那就在下面的小程序中玩耍，直到你感觉舒服为止。左侧的图显示了右侧所表示的场限制在右侧所示的切割半平面上。在那一半平面的边缘也显示了它的线性近似。该线性近似的斜率是在那一半平面的边缘处的场的方向导数。

（当然，所显示的不是一个确切的半平面，而是一个矩形。在此感兴趣的边缘是第三个滑块的旋转轴。）

6.7 哲学含义

上面在二维中的讨论展示了关于导数的一个重要事实，这个事实既解释了微积分的有用性，也解释了我们能够计算所有标准函数以及其他函数的导数。

事实是：在线性近似中，即微分和导数的领域中，从两个不同原因引起的可微函数的变化，比如从 x 的变化和 y 的变化，并不相互作用，它们只是简单地相加，如上述方程（A） 所述。

这一事实的一个含义是，在计算导数时，你可以将函数分析成简单的部分，计算由每个部分的变化导致的导数，并从每个原因中累加，得到整个函数的导数。

例如，恒等函数 f(x) = x 显然遵循 df = dx 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/afedccfe80d97984a264533b40a26f74.jpg，如果 c 是一个常数，而 f = cx，我们有 df = cdx 和 f ’ = c：这种情况下斜率为 c 的切线就是 f 本身。

换句话说，当作用于 x 或 cx 时，取导数的作用是将因子 x 替换为 1。

现在假设我们考虑 f = x^n，其中 n 是某个正整数。这是 n 个因子中的每一个都是 x 的乘积。对于任何一个因子进行导数，其他因子保持不变，得到的和就是我们的事实，关于 x 的 f 的导数。我们得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/031befa09fbe1075d8fe9a90e869fd20.jpg

n 来自于将 n 个不同因子中的每一个替换为 1。

作为第二个示例，假设 f = g * h，函数 f 是 g 和 h 的乘积。

那么由于单独改变 g 而导致的 f 的微分变化将是(df)[h 固定] = (dg) * h，由于单独改变 h 而导致的将是(df)[g 固定] = g * dh。我们可以得出结论，f 的一般变化将是这些的和：df = dg * h + g * dh，这意味着 f ’ = g’ h + gh’。

另一个同样重要的事实的重要含义是，当你面对一个依赖于许多参数的未知函数时，你可以在考察函数关于任何事物的导数时，单独模拟函数相对于每个参数的变化，从而得到函数在任何变量的微分变化下如何变化的相对简单的模型。

然后，您可以希望通过对您建模的微分变化**“积分”来发现函数在参数实际变化下的实际行为**。

这种方法的替代方案是直接对参数进行实际变化的影响进行建模，这要困难得多。由于来自不同来源的变化相互作用并且可能变得非常难以建模，这一点使情况变得复杂。

虽然我们研究已知函数的导数以发展对该主题的理解，但微积分的深刻用途在于帮助我们通过这种“分析”过程确定未知函数：对其微分变化进行建模，然后“积分”它们。

牛顿发明了微积分来研究行星和受各种力作用的运动体的运动，并取得了令人难以置信的成功。

练习：

6.1 导数 applet 展示了您可以输入的任何函数的导数。 输入函数(sin x)² 在 -4 和 4 之间，看看您是否能找到其导数为 1/2 的点。

6.2 在 x = 1 处你找到了什么导数？导数为 0 的位置在哪里？

6.3 一个具有两个变量的函数在某点具有对 x 和 y 的偏导数是否意味着它在那里可微？

6.4 一个函数在某点所有方向都有方向导数，是否意味着在那点可微？

（提示：考虑在 x = y = 0 时的 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b8d696c9a5da4afc26a7a33ae262bbb3.jpg。）**

6.5 鉴于(sin x)’ = cos x，我们可以如何定义在 x = 0 时的 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2b8765c349423ea88e7d32a7a9827a3a.jpg？在 x = 0 时的 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/4bce18f3e0e93c888aa0fd2f97292226.jpg呢？

6.6 函数 (x²+y²) sin x 的梯度是什么？在点 x = 1, y = 2 处沿着向量 (1, 1) 的方向导数是多少？

第七章：从定义中计算导数

引言

我们讨论了在电子表格上计算导数的方法，重点是重复使用对称逼近法，指数级递减的 d 并推断结果。

主题

7.1 引言：显然的逼近法：f’(x) ~ (f(x+d) - f(x))/d

7.2 四舍五入误差和导数

7.3 对称逼近法：f’(x) ~ (f(x+d) - f(x-d))/(2d)

7.4 推断答案序列

7.1 引言：显然的逼近法：f '(x) ~ (f(x+d) - f(x)) / d

假设我们有一个给定的函数 f，并且我们寻求其在参数 x[0] 处的导数。

一种估计它的方法是在两个点 x[1] 和 x[2] 处评估 f，然后检查从 (x[1], f(x[1])) 到 (x[2], f(x[2])) 的线的斜率。但是我们应该如何选择 x[1] 和 x[2]，以及我们将学到 f '(x[0]) 的什么？

人们首先想到的选择是设置 x[1] = x[0]，并且 x[2] = x[0] + d，其中 d 是一个非常小的值。因此可以计算

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/793c3c78de3c67d36d482f95fb2f0dce.jpg

这不是一个可怕的做法，但是也不是很好，我们会看到。

问题在哪里？

如果 d 太大，线性逼近法将不准确，如果 d 太小，你的计算工具的不准确性可能会毁掉你的答案。而从太大到太小的过渡可能很难找到。

7.2 四舍五入误差和导数

d 太小会导致什么问题？

通常计算器、计算机或手工计算的结果并不完全准确。会有非常小的误差。通常，这些非常小的误差（称为四舍五入误差）可以忽略，因为它们在你的评估中所代表的“噪音”与 f 的值相比极其小。（一个值得注意的例外是当你的答案是 0 时；那么机器的答案将只是它产生的错误。）

一般来说，如果你取两个非常相似的数字，如 f(x[0] + d) 和 f(x[0])，然后取它们的差值，那么这个差值将远远小于任何一个数字，并且由差值表示的信号的信息因此远远小于任何一个数字所表示的信号，而噪声水平通常保持在相同水平上，用于差值的项和差值。

将减法结果除以一个非常小的 d（这相当于乘以一个巨大的 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/84022c37d90e8ab197207e722f94b5d9.jpg），将信号和噪声放大在一起。最终结果是你得到了预期的答案加上大量的噪声，而你使 d 越小，噪声就会越大，这种影响会使你的计算不准确。

如果你将 d 设定为低于你的计算机计算的准确度，你的答案通常会偏离超过 1，或者当你除以 d 时，你的程序会指责你除以 0。

电子表格允许你对大量不同的 d 值进行这种计算，而实际上所需的工作量不超过进行一次这样的计算。这通常使你有能力自己查看并确定舍入误差导致的重大误差出现在哪里。

只有当你计算的答案偏离正确答案太远，以至于这种效果变得明显时，你才会受到这种影响的困扰。因此，我们试图利用一些技术，使我们能够尽可能大地得到准确估计的 d 值。

怎么回事？

在电子表格的一行上设置一个 d 值的计算，然后在下一行上设置 d =旧的https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5bed3bab8b6a256cff949af84df0e88d.jpg，并将结果向下复制至所需的行数。你将得到以https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5bed3bab8b6a256cff949af84df0e88d.jpg替换的 d 重复的计算结果，然后是https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/44dd85ce3c3ae17d41407ba36afd592a.jpg，然后是,…，直到所得到的值太小以至于你的机器无法将其识别为 0 以外的值。

如果你对导数的估计能够接近一个值并保持在那里，那很可能就是你寻找的导数。不幸的是，这并不总是发生。估计值倾向于接近然后再次远离，因为舍入误差的影响开始显现。

（幸运的是，现代计算机在计算时保留了比屏幕显示更高的精度，因此你可以容忍一定程度的舍入误差而不会注意到它。）

然而，有一件事情要好得多，通常可以接近你寻找的导数的值，并且不需要更多的工作！而不是计算！自己试试。

7.3 对称逼近：f '(x) ~ (f(x+d) - f(x-d)) / (2d)

使用这个公式对导数的“d-逼近”比使用天真的公式https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/605702ab33c4882de2ce9d693026161f.jpg效率高得多

为什么它更好呢？

答案是，如果 f 是一个二次函数，那么“对称公式”就是完全正确的，这意味着它的误差与 d²或更小的值成正比，随着 d 的减小而减小。天真的公式对于二次函数是错误的，并且产生与 d 成正比的误差。

为什么呢？

假设 f 是一个二次函数：f(x) = ax² + bx + c。

然后我们得到

f(x + d) = a(x + d)² + b(x + d) + x

和

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/df6882577e1fe02ade4d1d452c2dc7a2.jpg

另一方面，我们得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b70f5a1a7eaf73d94c5185fda3430619.jpg

这意味着对于任何二次函数的任何值的 d，对称逼近都是精确的；不需要使 d 变小；这对于非对称公式来说是不成立的。

一般来说，如果我们要求导的函数，f(x + d)，可以在 d 的幂级数中展开，那么我们对称公式的第一个误差来自三次项，并且与 d²成正比。

发生这种情况的原因是 f(x + d) - f(x - d) 中的 d² 项会相互抵消，因为两项相同。顺便说一句，所有偶数次幂项也是如此；这个对于 x 处 f 的幂级数展开的近似中的误差都来自于奇数次幂项。

因此，如果我们用 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5bed3bab8b6a256cff949af84df0e88d.jpg 替换 d，对称近似的误差将按 4 倍减少，而当我们将 d 除以 2 时，非对称公式的误差仅按 2 倍减少。

因此，随着 d 的减小，对于导数的对称公式比天真的非对称公式更快地接近真实答案。

现在我们问：我们能否获得更快的收敛速度？

7.4 推断答案序列

是的！ 通过推断它！

推断是一种根据少数项来预测序列的发展方向，并创建一个新序列，每个阶段都是根据迄今为止序列项中的信息给出的最佳猜测答案。

一个巧妙的技巧可以消除一个序列中按固定因子从项到项减少的项，方法如下。例如，假设我们有一个序列，并且想要从中消除按 4 倍从项到项减少的项。

那么，如果你取序列中的任意一项的 4 倍，然后减去前一项，任何按 4 倍从项到项减少的贡献将在两者之间抵消；当然，你将得到正确答案 4-1 或 3 倍。

因此，在一个序列 s[1], s[2],… 中，每个序列中都有误差项按 4 倍减少，新序列，其第 j 项为https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/436ea69366291dd399a5dbdb7efda7bf.jpg，将消除按 4 倍减少的误差项。（在一般情况下，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b851390a95f8a4616dcbc35cb2442b56.jpg 中的主导误差项按 k 减少，类似的公式是 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/9614099743c6a90f17bf1ad0cc98a29d.jpg

在我们的情况下，我们可以这样做。计算对导数的对称近似，并让 d 每行减少一半。然后，对称近似中的主导误差将每行减少 4 倍。如果我们将上述的二次近似应用于推断公式，我们将消除那个主导项，并且剩下的主导项将减少 16 倍（来自 f(x + d) 中的 d⁵ 项）。

这是我们能做到的最好的吗？

不！我们可以使用 k = 16 的推断公式将这里的 16 替换为 64，然后使用 k = 64 的推断来做得更好。

这个方法的一个很好的特点是，每一步，从形成对称近似到产生所示的推断，都非常容易在电子表格上完成，并且只需要在一行中完成，然后复制到后续行中。

另一个好处是，如果你合理设置了这个，你可以通过只更改电子表格中的一个条目来改变微分的参数。你可以只输入新函数一次，并适当复制它来改变被微分的函数。其余所有事情，包括外推，只需要执行一次，几乎适用于所有标准函数。

练习：

7.1 按照上面的讨论描述设置一个电子表格的微分器，使用两级外推的对称差分形式。

7.2 在对 (sin x)² 在 x = 2 处进行求导时，你需要设置什么值的 d 才能使计算达到你的计算机所能显示的精度？

7.3 制作一个电子表格，保持 d 不变（比如设为 .001），并允许 x 变化。使用电子表格的 xy 图表功能，在范围为 -3.5 到 3.5 的区间内为 f 和 f’ 绘制图表，其中 f = sin x。

7.4 你能找到一个此方法失效的函数吗？是什么函数？在哪里？你能修复它吗？

第八章：按规则计算导数

引言

我们回顾如何区分标准函数，以及如何找到在空间和时间中移动的物体所经历的函数的时间导数。

主题

8.1 基本函数的导数

8.2 函数组合的导数

8.3 高维导数

8.1 基本函数的导数

由于我们定义标准函数是通过将固定的一组操作（算术操作、替换和反转）应用于三个原始函数的组合而获得的，所以如果我们知道如何区分这三个函数以及如何在其他函数的导数方面对它们应用每个操作来区分由其他函数获得的函数，我们就可以区分任何标准函数。

三个基本函数的导数如下

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/6c4aec13c7b140391e54ca3a215e8d6c.jpg

通过处理每个操作的规则，对标准函数进行微分的任务仅需要解析其定义以将其分解为单个操作，然后对每个操作应用相应的规则。

为此，我们需要以下规则。

8.2 函数组合的导数

如果 f = cg，其中 c 是一个常数，那么 f ’ 和 g ’ 之间的关系是什么？

如果 f = g + h� 或 f = g - h，那么 f ’ 与 g’ 和 h ’ 之间的关系是什么？

如果 f = g * h，同样的问题吗？

如果 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/73ffdbcd8cfd2a65fe6ce9ccfafb66d0.jpg，那么 f ’ 与 g ’ 和 h ’ 之间的关系是什么？

如果 f(x) = g(h(x))，同样的问题。

如果 f 是 g 的反函数，f = g^(-1)?

如果 f 满足方程 g(f(x)) = 0，在包含 x 的任意开区间内，如何用 g 和 g ’ 的术语找到 f '(x)？

根据导数的定义，当 c 是常数时，我们知道 (cg) ’ = cg '。

我们还知道根据第六章描述的基本原理，来自不同来源的导数贡献仅仅相加。

我们可以立即推断出如何区分求和、差异和乘积。

求和的区分规则： (g + h)’ = g’ + h’。同样的 (g - h)’ = g’ - h’。

乘积的区分规则： (g * h)’ = g * h’ + g’ * h。

如果我们知道如何区分 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/66f9789c1f95e07a284c08d306addafa.jpg，我们可以利用之前的规则得到求 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f0e15dc7197d1e10c82c7f5d3e8b9065.jpg 导数的规则，因为我们有 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/662ee7a48ee04f95f621b8923551f569.jpg。

我们可以通过利用事实 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/4d828a51fa6716185bf84807a821ae9e.jpg 来找到 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/bfe0d7dc7a84ff2b051a75fc1e5f5029.jpg。

通过乘法法则，我们得到 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/621da693aa4a9df53728badddb205b4b.jpg

重新排列这个语句并除以 h 得到 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2d195806174dc6667e9a152f7018ff67.jpg

练习 8.1 陈述根据这些事实得出的“商法则”，即用于找到 f’的规则给出https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/73ffdbcd8cfd2a65fe6ce9ccfafb66d0.jpg。应用它来找到https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/9fb312f1fd62482c2ea67bc4267cc4a0.jpg

要找到 f’，只需观察当我们将 df 和 dg 视为微分时，我们将有 df = dg，而 f’意味着https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/a26fddc7c26ab5ecec4204d592f93839.jpg，并且给定 g = g(h)知道 g’会给我们https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/31e2d5e28f6e30c52bbb457cb79672a1.jpg从而https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5435c9d230fff02a917b700d7274c0cc.jpg。

要从https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5435c9d230fff02a917b700d7274c0cc.jpg得到https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/a26fddc7c26ab5ecec4204d592f93839.jpg，我们需要乘以https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2d9c23ace14562dc55ff58307589e897.jpg，因此我们得到**“链式法则”** **(g(h(x))’ = g’(h) * h’(x)**� 其中 g’(h)在 h = h(x)处评估。

要找到函数 h(x)的反函数的导数，只需要观察到反函数是通过交换 x 和 y 轴获得的；由于 h 的导数是其图形切线的斜率https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2d9c23ace14562dc55ff58307589e897.jpg，在交换 h 和 x 轴后，我们得到斜率https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/3c861eb101cd1883f54d0b17287b47f9.jpg。

因此，函数 h 的反函数(h^(-1)(x))在参数 h(x)处的导数是与 x 和参数 x 有关的 h 的导数的倒数。

我们得到在 x = h(z)处评估的(h^(-1)(x))‘是https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/bc1ef3d9fe57dc79243ab90bbf68e0a4.jpg与 z 处评估的 h’。这听起来比实际情况更糟。

获得相同结果的另一种方法是将链式法则应用于反函数的替代定义：h^(-1)(h(x)) = x。

通过链式法则，我们得到 1 = x’ = (h^(-1)(h(x))’ = (h^(-1))’ * h’(x)，其中 h^(-1)在 h(x)处评估；再次得出结论，(h^(-1))‘在 h(x)处评估时是 h’(x)的倒数。

练习：

8.2 使用它们与 sin x 的关系找到 cos x，tan x，cot x，sec x 和 csc x 的导数。

8.3 使用 x^(1/n)是 x^n 的反函数的事实来找到(x^(1/n))'，并且通过应用刚刚描述的“反函数法则”，找到指数函数 exp(x)，sin x 和 tan x 的反函数的导数（即 ln(x)，arcsin x 和 arctan x）

现在假设 g(f(x)) = 0 在包含 x 的区间上成立。

然后我们可以应用链式法则找到(g(f(x)))’ = 0’ = 0 = g’(f) * f’(x)，并且这个方程将以 f 的形式确定 f’。这实际上是上面用来评估https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/66f9789c1f95e07a284c08d306addafa.jpg和 h^(-1)（倒数和反函数到 h）的导数的一般想法。

这是我们需要做微分的全部吗？答案是肯定的。

请注意，这里我们实际上只调用了两个规则，这两个规则允许我们对所有标准函数进行微分。

其中一个是多次出现规则，它允许我们单独处理变量的不同出现，并将它们的各自导数相加，以得到整个导数。

第二个是链式法则，它指出导数是一个变化率，是变化的比率，因此改变自变量，即改变斜率的分母，需要改变比率的导数，即原分母到新分母的导数。

为了说明如何使用这些规则，我们从中推导出了“幂规则”。

请记住，我们可以将任何指数 a 的函数定义为 exp(a * ln(x))。

我们可以利用指数函数 exp(x) 是其自身的导数这一事实，结合链式法则告诉我们

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/9fec705e9b1818caac607d6d222530ed.jpg

好的，我们是如何得到 ln(x) 的导数公式的？

嗯，ln(x) 是 exp(x) 的反函数。这意味着如果 y = exp(x) 那么 x = ln(y)。但是 exp(x) 是其自身的导数，这意味着当 y = exp(x) 时 y’ 是 y。

由于反函数的导数是原函数的倒数，我们得到了**https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/a18707d117d2828024718706ac9b3221.jpg**，这是我们使用的公式。

还有一种变量出现的方式我们尚未遇到但应该提到。它们可以且经常出现在积分的上（或下）限中。当讨论到这个概念时，你将学会如何对这种类型的函数进行微分。然而你应该在这里意识到，当一个变量既出现在这样一个限制中，又出现在普通函数中时，你可以调用“分开出现”规则来单独处理这些出现，并将从每个出现中得到的导数贡献相加，以得到整个导数。

练习 8.4 找出 x^x 对 x 的导数。

8.3 高维度中的导数

在更高维度中会变得更加复杂吗？其实不会。

关于偏导数的重要事情是，根据其定义，它是普通导数，尽管其中某些依赖被忽略，并且它的计算方式与普通导数的计算方式完全相同。没有新的技巧，也不需要新的技巧。

当一些数量取决于一些变量，而这些变量又取决于其他变量时，会出现一些问题。

比如，假设我们对一个微小物体的温度 T 感兴趣，这个微小物体正在普通空间中运动，具有这样的特性，即随着它的移动，它的温度会达到其周围的温度。这个温度随时间和空间而变化。

身体的温度会因为时间的变化而改变，但也会因为它的运动而改变。

这里空间中的 T 是位置 (x, y, z) 和时间 t 的函数：T = T(x, y, z, t)（我们使用相同的字母来描述时间和温度，以最大程度地增加否则将是单调和不具说服力的叙述的混乱）。

现在进一步假设所讨论的物体通过方程 x = x(t)，y = y(t)，z = z(t) 描述了空间中的轨迹。（你可能想将这个简写为r = r(t)，其中 r = (x, y, z)。）

我们提出了一个问题，即该物体所经历的温度随时间的导数是什么？

我们用微分的形式写出 dT

� https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/e52bb8ac86efd5b407fd503f37488385.jpg

我们还有

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/148f7967fe32efee949411ae66a356e1.jpg

将这些放在一起，我们得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/60b50ae30266adb1e0a52a828aa1fbe4.jpg

从中我们得出结论

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/feaa70f83a55212000c8001052d82675.jpg

当你遇到这样的公式时，意识到它无疑是从一个类似的情况产生的不是一个坏主意，其中一个函数依赖于时间，也依赖于时间本身依赖于时间的空间变量。

这种事情有点像广义链式法则，有时被称为这样。

请注意，处理这类问题的方法是考虑微分，包括它们之间的所有可能依赖关系，并将它们都与独立变量的微分，这里是 t，相关联。然后，你可以将微分除以找到导数。

当存在多个相互关联的变量时会出现复杂情况。然后，可以有不同的偏导数，取决于哪些其他变量被保持不变，而且在你变化其中一个特定变量时，你可能可以选择固定哪个坐标。为了保持清晰，你必须引入一种符号，其中有一个位置可以描述要保持不变的变量。

第九章：矢量场的导数和极坐标中的梯度

介绍

定义了矢量场的散度和旋度，讨论了提供场的视觉表示的问题，并详细讨论了标量场的梯度。特别是，我们考虑了如何以三种不同的方式在任意正交坐标系中表示它。

主题

9.1 矢量函数的导数; 散度

9.2 旋度

9.3 可视化两个变量的函数

9.4 极坐标和其他正交坐标系中的梯度

9.1 矢量函数的导数; 散度

梯度是几个变量的矢量函数。这样的实体称为矢量场，我们可以问，我们如何计算这些东西的导数？

我们将在三维空间中考虑这个问题，并回答如下。

由于三维空间中的矢量有三个分量，并且每个分量在三个方向上都有偏导数，因此在任何坐标系中，矢量场的偏导数实际上有九个。

因此，在我们通常的直角坐标中，对于一个矢量场v(x, y, z)，偏导数为

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2b4aa902b01d232f1026da302c4e9643.jpg

所有这些都可以通过计算用于计算标量函数（通常称为标量场）的偏导数的相同规则来计算。幸运的是，对于我们来说，通常遇到的只有两种组合，而且值得了解。

这些中的第一个是散度，写作 div v，或用微分算子 del 表示，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/19c0b6425d1c85d9c594c5b570d7390a.jpg 它是具有分量https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/78b6428a7be4ed443125e93cd3497185.jpg 的矢量算子

明确地说，它是这个微分算子与矢量v的点积

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c7d4f4f2031ec7564b68aebffe28bd94.jpg

由于它是点积，所以它是一个数而不是一个矢量。

这就是散度的定义方式，再次可以通过直接微分来计算，但是我们也必须解决以下问题：这意味着什么？它对我们有什么兴趣？我们如何使用它？我们如何在其他坐标系中计算它？

我们将推迟回答这些问题，直到我们讨论了积分，因为答案与该主题密切相关。

然而，我们可以使用微分的规则来推导出以下有用的陈述：

两个矢量的和的散度是它们各自散度的和。

而函数 f 乘以矢量 v 的散度如下给出

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/e871e3fc0d58baaf0b9fd7ae0c456764.jpg

练习：

9.1 推导这个方程。

9.2 将其应用于在球坐标中找到https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c0df92a4e01c7e58b2179d9248f62092.jpg的散度。回忆一下，向量 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5f2a507b6c3887e2edf94b99c89e9c04.jpg 在球坐标中有分量 (x, y, z)。

9.2 旋度

向量场 v 的第二个重要的偏导数组合是其旋度。

这是微分算子 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/19c0b6425d1c85d9c594c5b570d7390a.jpg 与向量 v 的叉乘积。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8a38dd9e01ebb1c1115e7e2acb82a4c2.jpg

虽然我们将再次推迟对这个实体含义的全面解释，但我们可以观察到一些重要的性质，这些性质本身就使它具有重要性。

由于我们可以通过取梯度来从标量创建一个向量，我们可以问：

现在，如果我们对结果梯度取旋度会发生什么？也就是说，旋度梯度 f 是什么？我们也可以问。旋度 v 的散度是多少？以及梯度 f 的散度是多少？

这些问题的前两个有非常简单而极其重要的答案。第三个问题有一个重要的答案，尽管其含义尚不明显。

练习：

9.3 一般情况下评估散度旋度 v 和旋度梯度 f；这些答案本身使旋度和散度成为重要的算子。

9.4 根据偏导数写出梯度散度算子。（通常被称为“拉普拉斯算子”。）

9.3 两个变量函数的可视化

两个实数变量的函数在三维空间中定义了一个表面，维度是原始的两个维度和函数本身。

我们今天可以产生一个三维图像，但在很多年里这是相当不切实际的，数学家们不得不满足于三维空间中这些表面的二维图像。有两种基本而互补的方法来做到这一点。

第一个是在 xy 平面上绘制等值轮廓线。这种方法用于显示等压线（称为等压线）在天气图中，或者用于显示地形图中的地表高度。

当这些等高线相当平滑时，等高线的切线表示一个方向，这个方向在该点处是水平平面和表面的切平面的交点。

xy 平面上等值轮廓线的法线指向梯度向量（加或减）的方向，也可以用来描述表面。

经过一点练习，你可以从这些等值轮廓线中得到函数表面的相当好的概念。因此，当这些等值轮廓线代表函数的不同值时，函数的上升相对陡峭，当它们彼此之间距离很远时，上升相对缓和。

描述两个变量函数的第二种方法是在许多点上沿着梯度向量的方向绘制小箭头，并将其连接成“增长线”（不是一个常见的术语）。

这些线将垂直于相等值等高线，并且会从“函数的局部最小点到局部最大点”（或者到或从你正在检查函数的区域的边界）。

你可以通过这种图片得到函数的性质的相当好的概念。

当正在研究的函数代表一些物理情境中的势能，或者是静电学中的电势时，这里描述的线是显示对物体或微小带电粒子的力指向的**“力线”**。

对于物理应用，我们真的希望能够可视化三个变量的函数，这在一个平面上描述起来非常困难。我们将尝试找到一天能够做到这一点的方法。

在接下来的 applet 中，你可以输入你喜欢的两个变量的标准函数和一个定义域，并查看它的等值线是什么样子的。使用第一个滑块，你可以在平面上的一个网格点处查看梯度（网格点的数量是可调的）。

在上次访问的网格点，你可以使用第二个滑块查看方向导数。对于箭头所示的角度，方向导数的大小由箭头的长度表示。当方向与梯度的点积为正时，方向导数的符号为正。

你可以查看方向导数 applet 中由函数定义的实际曲面来磨练你的直觉。

9.4 极坐标和其他正交坐标系中的梯度

假设我们有一个以 f(x, y) 形式给出的函数在二维中，或者以 g(x, y, z) 形式给出的函数在三维中。我们可以对给定的变量进行偏导数，并将它们排列成变量的向量函数，称为f 的梯度，即

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ee577be68222c2789317346aeada8142.jpg

意思是

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/06a2b278d9cc7ff1ac61dd9aeb65bcce.jpg

但是假设我们以 r 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 的形式给出了 f 作为函数，即在极坐标中，（或者 g 在球坐标中，作为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0026de29db2e0af68656169d70313506.jpg，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg，和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/fc064b6ac937e57894ae17cca9e0cc94.jpg 的函数）。

例如，假设 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/49c607afa7d3bf26bbd5b02ce76d1dd9.jpg

我们如何找到 f 或 g 的梯度？

找到这样一个函数的梯度的一种方法是，将 r 或 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5f2a507b6c3887e2edf94b99c89e9c04.jpg 或 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg 转换为直角坐标，使用适当的公式进行转换，然后对结果表达式进行偏微分。

因此我们可以写成

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/03422789d11db0ce542afeda2c197ef8.jpg

并通过普通的偏微分得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/6f39572ba0cfc13c2454419f0be4af6a.jpg

有时，直接用极坐标或球坐标表达梯度更方便，就像用直角坐标表达的那样。

我们在这里想要一个包含对 r 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 的偏导数相乘的表达式，分别乘以指向 r 方向和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg 方向的向量。

所以我们想知道：这些偏导数应该与什么向量相乘才能形成梯度？

当我们找到答案时，实际上关于每个极坐标变量的偏导数将是极坐标方向单位向量与梯度的点积。

因此我们岔开话题讨论这些单位向量是什么，以便你能认识它们。

r 方向是从 x 轴逆时针倾斜了一个角度 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 的方向。在那个方向上的单位向量，称为 u[r], 可以用以下三种形式之一表示

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/16d55ed623533297c9317579a4f45529.jpg

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 方向上的单位向量位于 r 方向的逆时针 90° 方向，因此它由以下方式给出:

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/4dba21b923ec1ee70b12cbca96d8841a.jpg

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/28b25bc23da74b757fa69f7a6ccc8918.jpg

我们现在问：在极坐标中 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/19c0b6425d1c85d9c594c5b570d7390a.jpgf 是什么？

我们知道，如果我们在 r 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 上做微小变化，f 的结果变化将由以下公式给出

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/f6534918054be95825dffeb8957db9dd.jpg (A)

因为这个关系适用于任何变量。

但它们也必须遵守

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2d502efef5e564c2559729aeef5494f6.jpg

如我们在第 3.8 节中简要提到的，在变量 r 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 做微小变化时，极坐标中的距离由以下公式描述：

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/bbe786026b53c1e689a9a45e89189074.jpg

由此我们推导出 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/6ee8637a9e7a1dfc3821a001e87ef122.jpg

将两个关于 ds 的方程组合起来，我们得出：

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b0849859a192cae19abc68511327aca0.jpg 是 f 关于 r 的偏导数，正如 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0d7b538d2276b230d8218d516c650429.jpg 是它关于 x 的偏导数一样。

但是因为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/3deb3fa952787e71be4212aca74c082b.jpg 中有一个 r 因子，所以在 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/19c0b6425d1c85d9c594c5b570d7390a.jpg 方向上的 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg 分量的分母中必须有一个补偿因子 r

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/52216e7e439e570aaa5a232e3d805d4a.jpg

和

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ba2ba0b084950cb4dc19199394d49723.jpg

对于任何维度中的任何正交方向，都可以进行类似的计算，我们可以预期结果。

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/19c0b6425d1c85d9c594c5b570d7390a.jpgf 在任何此类变量方向上的分量将是 f 对该变量的偏导数，除以该方向的距离变化与变量本身变化的比率。

使用最后一个方程，我们可以立即推断出**https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg的梯度为 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/1642ee97bcdd933f5a59b6bc5cc6a873.jpg，当然在 r = 0 时除外，那里 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg 不可微分。** 类似地，我们发现 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/eafc78c3ab37d8fdb776928a4db2e3db.jpg 的梯度。

练习：

9.5 利用球坐标中的两个角变量都是极坐标变量的事实，将 3 维空间中的 ds² 表达为球坐标三个变量的微分。从中推导出球坐标中的梯度公式。

9.6 通过这种方法找到球坐标中 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/ee1fe0a4d3b7d18e92bf0240ae7e1e69.jpg 的梯度以及球坐标中 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg 的梯度。

还有一种第三种方法可以通过使用链式法则来找到给定坐标的梯度。

我们首先考虑直角坐标中 f 的微分变化，然后将 x 和 y 的微分变化与其他坐标，比如 r 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 的微分变化联系起来。结合这些，我们可以将 f 的变化与后两个变量的变化联系起来。

由于我们知道如何在直角坐标中写出梯度，并且可以识别单位向量，我们可以将结果表达为另一坐标系中梯度的分量。

明确地，我们可以写成

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b1ba6bbbfc55021bdd7f725003e64656.jpg

并使用后两个方程式消除第一个方程式中的 dx 和 dy。结果是一个关于 dr 和 dhttps://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/b5539669fc2ce11e934acf52b91eaf5d.jpg 的表达式，其系数可以用各个方向的单位向量和直角坐标中的梯度来描述。

将该方程与定义偏导数的基本公式方程（A）进行比较，您可以读取梯度的分量。

当 f 以直角坐标给出但你想在你的坐标系中写出梯度时，或者如果你不确定 ds²和该坐标系中的距离之间的关系时，这种方法很有用。

练习：

9.7 在极坐标中明确地进行这个计算。

9.8 在球坐标中也这样做。

在进行偏导数时应该保持哪些变量恒定？

值得注意的是**当我们对 x 或 y 进行偏导数时，我们总是指保持另一个变量，y 或 x，恒定；另一方面，对 r 和https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg的偏导数总是指保持另一个变量，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/0af78f3764417ec5f7866d140c697c49.jpg或 r，恒定。**任何其他含义都必须明确描述。

有时候在偏导数中，人们可能会困惑于哪个变量或变量被保持恒定，在这种情况下，明确提供这些信息是明智的。因此，我们可以写成https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/006d5ee74e222968ab064bf7db1fad69.jpg表示对 x 的偏导数，保持 y 不变，这样就不会有关于什么是恒定的混淆。

关于梯度需要记住的最重要的事实是：

在任何正交坐标系中计算起来都很简单

你可以用它来确定所涉及函数的方向导数，无论方向如何。

在直角坐标中，它的分量是各自的偏导数。

两个场的和的梯度是它们梯度的和（梯度是一个线性算子）。

一个乘积的梯度可以通过应用常规的求导乘积法则来计算。

第十章：更高阶导数，泰勒级数，二次逼近和逼近的准确性

介绍

我们研究了对函数的二次和更高阶多项式逼近，最终得到泰勒级数。讨论了在临界点处的行为和确定逼近的准确性的应用。

主题

10.1 二次逼近

10.2 更高阶逼近和泰勒级数

10.3 更高阶逼近的用途

10.4 临界点处的二次行为

10.5 逼近的准确性和均值定理

10.1 二次逼近

线性逼近 $f$ 在 $f^{'}$ 是恒定时确实是精确的，这意味着 $f$ 是线性的。在线性逼近 $f$ 在参数 $x [0]$ 处的不准确性来自于参数 $x [0]$ 和 $x$ 之间 $f^{'}$ 的变化。

如果 $f^{'}$ 在 $x [0]$ 和 $x$ 之间的区间内是可微的，我们可以通过对 $f^{'}$ 进行线性逼近并将其用于估计区间内 $f$ 的变化来获得对 $x$ 处的 $f$ 的更好逼近。

简而言之，如果 $f^{'}$ 在该区间内是可微的，我们可以计算其导数，称为关于 $x$ 的 $f$ 的二阶导数，并写为 $f " (x)$ 或 $！ [] (../ I ma g es /2 fd c 90077 a 943 c 7 f e 0 f 05 b c 59972 c b 5 f . j p g)$ ，有时也写为 $！ [] (../ I ma g es /6 a f 7736663 d 2 d 5 a 179 d a f ba 3 b 993 ab 12. j p g)$ ，并使用它来改进对 $f$ 的估计。

所有我们的标准函数在它们定义的地方都具有可微的导数，甚至可微的二阶导数，等等，直到永远，除了可能在特定的奇异点处。

它们被称为“无限可微”，因为只要我们愿意，我们就可以不断地对它们进行微分。因此，我们可以计算二阶导数，以及第三阶和更高阶导数，并生成一系列对任何这样的函数的更好逼近。

10.2 更高阶逼近和泰勒级数

我们探讨以下问题：

这些对 $f$ 的更高阶非线性逼近是关于它的导数的什么？

我们为什么要做这些事情？

这些逼近有多精确？

当 $f$ 是多个变量的函数时会发生什么？

$f$ 在 $x [0]$ 处的线性逼近是线性函数，其值为 $f (x [0])$ ，在那里的一阶导数为 $f^{'} (x [0])$ 。

二次逼近是其值和前两个导数与 $f$ 在参数 $x [0]$ 处相同的二次函数。作为二次函数，它可以写为 $f (x [0]) + a (x - x [0]) + b (x - x [0])^{2}$ 。

我们通过应用其导数等于 $f$ 在参数https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5111793d93d84dd6a0bae79900e76721.jpg处的导数的条件来确定 $a$ 和 $b$ 。由于它在https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5111793d93d84dd6a0bae79900e76721.jpg处的一阶导数为 $a$ ，二阶导数为 $2 b$ ，我们推断出 $！ [] (../ I ma g es /05 c 88 f 8 b 015 aa f 2 aa 6 d 78 c 2 d 5955 a d e 5. j p g)$ ，以便 $f$ 在https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5111793d93d84dd6a0bae79900e76721.jpg处的二次逼近变为

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/fa8531436f69d5c398c43d030225c117.jpg

我们可以将这个论点扩展到创建立方逼近等，当 f 在 x[0]处适当可微时，通过应用相同步骤与更高阶导数。如果我们永远这样做下去，我们就得到了**“在参数 x[0]处 f 的泰勒级数展开”**。

练习：

10.1 写出一个关于 x[0]的一般无限可微函数 f 的泰勒级数展开。

10.2 写出一个一般函数的 5 次可微的 5 次逼近公式，并明确应用于 x[0] = 0 处的正弦函数。 给出在 x[0] = 1 处形成的正弦的立方逼近。

10.3 指数函数，作为其自身的导数，可以从其泰勒级数展开中分解出来。将该展开应用于 x[0]周围，推导出 exp(x)和 exp(x[0])之间的关系。

以下 applet 允许您输入一个标准函数，并查看这些逼近的前三个是如何定义在您选择的域上的。

10.3 高阶逼近的用途

这些更高阶逼近在以下方面是有用的：

1. 当所有较低导数在 x[0]处为 0 时，它们告诉我们关于 f 的关键信息。

2. 它们使我们能够获得对较低逼近的准确性的界限。

3. 它们可以用来推断重要事实（如练习 10.3 中所示）。

4. 作为多项式，它们通常比 f 本身更容易操作。

5. 有时高阶导数本身也很有趣。因此，力学的运动方程直接涉及加速度，这是位置的二阶导数。

6. 最后，与较低逼近相比，它们扩展了在其准确性范围内的展开点的距离。

10.4 临界点处的二次行为

一个 f '为 0 的参数 x[0]，使得 f 本身是平的，被称为 f 的临界点。

当 f 在这样一个点上不为零时，它在那里的二次逼近是以 x[0]为中心的二次逼近。

二次函数基本上看起来都一样，特别是如果你愿意倒立。当以 0 为中心时，它们的行为是 ax² + c 的行为。常数 c 决定了它在图中的出现位置，但图的外观完全由参数 a 决定。如果 a 是正的，函数看起来像一个更胖或更瘦的 x²；如果 a 是负的，它看起来像一个更胖或更瘦的-x²。这告诉我们，当其二阶导数为正时，f 在 x[0]处有一个局部最小值，就像 x²一样；当 a 为负时，它在一个局部最大值处有一个局部最大值（f 在一个点处有一个局部最大值，该点至少与包含它的某个开区间中的值一样大）。

当 a 为零时，即 f 和 f ’ 在 x[0] 处均有临界点时，二次近似是平坦的，你必须寻找三次或更高次近似来确定该点附近的 f 的行为。

练习 10.4 在什么情况下，当其一阶和二阶导数均在那里消失时，f 在 x[0] 处会有一个最大值？

10.5 近似精度和平均值定理

我们现在问，这里的任何近似都有多准确，从微不足道的常数近似，线性近似，等等。

假设 x > x[0]，m 是这两个参数之间 f 的 k 次导数的最小值，而 M 是那里的导数的最大值。

我们将引用一个原则，其最简单的形式是：你移动得越快，你走得越远，其他条件相同。 在这里，我们声称，如果我们通过在整个区间 (x[0], z) 内用该区间内的 k 次导数的最大值替换函数 f 的实际值来发明一个新函数 f[M]，那么 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2180793d65fcd1bae663b0969a31aa98.jpg 和它的所有一阶到第 k = 1 阶导数将在该区间内的所有 x ’ 上都遵守 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/d4c85508299d5da4a7194cbc48c56b4d.jpg。

这样想：如果你将速度 f ’ 增加到值 M，你会增加行驶距离。如果你交替将加速度 f " 增加到 M，同样的论点，那将增加速度，从而增加行驶距离。依此类推。如果你增加更高阶的导数，这种增加将传导到所有更低阶的导数，并最终传导到 f 本身。

这样做的好处是，在 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5111793d93d84dd6a0bae79900e76721.jpg 处的 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/77bf3dc827defe2a51568f68b0b13938.jpg 的 k 次近似在参数 x 处是精确的，因为在 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5111793d93d84dd6a0bae79900e76721.jpg 和 x 之间的区间内，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/77bf3dc827defe2a51568f68b0b13938.jpg 的 k 次导数是常数。现在，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/77bf3dc827defe2a51568f68b0b13938.jpg 的 k 次近似是 f 的 k-1 次近似加上 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2e6de797bac5b674f487af78a72af953.jpg。

我们上面的不等式应用于 j = 0，因此告诉我们，f 的 (k - 1) 次近似加上 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2e6de797bac5b674f487af78a72af953.jpg 至少是 f(x)，而通过应用相同的论点以相反的顺序，并将 M 替换为 m，我们可以推断出相同的近似加上 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/81d54586df518517f0a804b14e794cd3.jpg 至多是 f(x)。

所有这些的结果是对这里的任何近似的程度 k - 1 的 f 在 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/5111793d93d84dd6a0bae79900e76721.jpg 处与参数 x 处的 f 之间的差异有界：它们的差异在 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/81d54586df518517f0a804b14e794cd3.jpg 和 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/2e6de797bac5b674f487af78a72af953.jpg 之间。

我们可以进一步注意到，这告诉我们 k - 1 次近似的误差可以写成 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/e81a83de21728f72213d26a115546e52.jpg 其中 q 位于 m 和 M 之间。

由于 m 和 M 是 f ^((k)) 在 x[0] 和 x 之间的最小值和最大值，如果 f ^((k)) 在该区间内取得其最大值和最小值之间的所有值（如果它在该区间内可微分，则必须如此），它将取值为 q。因此，我们可以写成 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/20f56c61a4ad9ffa2fec0eef99961351.jpg 对于该区间内的某个 x '。

这使我们能够将我们的结论转化为以下陈述。

定理：

在参数 x 处评估的 f 的 k - 1 次近似的误差为

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/8015175530fe4645282ca6aea488e2a5.jpg

对于该区间内的某个 x '，如果 f ^((k)) 在该区间内连续。

练习：

10.5 当 k = 1 时陈述这个定理。这个结果被称为“平均值定理”。

10.6 重复上面的论证，针对当 x < x[0] 时发生的情况。结论如何改变？论证中有什么不同？

第十一章：多维度中的二次逼近

介绍

在二维或更多维中考察了二次逼近。我们考虑这样一个问题：在两个或更多个方向上，临界点何时是鞍点，

主题

11.1 二维或更多维的二次行为

11.2 临界点何时是最大值、最小值或鞍点？判据

11.1 二维或更多维的二次行为

现在让我们考虑当 f 是两个变量 x 和 y 的函数时会发生什么。

我们已经看到在这种情况下以及更高维度中可以定义偏导数、方向导数和可微性。

我们也可以再次定义二次逼近，但现在更加有趣。二维或更多变量的二次函数比一维的要多样得多。

二维中的一般二次函数形式为

ax² + bxy + cy² + dx + ey + g

这样的函数将有一个临界点，其梯度为 0 向量，即

2ax + by + d = 0

和

bx + 2cy + e = 0

两者都成立。

如果我们将该点称为(x[0], y[0])，我们可以像一维一样写二次函数

a(x - x[0] )² + b(x - x[0])(y - y[0]) + c(y - y[0])²� + g’

以便线性项已被消除。

在两个或更多维中，我们以显而易见的方式定义更高阶偏导数。

对于两个变量的 f 的二阶偏导数是通过先对一个变量取一阶偏导数，然后对该函数的下一个变量取偏导数得到的。

这里的一个很好的特点是，当您对适当可微的 f 取混合二阶导数时，取它们的顺序无关紧要。

这里二次函数的行为，除了一个常数，由系数 a、b 和 c 捕获，它们与偏导数的关系如下

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/d9964d2bf4254e850f91d37574bfad22.jpg

注意，如果我们以显而易见的方式将四种可能的偏导数组成一个矩阵

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/d1cd13f5b60e797d10b7d983c1345e3b.jpg

(这个矩阵的行列式是二次函数的判别式，即 4ac - b²。)

这样的二次函数的行为如何？

如果 a 和 c 都是正数，而 b 为 0，这里每个变量的行为看起来像一维的 x²，f 在(x[0], y[0])处有一个最小值。

如果我们反转所有符号，使 a 和 c 为负数，同样取 b = 0，二次函数将在该点具有最大值，就像-x² - y²在(0, 0)处一样。

但现在有第三种可能性，即鞍点。

鞍点是一个临界点，函数在某些方向上增加，在其他方向上下降。

有两个例子可以说明：在(0, 0)处的 x² - y²；以及在(0, 0)处的 xy。

第一个增加如果你远离原点移动到 |x| > |y| 的方向，否则不会增加。

当两个变量都具有相同的符号时，第二个增加，否则不会。

也有可能出现一些方向上函数增加（比如）而在另一些方向上是平坦的行为：就像在二维中的 x²。我不知道你应该如何称呼这种行为。与一维情况类似，当这种情况发生时，你必须查看导数 = 0 方向上的高阶导数，以了解你是否有一个真正的局部最大值或最小值。

练习 11.1 找到 (x - y - 1)xy 的临界点。它在那一点上的行为是什么？（你可以在 applet 中测试。）

在这个 applet 中，你可以输入具有鞍点的函数。这个名称的来源就变得清楚了。

11.2 临界点何时是最大值、最小值或鞍点？标准

我们已经看到，在两个维度上的临界点，一个函数可能有一个最小值，或者一个最大值，或者一个鞍点。

我们想知道如何从函数的公式确定将会发生什么。

我们特别关注函数在临界点的二次行为。

这种行为是由二阶导数决定的，也是二阶导数所确定的二次函数的行为。

所以我们真的想知道：给定一个没有线性项的二元二次函数，在原点时何时有最大值，何时有最小值，何时既不是？

答案如下：

我们可以将一个矩阵与函数关联起来，即其临界点的二阶偏导数矩阵，如上一节所定义。

二次函数的行为由该矩阵的特征值决定。

当它们是实数且为正时，你会得到一个最小值，当为负时，你会得到一个最大值，否则是一个鞍点，除非其中一个为 0，那么你会得到平坦。（这意味着对于一般函数，你必须查看这些方向上的高阶导数。）

为什么？

与特征值相对应的特征向量是基向量i和j的线性组合。它表示从临界点出发，二次函数在该方向上的行为类似于其特征值乘以该方向的距离。

因此，如果两个特征值都是实数且为正，函数将看起来像是 ax’² + by’²，其中 a 和 b 为正值，x’ 和 y’ 为适当方向上的坐标，我们的函数将有一个最小值。

另一方面，如果它们有相反的符号，函数会在一个方向上增加，在另一个方向上减少，我们将会得到一个鞍点。

如果存在复特征值呢？

不可能有！因为我们的矩阵是实的且对称的（记住混合偏导数与取偏导数的顺序无关），它的所有特征值都是实数。

而且，对应于不同特征值的特征向量总是彼此正交的！

这意味着二次函数的行为在原点处与 a’² + b’²完全相同，只是坐标轴可能沿着特征向量的方向旋转。

关于矩阵和特征值的相关性质的简要讨论见第三十二章。您可以用 applet 图形化地寻找二乘二特征值：矩阵乘向量。

在三维空间中会发生什么？

完全相同的陈述适用，只是现在我们有一个三乘三的对称二阶偏导数矩阵。

它的特征值将是实数，如果它们都是正数，你会得到一个最小值，如果它们都是负数，你会得到一个最大值。如果符号混合，你得到一个鞍点，如果某些特征向量为 0，则必须查看这些方向上的更高阶导数以确定发生了什么。同样，对应于不同特征值的特征向量将是正交的。

实际上，所有相同的陈述在任何有限维度中都成立。

练习 11.2 找出二次多项式 3x² + 2xy - xz + z² + y² 的第二部分矩阵的特征值。

为了确定是否有最大值或最小值，有必要知道二阶导数矩阵的特征值吗？

不需要！

您只需看特征方程式。如果它的所有可能项都存在并且符号交替，你得到一个最小值，如果它们都有相同的符号，你得到一个最大值，否则既不是最小值也不是最大值。

练习 11.3 怎么回事？

第十二章：导数的应用：直接使用线性近似

介绍

我们考虑将线性近似作为一种近似方法，并通过迭代使用它来确定逆函数以达到机器精度。

主题

12.1 使用线性近似估算函数值

12.2 通过迭代线性近似准确确定逆函数

12.3 此过程的电子表格实现

12.1 使用线性近似估算函数值

假设我们有一个函数 f，我们发现很难评估，但我们对它了解一些情况。我们希望尽可能利用我们所知道的东西来估计它在参数 x 处的值，知道它在某个参数 x[0] 处的值。

例如，假设我们想要评估 28 的立方根。

我们知道 27 的立方根是 3。

我们能做的最简单的事情就是进行“常数近似”，并将 28 的立方根近似为 3，好像立方根函数是一个常数。

如果我们想做得更好，接下来可以尝试的是应用线性近似。

f1 = f(x[0]) + (x-x[0])f '(x[0])

在我们的例子中，我们有 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/9cac12b02730143b7a4fa66f63620f56.jpg

对于立方根的线性近似，https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/71f75c9bc6c0b843096ddebf33453015.jpg 那么，对于 28 的立方根，我们有 https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/26f05d5553d5b239f37fa318a9430c10.jpg

给定任何我们知道 f(x[0]) 和 f '(x[0]) 的函数 f，我们可以立即评估这个近似值。使用它涉及假装函数 f 的图形是其在 x[0] 处的切线，而不是它实际的样子。

我们可以通过考虑 f 的二阶导数来判断这个近似值有多好。

请注意，f '在 27 和 28 之间的范围内是负的，这意味着该区间内的一阶导数在那里减小。在 27 处的切线上保持不变。

这意味着在 27 的切线线性近似上高估了该区间内 f 的变化，因此我们知道

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/7bad0a65970f981b8b21790298da50b5.jpg

我们还可以观察到 f 的三阶导数在问题的区间内是正的，因此二次近似也低估了二阶导数和所有较低导数的变化，因此它是 f(28) 的一个下界，我们得到

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/087ccbbf9ae5ac0bfe0dbba76e514d6e.jpg

在数值上，精确到小数点后六位，我们得到 3.03658 < f(28) < 3.03704；事实上，我们有 f(28) = 3.03659 的精度。

此处考虑的立方根函数是我们直接计算其逆函数的函数的逆函数，即立方函数。我们可以使用线性近似来计算任何这样的逆函数，以机器允许的精度，我们接下来将会看到的。

12.2 通过迭代线性近似准确确定逆函数

如何？

给定一对数字，（x[0]，f(x[0])），在 x[0]处定义的线性近似函数 fLx[0]允许我们计算 fLx0 作为对 f(x)的近似。

如果我们知道 f 的逆函数，我们可以计算 f^{(-1)(fLx0)，这给我们带来了一对新的数字，（f}(-1)(fLx0)，fLx0），我们可以称之为（x[1]，f(x[1])），然后重复（或迭代）此操作以产生 x[2]，然后 x[3]，…，直到收敛。

这在旧日里是一种非常乏味的过程，学生们根本无法忍受。现在对于电子表格来说，这简直易如反掌，我们可以为所有我们遇到的逆函数设置并计算，只需要几分钟的时间：这些函数包括根（x^(1/j)）、（自然）对数、arcsin 和 arctan。

还需要做什么？

在 x[j]处定义的线性近似函数 fLx[j]在 x 处的值由以下公式给出：

fLxj = f(x[j]) + f '(x[j]) (x - x[j])

设置这个，设置

x[j+1] = f^(-1) (fLxj)

只需进行迭代即可。

练习：

12.1 设置一个通用的根查找电子表格，以便您可以输入 x 和 j，它将使用这种方法来输出 x 的第 j 个根，其中计算机只计算整数次幂。（如何做到这一点的提示在下一节中。）

12.2 设置一个电子表格来使用计算机计算 exp x 的能力来查找 ln x。

12.3 对正弦和正切的逆函数做同样的操作。通常这些函数被写成 arcsine 和 arctangent 或 asin 或 atan 或介于两者之间的某个东西。

12.4 这种方法可能失败吗？如果是这样，为什么？

12.3 此过程的电子表格实现

你怎么能做到这样的事情？ 首先将 x 和 j 放在固定的位置 X 和 Y。

然后在电子表格上设置以下列：

f(x[j]):

在第一列中输入 f(x[j])的连续值，从第一个已知值开始。

对于根，您可以从 x[0]� = f(x[0]) = 1 开始。

通过使用在 x[j-1]处的切线的线性近似在参数 x 处评估的 x[j-1]或 f(x[j-1]) + f '(x[j-1]) (x-x[j-1])来计算后续值 f(x[j])。（x[j-1]是前一行中第二列中的条目。）

x[j]:

在第二列中应用逆函数，f^(-1)，到第一列中的值。

一旦你为 f(x[1])和 x[1]输入了指令，你可以将这些指令复制到一百行，然后完成任务。

如果 f 是一个根，x^(1/m)，会发生什么？

一般来说我们有

f(x[j]) = fLxj-1 = f(x[j-1]) + (x - x[j-1])f '(x[j-1])

�对于第 j 个根，�https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/c2394e979ecaeb208412b738fde18eb7.jpg，因此该公式简化为

https://gitee.com/OpenDocCN/cs-notes-zh/raw/master/docs/mit-18013a/img/a9b395b296e9be92aa38e95785ece242.jpg

那就是您需要输入的所有内容。剩下的就是复制。