# 从点积到内积空间:藏在线性代数、信号与AI背后的同一套语言
## 摘要
内积(Inner Product)是线性代数、泛函分析、信号处理、机器学习与量子力学中共用的核心代数结构。本文以"内积"为唯一主线,从有限维欧几里得空间中的点积出发,依次引入内积空间公理、正交分解、最小二乘投影、希尔伯特空间、傅里叶级数与变换、卷积、离散余弦变换、小波分析、自注意力机制、核方法以及量子力学中的态矢量投影,揭示这些看似分属不同学科的概念在数学结构上的统一性:定义内积 → 建立正交基 → 投影分解 → 提取信息。本文旨在为读者提供一张贯穿数学、工程与物理的认知图谱。
## 前言 万物皆投影
数学与工程科学中存在着一个反复出现的模式:将一个复杂对象分解为若干"基本成分"的线性组合,而分解的工具正是投影(projection)。投影操作的本质是内积——一种度量"相似性"的二元运算。从傅里叶分析中将信号分解为不同频率的正弦波,到最小二乘法中寻找数据的最佳拟合直线,再到量子力学中测量处于叠加态的粒子,这些过程共享同一套数学语言:**定义内积 → 建立正交基 → 投影 → 正交分解 → 提取信息**。
本文的目标是系统性地阐明这一统一框架。我们将从最熟悉的向量点积出发,逐步抽象至内积空间与希尔伯特空间,并展示这一结构如何在微积分、信号处理、人工智能与量子力学中反复出现。读者无需预先具备泛函分析背景,只需掌握基本的线性代数与微积分知识。
---
## 第一章 内积的本体 —— 度量相似性的基本运算
### 1.1 理论与严格定义
内积(Inner Product)的概念起源于欧几里得几何中的点积(Dot Product),但其数学内涵在泛函分析中得到了极大的推广。本节从有限维情形出发,逐步建立内积的严格定义。
```ad-definition
title: 定义 1.1 点积 (Dot Product)
设 $\mathbb{R}^n$ 为 $n$ 维实欧几里得空间。对于任意两个向量 $\mathbf{a} = (a_1, a_2, \dots, a_n)$ 与 $\mathbf{b} = (b_1, b_2, \dots, b_n)$,其点积定义为对应分量乘积之和$^{[1]}$:
$$
\langle \mathbf{a}, \mathbf{b} \rangle = \mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i b_i.
\tag{1.1}
$$
点积是一个将两个向量映射为一个标量的二元运算。其几何解释由余弦定理给出:
$$
\mathbf{a} \cdot \mathbf{b} = \|\mathbf{a}\| \|\mathbf{b}\| \cos\theta,
\tag{1.2}
$$
其中 $\|\mathbf{a}\| = \sqrt{\langle \mathbf{a}, \mathbf{a} \rangle}$ 为向量的欧几里得范数($L_2$ 范数),$\theta$ 为两向量之间的夹角。
```
```ad-definition
title: 定义 1.2 内积空间 (Inner Product Space)
设 $V$ 为域 $\mathbb{F}$($\mathbb{R}$ 或 $\mathbb{C}$)上的向量空间。映射 $\langle \cdot, \cdot \rangle: V \times V \to \mathbb{F}$ 称为一个内积,若其满足以下三条公理$^{[8][9]}$:
1. **共轭对称性(Conjugate Symmetry)**:$\langle \mathbf{u}, \mathbf{v} \rangle = \overline{\langle \mathbf{v}, \mathbf{u} \rangle}$,其中上划线表示复共轭。对于实向量空间,退化为对称性 $\langle \mathbf{u}, \mathbf{v} \rangle = \langle \mathbf{v}, \mathbf{u} \rangle$。
2. **对第一变元的线性性(Linearity in the First Argument)**:$\langle \alpha\mathbf{u} + \beta\mathbf{v}, \mathbf{w} \rangle = \alpha\langle \mathbf{u}, \mathbf{w} \rangle + \beta\langle \mathbf{v}, \mathbf{w} \rangle$,对任意 $\alpha, \beta \in \mathbb{F}$ 成立。
3. **正定性(Positive Definiteness)**:$\langle \mathbf{v}, \mathbf{v} \rangle \geq 0$,且 $\langle \mathbf{v}, \mathbf{v} \rangle = 0$ 当且仅当 $\mathbf{v} = \mathbf{0}$。
由内积可诱导出范数 $\|\mathbf{v}\| = \sqrt{\langle \mathbf{v}, \mathbf{v} \rangle}$,进而诱导出度量 $d(\mathbf{u}, \mathbf{v}) = \|\mathbf{u} - \mathbf{v}\|$。因此,内积空间自然是一个赋范空间,进而是一个度量空间。
```
```ad-theorem
title: 定理 1.1 柯西-施瓦茨不等式 (Cauchy–Schwarz Inequality)
对内积空间 $V$ 中的任意向量 $\mathbf{u}, \mathbf{v}$,有
$$
|\langle \mathbf{u}, \mathbf{v} \rangle| \leq \|\mathbf{u}\| \|\mathbf{v}\|,
\tag{1.3}
$$
等号成立当且仅当 $\mathbf{u}$ 与 $\mathbf{v}$ 线性相关。该不等式是内积空间中最基本的不等式,它保证了夹角 $\theta$ 的定义 $\cos\theta = \langle \mathbf{u}, \mathbf{v} \rangle / (\|\mathbf{u}\|\|\mathbf{v}\|)$ 的取值始终落在 $[-1, 1]$ 区间内。
```
### 1.2 几何与空间图像
内积的几何直观可以用"投影"来理解。给定向量 $\mathbf{a}$ 与 $\mathbf{b}$,$\mathbf{a}$ 在 $\mathbf{b}$ 方向上的标量投影(scalar projection)为
$$
\text{comp}_{\mathbf{b}} \mathbf{a} = \|\mathbf{a}\| \cos\theta = \frac{\langle \mathbf{a}, \mathbf{b} \rangle}{\|\mathbf{b}\|}.
\tag{1.4}
$$
该值度量了 $\mathbf{a}$ 在 $\mathbf{b}$ 方向上的"分量大小"。内积 $\langle \mathbf{a}, \mathbf{b} \rangle$ 则可视为该投影长度乘以 $\|\mathbf{b}\|$,即"投影长度 × 基座长度"$^{[10]}$。
当 $\langle \mathbf{a}, \mathbf{b} \rangle = 0$ 时,称 $\mathbf{a}$ 与 $\mathbf{b}$ **正交(orthogonal)**,此时 $\mathbf{a}$ 在 $\mathbf{b}$ 方向上的投影为零。正交意味着两个向量在方向上完全独立,互不包含对方的信息。
若将向量归一化(即除以自身范数),则内积退化为夹角余弦:
$$
\cos\theta = \frac{\langle \mathbf{a}, \mathbf{b} \rangle}{\|\mathbf{a}\| \|\mathbf{b}\|}.
\tag{1.5}
$$
该量称为**余弦相似度(Cosine Similarity)**$^{[13]}$,它消除了向量尺度的影响,纯粹度量方向上的相似性,在信息检索与自然语言处理中有着广泛应用。
### 1.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 1.1 高维向量的点积与投影
给定四维空间中的向量 $\mathbf{a} = (1, 2, 3, 4)$ 和 $\mathbf{b} = (2, 0, -1, 3)$,计算:(1) 点积;(2) 各自的范数;(3) $\mathbf{a}$ 在 $\mathbf{b}$ 上的标量投影;(4) 余弦相似度。
**解** (1) 由定义 (1.1):
$$
\langle \mathbf{a}, \mathbf{b} \rangle = 1\times 2 + 2\times 0 + 3\times (-1) + 4\times 3 = 2 + 0 - 3 + 12 = 11.
$$
(2) 范数计算:
$$
\|\mathbf{a}\| = \sqrt{1^2 + 2^2 + 3^2 + 4^2} = \sqrt{30}, \quad
\|\mathbf{b}\| = \sqrt{2^2 + 0^2 + (-1)^2 + 3^2} = \sqrt{14}.
$$
(3) 标量投影由 (1.4) 给出:
$$
\text{comp}_{\mathbf{b}} \mathbf{a} = \frac{\langle \mathbf{a}, \mathbf{b} \rangle}{\|\mathbf{b}\|} = \frac{11}{\sqrt{14}} \approx 2.940.
$$
(4) 余弦相似度由 (1.5) 给出:
$$
\cos\theta = \frac{11}{\sqrt{30 \times 14}} = \frac{11}{\sqrt{420}} \approx 0.5367.
$$
该结果表明 $\mathbf{a}$ 与 $\mathbf{b}$ 在四维空间中呈约 $57.5^\circ$ 的夹角,具有中等程度的正相关性。
```
```ad-example
title: 例题 1.2 连续函数的内积:交流电路的平均功率
在交流电路中,电压 $v(t) = V_m\cos(\omega t)$ 与电流 $i(t) = I_m\cos(\omega t + \phi)$ 之间存在相位差 $\phi$。求一个完整周期 $T = 2\pi/\omega$ 内的平均功率。
**解** 平均功率的物理定义为电压与电流乘积在一个周期内的均值,数学上即二者在 $L^2[0,T]$ 空间中的内积(除以周期长度):
$$
P = \frac{1}{T} \int_0^T v(t) i(t) \, dt.
\tag{1.6}
$$
代入表达式:
$$
P = \frac{1}{T} \int_0^T V_m I_m \cos(\omega t) \cos(\omega t + \phi) \, dt.
$$
利用积化和差公式 $\cos\alpha \cos\beta = \frac{1}{2}[\cos(\alpha+\beta) + \cos(\alpha-\beta)]$:
$$
P = \frac{V_m I_m}{2T} \int_0^T [\cos(2\omega t + \phi) + \cos(-\phi)] \, dt.
$$
由于 $\cos(-\phi) = \cos\phi$,且 $\int_0^T \cos(2\omega t + \phi) dt = 0$(正弦函数在完整周期上的积分为零),可得:
$$
P = \frac{V_m I_m}{2T} \cdot T \cos\phi = \frac{1}{2} V_m I_m \cos\phi.
\tag{1.7}
$$
式 (1.7) 中的 $\cos\phi$ 称为**功率因数(power factor)**。当电压与电流同相($\phi = 0$)时,$\cos\phi = 1$,平均功率达到最大值;当二者正交($\phi = \pi/2$)时,$\cos\phi = 0$,平均功率为零。这一结果揭示了交流电路中有功功率与无功功率的数学本质:只有同相分量(即内积非零的分量)才产生净能量传递。
```
### 1.4 工程与前沿应用
内积最基本的工程应用之一出现在自然语言处理中。**词嵌入(Word Embedding)**$^{[21]}$ 技术将每个单词映射为 $\mathbb{R}^d$ 空间中的一个稠密向量,使得语义相近的词在向量空间中彼此靠近。两个词之间的语义相似度通常用余弦相似度 (1.5) 来度量。
图 1 展示了五个英文单词的 $5 \times 5$ 余弦相似度热力图,由本文附带的 main.py 代码生成。图中可见,`king` 与 `queen` 的余弦相似度较高(接近 $0.92$),而 `king` 与 `apple` 的余弦相似度较低(约 $0.10$),这一定量结果与人类的语义直觉高度一致。

**图 1:词向量的余弦相似度热力图。** 图中每个单元格 $(i,j)$ 表示第 $i$ 个词与第 $j$ 个词的词向量之间的余弦相似度。颜色越暖(接近 1)表示语义越相近,颜色越冷(接近 0)表示语义越无关。该图由 main.py 中的随机词向量模拟生成。
余弦相似度在推荐系统、信息检索、文本分类等任务中均有广泛应用。其核心思想始终如一:将非结构化数据嵌入向量空间,用内积度量相似性,再基于相似性进行检索或排序。
---
## 第二章 正交与正交补空间 —— 独立性的代数刻画
### 2.1 理论与严格定义
内积提供了度量向量间"相似度"的工具。当两个向量的内积为零时,它们在方向上完全独立,这一性质称为**正交(orthogonality)**。
```ad-definition
title: 定义 2.1 正交
设 $V$ 为内积空间。若 $\langle \mathbf{u}, \mathbf{v} \rangle = 0$,则称向量 $\mathbf{u}$ 与 $\mathbf{v}$ 正交,记作 $\mathbf{u} \perp \mathbf{v}$。
```
```ad-definition
title: 定义 2.2 正交补 (Orthogonal Complement)
设 $W$ 为内积空间 $V$ 的子空间。$W$ 的正交补定义为$^{[2]}$
$$
W^\perp = \{ \mathbf{v} \in V \mid \langle \mathbf{v}, \mathbf{w} \rangle = 0,\ \forall \mathbf{w} \in W \}.
\tag{2.1}
$$
$W^\perp$ 是 $V$ 的一个子空间,且 $W \cap W^\perp = \{\mathbf{0}\}$。
```
```ad-theorem
title: 定理 2.1 正交分解定理 (Orthogonal Decomposition Theorem)
设 $W$ 为内积空间 $V$ 的有限维子空间。则对任意 $\mathbf{x} \in V$,存在唯一的分解
$$
\mathbf{x} = \mathbf{x}_W + \mathbf{x}_{W^\perp},
\tag{2.2}
$$
其中 $\mathbf{x}_W \in W$,$\mathbf{x}_{W^\perp} \in W^\perp$,且 $\langle \mathbf{x}_W, \mathbf{x}_{W^\perp} \rangle = 0$。
向量 $\mathbf{x}_W$ 称为 $\mathbf{x}$ 在 $W$ 上的**正交投影(orthogonal projection)**,记作 $\operatorname{proj}_W \mathbf{x}$。该分解的唯一性由内积的正定性保证。
```
```ad-theorem
title: 定理 2.2 投影算子
若 $\{\mathbf{w}_1, \dots, \mathbf{w}_k\}$ 是 $W$ 的一组标准正交基,则 $\mathbf{x}$ 在 $W$ 上的正交投影可显式表示为
$$
\operatorname{proj}_W \mathbf{x} = \sum_{i=1}^k \langle \mathbf{x}, \mathbf{w}_i \rangle \mathbf{w}_i.
\tag{2.3}
$$
式 (2.3) 是内积理论中最重要的公式之一:它表明投影系数正是内积本身。
```
### 2.2 几何与空间图像
正交的几何意义是"独立性"。在 $\mathbb{R}^3$ 中,给定一张过原点的平面 $W$,其正交补 $W^\perp$ 是垂直于该平面的直线。空间中任意向量 $\mathbf{x}$ 可唯一地分解为平面内的分量与法线方向的分量,二者相互垂直、互不包含对方的信息。
这一概念可以推广至函数空间:若两个函数在某个区间上的内积为零,则称它们在 $L^2$ 意义下正交。例如,$\sin(mx)$ 与 $\sin(nx)$($m \neq n$)在 $[0, 2\pi]$ 上正交,这意味着它们作为"信号"互不干扰——这正是频分复用技术的数学基础。
### 2.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 2.1 正交补与正交分解
在 $\mathbb{R}^3$ 中,给定子空间 $W = \operatorname{span}\{\mathbf{v}_1, \mathbf{v}_2\}$,其中
$$
\mathbf{v}_1 = \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix},\quad
\mathbf{v}_2 = \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix}.
$$
对向量 $\mathbf{x} = \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix}$,求其正交分解 $\mathbf{x} = \mathbf{x}_W + \mathbf{x}_{W^\perp}$。
**解** 第一步:求 $W^\perp$ 的基。设 $\mathbf{n} = (n_1, n_2, n_3)^T \in W^\perp$,则 $\langle \mathbf{n}, \mathbf{v}_1 \rangle = \langle \mathbf{n}, \mathbf{v}_2 \rangle = 0$:
$$
\begin{cases}
n_1 + n_2 = 0, \\
n_1 + n_3 = 0.
\end{cases}
$$
解得 $n_2 = n_3 = -n_1$。取 $n_1 = 1$,得 $\mathbf{n} = (1, -1, -1)^T$,故 $W^\perp = \operatorname{span}\{\mathbf{n}\}$。
第二步:求 $\mathbf{x}$ 在 $W^\perp$ 上的投影。由投影公式 (2.3):
$$
\mathbf{x}_{W^\perp} = \operatorname{proj}_{\mathbf{n}} \mathbf{x} = \frac{\langle \mathbf{x}, \mathbf{n} \rangle}{\|\mathbf{n}\|^2} \mathbf{n}.
$$
计算内积:$\langle \mathbf{x}, \mathbf{n} \rangle = 2\times 1 + 3\times(-1) + 4\times(-1) = -5$。
计算范数平方:$\|\mathbf{n}\|^2 = 1^2 + (-1)^2 + (-1)^2 = 3$。
因此:
$$
\mathbf{x}_{W^\perp} = \frac{-5}{3} \begin{bmatrix} 1 \\ -1 \\ -1 \end{bmatrix} = \begin{bmatrix} -5/3 \\ 5/3 \\ 5/3 \end{bmatrix}.
$$
第三步:求 $\mathbf{x}$ 在 $W$ 上的投影。由正交分解定理 (2.2):
$$
\mathbf{x}_W = \mathbf{x} - \mathbf{x}_{W^\perp} = \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} - \begin{bmatrix} -5/3 \\ 5/3 \\ 5/3 \end{bmatrix} = \begin{bmatrix} 11/3 \\ 4/3 \\ 7/3 \end{bmatrix}.
$$
第四步:验证 $\mathbf{x}_W \in W$。求解 $\alpha, \beta$ 使得 $\mathbf{x}_W = \alpha\mathbf{v}_1 + \beta\mathbf{v}_2$:
$$
\begin{bmatrix} \alpha + \beta \\ \alpha \\ \beta \end{bmatrix} = \begin{bmatrix} 11/3 \\ 4/3 \\ 7/3 \end{bmatrix} \implies \alpha = \frac{4}{3},\ \beta = \frac{7}{3}.
$$
验证通过。同时可验证 $\langle \mathbf{x}_W, \mathbf{x}_{W^\perp} \rangle = 0$,确认分解的正交性。
```
### 2.4 工程与前沿应用
正交补的概念在通信工程中有着直接应用。**Gram-Schmidt 正交化算法**$^{[3]}$ 正是基于正交分解的思想:给定一组线性无关的向量,通过逐次减去已处理方向上的投影分量,构造出一组标准正交基。该算法是 QR 分解的理论基础。
在 5G 毫米波通信的波束成形(beamforming)设计中,需要将发射信号向量置于其他用户信号子空间的正交补中,从而在理论上实现零干扰——只要信号向量与干扰子空间正交,无论发射功率多大,都不会对相邻用户产生干扰。
---
## 第三章 最小二乘法(线性代数视角) —— 不可解方程的最优近似
### 3.1 理论与严格定义
在实际工程问题中,我们经常遇到**超定系统(overdetermined system)**:方程个数多于未知数个数的线性系统 $A\mathbf{x} = \mathbf{b}$,其中 $A \in \mathbb{R}^{m \times n}$,$m > n$。这样的系统通常不存在精确解,因为 $\mathbf{b}$ 不在 $A$ 的列空间 $\operatorname{Col}(A)$ 中。
```ad-definition
title: 定义 3.1 最小二乘问题
对于 $A \in \mathbb{R}^{m \times n}$($m > n$)和 $\mathbf{b} \in \mathbb{R}^m$,最小二乘问题为
$$
\min_{\mathbf{x} \in \mathbb{R}^n} \| A\mathbf{x} - \mathbf{b} \|^2.
\tag{3.1}
$$
该问题的几何解释是:在 $A$ 的列空间中寻找与 $\mathbf{b}$ 距离最近的向量 $\hat{\mathbf{b}} = A\hat{\mathbf{x}}$。
```
```ad-theorem
title: 定理 3.1 正规方程 (Normal Equation)
最小二乘问题 (3.1) 的解 $\hat{\mathbf{x}}$ 满足
$$
A^T A \hat{\mathbf{x}} = A^T \mathbf{b}.
\tag{3.2}
$$
**证明** 设 $\mathbf{r}(\mathbf{x}) = \mathbf{b} - A\mathbf{x}$ 为残差向量。由正交分解定理,$\hat{\mathbf{b}} = A\hat{\mathbf{x}}$ 是 $\mathbf{b}$ 在 $\operatorname{Col}(A)$ 上的正交投影当且仅当残差 $\mathbf{r}(\hat{\mathbf{x}})$ 垂直于 $\operatorname{Col}(A)$,即
$$
\langle A\mathbf{y}, \mathbf{r}(\hat{\mathbf{x}}) \rangle = 0, \quad \forall \mathbf{y} \in \mathbb{R}^n.
$$
等价地,$A^T \mathbf{r}(\hat{\mathbf{x}}) = \mathbf{0}$,即 $A^T(\mathbf{b} - A\hat{\mathbf{x}}) = \mathbf{0}$,整理即得 (3.2)。$\square$
当 $A$ 列满秩时,$A^T A$ 可逆,解可显式写为
$$
\hat{\mathbf{x}} = (A^T A)^{-1} A^T \mathbf{b}.
\tag{3.3}
$$
```
### 3.2 几何与空间图像
最小二乘法的几何本质如图 2 所示。数据向量 $\mathbf{b}$ 位于高维空间 $\mathbb{R}^m$ 中,而模型的可达集 $\operatorname{Col}(A)$ 是 $\mathbb{R}^m$ 的一个 $n$ 维子空间。由于 $\mathbf{b}$ 通常不在该子空间内,我们无法精确求解 $A\mathbf{x} = \mathbf{b}$。最优策略是将 $\mathbf{b}$ 正交投影到 $\operatorname{Col}(A)$ 上,得到 $\hat{\mathbf{b}}$,再反解系数 $\hat{\mathbf{x}}$。
残差向量 $\mathbf{e} = \mathbf{b} - \hat{\mathbf{b}}$ 垂直于 $\operatorname{Col}(A)$,即 $\mathbf{e} \perp \operatorname{Col}(A)$。这一正交条件 $A^T \mathbf{e} = \mathbf{0}$ 正是正规方程 (3.2) 的等价表述。
### 3.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 3.1 线性回归的最小二乘解
给定三个数据点 $(1,2), (2,3), (3,5)$,求最佳拟合直线 $y = kx + c$。
**解** 将问题写为矩阵形式 $A\mathbf{x} = \mathbf{b}$:
$$
\begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} k \\ c \end{bmatrix} = \begin{bmatrix} 2 \\ 3 \\ 5 \end{bmatrix}.
$$
由于 $3 > 2$,该系统超定,无精确解。使用正规方程 (3.2)。
第一步:计算 $A^T A$:
$$
A^T A = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} = \begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix}.
$$
第二步:计算 $A^T \mathbf{b}$:
$$
A^T \mathbf{b} = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 2 \\ 3 \\ 5 \end{bmatrix} = \begin{bmatrix} 23 \\ 10 \end{bmatrix}.
$$
第三步:求解正规方程:
$$
\begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix} \begin{bmatrix} k \\ c \end{bmatrix} = \begin{bmatrix} 23 \\ 10 \end{bmatrix}.
$$
由第二行得 $6k + 3c = 10$,即 $c = (10 - 6k)/3$。代入第一行:
$$
14k + 6 \cdot \frac{10 - 6k}{3} = 23 \implies 14k + 20 - 12k = 23 \implies 2k = 3 \implies k = \frac{3}{2}.
$$
回代得 $c = \frac{10 - 9}{3} = \frac{1}{3}$。因此最佳拟合直线为
$$
y = \frac{3}{2}x + \frac{1}{3}.
\tag{3.4}
$$
第四步:验证正交性。计算拟合值 $\hat{\mathbf{b}} = A\hat{\mathbf{x}}$ 和残差 $\mathbf{e}$:
$$
\hat{\mathbf{b}} = \begin{bmatrix} 1\times 1.5 + 1/3 \\ 2\times 1.5 + 1/3 \\ 3\times 1.5 + 1/3 \end{bmatrix} = \begin{bmatrix} 11/6 \\ 10/3 \\ 29/6 \end{bmatrix},\quad
\mathbf{e} = \mathbf{b} - \hat{\mathbf{b}} = \begin{bmatrix} 1/6 \\ -1/3 \\ 1/6 \end{bmatrix}.
$$
验证 $A^T \mathbf{e} = \mathbf{0}$:
$$
A^T \mathbf{e} = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1/6 \\ -1/3 \\ 1/6 \end{bmatrix} = \begin{bmatrix} 1/6 - 2/3 + 3/6 \\ 1/6 - 1/3 + 1/6 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}.
$$
正交条件满足,确认 $\hat{\mathbf{b}}$ 是 $\mathbf{b}$ 在 $\operatorname{Col}(A)$ 上的正交投影。
```
### 3.4 工程与前沿应用
最小二乘法是统计学中**回归分析(Regression Analysis)**$^{[5][25]}$ 的基础。图 2 展示了上述例题的几何直观:黑色圆点为原始数据点,红色直线为最小二乘拟合结果,灰色虚线表示残差(即 $\mathbf{b}$ 到 $\operatorname{Col}(A)$ 的垂直距离)。

**图 2:最小二乘法的几何直观。** 黑色圆点为数据点,红色直线为拟合结果。残差向量 $\mathbf{e}$ 垂直于列空间 $\operatorname{Col}(A)$,正交性条件 $A^T \mathbf{e} = \mathbf{0}$ 的数值验证结果为 $\|A^T \mathbf{e}\|_2 \approx 1.92 \times 10^{-14}$(由 main.py) 计算),在浮点精度范围内为零。
最小二乘法在工程中有着广泛应用:卡尔曼滤波的测量更新步骤、系统辨识中的参数估计、机器学习中的线性回归模型,其核心均可归结为求解正规方程 (3.2)。
---
## 第四章 从有限维走向无限维 —— 函数作为向量
### 4.1 理论与严格定义
前几章讨论的内积均局限于有限维欧几里得空间 $\mathbb{R}^n$。然而,内积的概念可以自然地推广到无限维函数空间。这一推广是泛函分析的核心内容,也是连接线性代数与信号处理、量子力学的桥梁。
```ad-definition
title: 定义 4.1 $L^2$ 内积
设 $f, g: [a, b] \to \mathbb{R}$ 为平方可积函数,即 $\int_a^b [f(x)]^2 dx < \infty$。定义其内积为
$$
\langle f, g \rangle = \int_a^b f(x) g(x) \, dx.
\tag{4.1}
$$
该内积诱导的范数为
$$
\|f\| = \sqrt{\langle f, f \rangle} = \sqrt{\int_a^b [f(x)]^2 \, dx},
\tag{4.2}
$$
称为 $L^2$ 范数,物理上常解释为信号的"能量"。
```
```ad-definition
title: 定义 4.2 希尔伯特空间 (Hilbert Space)
完备的内积空间称为希尔伯特空间$^{[6][8]}$。具体而言,希尔伯特空间 $\mathcal{H}$ 是一个内积空间,其中任意柯西序列均在 $\mathcal{H}$ 中收敛(即空间是完备的)。
有限维内积空间 $\mathbb{R}^n$ 是希尔伯特空间的特例。无限维的例子包括 $L^2[a,b]$(平方可积函数空间)和 $\ell^2$(平方可和序列空间)。希尔伯特空间的完备性保证了傅里叶级数等无穷级数展开的收敛性。
```
```ad-theorem
title: 定理 4.1 $L^2$ 空间中的柯西-施瓦茨不等式
对 $L^2[a,b]$ 中的任意函数 $f, g$,有
$$
\left| \int_a^b f(x) g(x) \, dx \right| \leq \sqrt{\int_a^b [f(x)]^2 \, dx} \cdot \sqrt{\int_a^b [g(x)]^2 \, dx}.
\tag{4.3}
$$
```
### 4.2 几何与空间图像
将函数视为向量的关键在于理解"逐点对应"的思想。在 $\mathbb{R}^n$ 中,向量 $\mathbf{v} = (v_1, \dots, v_n)$ 的第 $i$ 个分量 $v_i$ 对应于第 $i$ 个坐标轴上的取值。在函数空间中,每个 $x \in [a,b]$ 对应一个独立的"坐标轴",函数值 $f(x)$ 即为该坐标轴上的分量。因此,函数 $f$ 本质上是一个具有不可数无穷多个分量的向量。
两个函数正交($\langle f, g \rangle = 0$)意味着它们在 $L^2$ 意义下"互不包含对方的成分"。这一概念在信号处理中具有深刻的物理含义:正交的信号可以在同一信道中传输而互不干扰。
### 4.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 4.1 函数空间中的正交性与距离度量
在区间 $[-1, 1]$ 上,给定 $f(x) = x$ 和 $g(x) = x^2$。判断它们是否正交,并计算各自的范数及函数间距离。
**解** (1) 计算内积:
$$
\langle f, g \rangle = \int_{-1}^{1} x \cdot x^2 \, dx = \int_{-1}^{1} x^3 \, dx = \left[ \frac{x^4}{4} \right]_{-1}^{1} = \frac{1}{4} - \frac{1}{4} = 0.
$$
因此 $\langle f, g \rangle = 0$,$f$ 与 $g$ 在 $[-1,1]$ 上正交。原因是 $x^3$ 为奇函数,在对称区间上积分为零。
(2) 计算范数:
$$
\|f\| = \sqrt{\int_{-1}^{1} x^2 \, dx} = \sqrt{\left[ \frac{x^3}{3} \right]_{-1}^{1}} = \sqrt{\frac{2}{3}} \approx 0.8165,
$$
$$
\|g\| = \sqrt{\int_{-1}^{1} x^4 \, dx} = \sqrt{\left[ \frac{x^5}{5} \right]_{-1}^{1}} = \sqrt{\frac{2}{5}} \approx 0.6325.
$$
(3) 计算函数间距离:
$$
\|f - g\|^2 = \int_{-1}^{1} (x - x^2)^2 \, dx = \int_{-1}^{1} (x^2 - 2x^3 + x^4) \, dx = \frac{2}{3} + 0 + \frac{2}{5} = \frac{16}{15},
$$
故 $d(f, g) = \|f - g\| = \sqrt{16/15} \approx 1.0328$。
该例题表明:奇函数与偶函数在对称区间上天然正交。这一性质在傅里叶分析中至关重要——它保证了正弦基与余弦基之间的正交性。
```
### 4.4 工程与前沿应用
函数内积在工程中最直接的应用是**匹配滤波(Matched Filter)**。在雷达和通信系统中,接收信号 $r(t)$ 与发射模板 $s(t)$ 的内积
$$
\langle r, s \rangle = \int_{-\infty}^{\infty} r(t) s(t) \, dt
$$
用于检测目标是否存在。当回波中存在目标反射时,内积值显著增大。这本质上是函数空间中的"相似度检测"。
此外,**核方法(Kernel Methods)**$^{[22]}$ 的核心思想是将数据点映射到再生核希尔伯特空间(RKHS),在该无限维空间中计算内积,从而隐式地实现高维特征变换。我们将在第十二章深入探讨。
---
## 第五章 三角函数正交性 —— 频率域的基函数
### 5.1 理论与严格定义
在希尔伯特空间 $L^2[-\pi, \pi]$ 中,三角函数系构成一组重要的正交基。考虑函数集合
$$
\{1,\ \sin x,\ \cos x,\ \sin 2x,\ \cos 2x,\ \dots,\ \sin nx,\ \cos nx,\ \dots\}.
$$
```ad-theorem
title: 定理 5.1 三角函数的正交性
在区间 $[-\pi, \pi]$ 上,三角函数系满足以下正交关系$^{[4]}$:
$$
\int_{-\pi}^{\pi} \sin(mx) \cos(nx) \, dx = 0, \quad \forall m, n,
\tag{5.1}
$$
$$
\int_{-\pi}^{\pi} \sin(mx) \sin(nx) \, dx = 0, \quad m \neq n,
\tag{5.2}
$$
$$
\int_{-\pi}^{\pi} \cos(mx) \cos(nx) \, dx = 0, \quad m \neq n.
\tag{5.3}
$$
同频率的自内积非零:
$$
\int_{-\pi}^{\pi} \sin^2(nx) \, dx = \pi, \quad
\int_{-\pi}^{\pi} \cos^2(nx) \, dx = \pi.
\tag{5.4}
$$
**证明** 这些关系可由三角函数的积化和差公式直接导出。例如,对 (5.2):
$$
\sin(mx)\sin(nx) = \frac{1}{2}[\cos((m-n)x) - \cos((m+n)x)].
$$
当 $m \neq n$ 时,$\cos((m-n)x)$ 和 $\cos((m+n)x)$ 在 $[-\pi, \pi]$ 上的积分均为零。$\square$
```
### 5.2 几何与空间图像
三角函数正交性的几何意义是:不同频率的正弦波和余弦波在 $L^2$ 空间中相互垂直。这意味着它们作为"信号"互不干扰——这正是频分复用技术的数学基础。
在通信系统中,不同用户的数据可以调制到相互正交的载波上同时传输,接收端通过内积运算即可分离各路信号,即使它们在时域上完全重叠。这一原理在现代无线通信的**频域(Frequency Domain)**$^{[16]}$ 分析中居于核心地位。
### 5.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 5.1 三角函数正交性的手工验证
在 $[-\pi, \pi]$ 上验证以下三组内积。
**情形 A:$\langle \sin(2x), \cos(3x) \rangle$**
$$
\langle \sin(2x), \cos(3x) \rangle = \int_{-\pi}^{\pi} \sin(2x)\cos(3x) \, dx.
$$
由积化和差 $\sin\alpha\cos\beta = \frac{1}{2}[\sin(\alpha+\beta) + \sin(\alpha-\beta)]$:
$$
\sin(2x)\cos(3x) = \frac{1}{2}[\sin(5x) + \sin(-x)] = \frac{1}{2}[\sin(5x) - \sin(x)].
$$
由于 $\int_{-\pi}^{\pi} \sin(kx) \, dx = 0$ 对任意整数 $k$ 成立,故
$$
\langle \sin(2x), \cos(3x) \rangle = \frac{1}{2} \times 0 - \frac{1}{2} \times 0 = 0.
$$
**情形 B:$\langle \sin(2x), \sin(3x) \rangle$**
由 $\sin\alpha\sin\beta = \frac{1}{2}[\cos(\alpha-\beta) - \cos(\alpha+\beta)]$:
$$
\sin(2x)\sin(3x) = \frac{1}{2}[\cos(-x) - \cos(5x)] = \frac{1}{2}[\cos(x) - \cos(5x)].
$$
由于 $\int_{-\pi}^{\pi} \cos(kx) \, dx = 0$ 对 $k \neq 0$ 成立,故
$$
\langle \sin(2x), \sin(3x) \rangle = \frac{1}{2} \times 0 - \frac{1}{2} \times 0 = 0.
$$
**情形 C:$\langle \sin(2x), \sin(2x) \rangle$(自内积)**
利用倍角公式 $\sin^2\theta = (1 - \cos 2\theta)/2$:
$$
\langle \sin(2x), \sin(2x) \rangle = \int_{-\pi}^{\pi} \frac{1 - \cos(4x)}{2} \, dx = \frac{1}{2} \cdot 2\pi - 0 = \pi.
$$
该结果说明 $\|\sin(2x)\| = \sqrt{\pi}$,这正是傅里叶级数中系数分母出现 $\pi$ 的原因。
```
### 5.4 工程与前沿应用
**正交频分复用(OFDM)** 是现代 4G/5G 无线通信的核心技术$^{[16]}$。它将高速数据流分割为多个低速子流,分别调制到相互正交的子载波上并行传输。由于子载波间的正交性
$$
\int_0^T \sin(2\pi f_k t) \cdot \sin(2\pi f_l t) \, dt = 0, \quad k \neq l,
$$
接收端可通过内积运算完美分离各子载波信号,即使它们在频谱上严重重叠。这极大地提高了频谱利用率。
---
## 第六章 傅里叶级数与傅里叶变换 —— 函数在三角基上的投影
### 6.1 理论与严格定义
三角函数系的正交性使得我们可以将任意周期函数分解为不同频率三角函数的线性组合。这一分解称为**傅里叶级数(Fourier Series)**$^{[11]}$。
```ad-theorem
title: 定理 6.1 傅里叶级数
设 $f(t)$ 是以 $2\pi$ 为周期的平方可积函数,则其傅里叶级数展开为
$$
f(t) = \frac{a_0}{2} + \sum_{n=1}^{\infty} [a_n \cos(nt) + b_n \sin(nt)],
\tag{6.1}
$$
其中系数由内积给出:
$$
a_0 = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \, dt,
\tag{6.2}
$$
$$
a_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \cos(nt) \, dt = \frac{\langle f, \cos(nt) \rangle}{\|\cos(nt)\|^2},
\tag{6.3}
$$
$$
b_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \sin(nt) \, dt = \frac{\langle f, \sin(nt) \rangle}{\|\sin(nt)\|^2}.
\tag{6.4}
$$
式 (6.3)-(6.4) 揭示了傅里叶系数的本质:它们就是函数 $f$ 在各三角基上的投影系数(内积除以基的范数平方),与有限维向量在正交基上的坐标计算完全一致。
当周期 $T \to \infty$ 时,傅里叶级数过渡为**傅里叶变换(Fourier Transform)**$^{[12]}$:
$$
X(f) = \int_{-\infty}^{\infty} x(t) e^{-j2\pi ft} \, dt = \langle x(t), e^{j2\pi ft} \rangle.
\tag{6.5}
$$
傅里叶变换将时域函数 $x(t)$ 投影到复指数基 $e^{j2\pi ft}$ 上,得到频域表示 $X(f)$。
```
### 6.2 几何与空间图像
傅里叶变换的几何本质是"探针"思想:用不同频率的复指数振荡作为探针,与待分析信号做内积。若信号包含某频率成分,则内积值较大(产生频谱峰值);若不包含,则内积值接近于零。频谱图上的每一个峰,对应信号在该频率基上的投影强度。
### 6.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 6.1 周期方波的傅里叶级数展开
给定周期为 $2\pi$ 的方波
$$
f(t) = \begin{cases}
1, & 0 < t < \pi, \\
-1, & -\pi < t < 0,
\end{cases}
$$
求其傅里叶级数系数。
**解** $f(t)$ 为奇函数,故 $a_0 = a_n = 0$(余弦系数全为零)。仅需计算 $b_n$。
$$
b_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \sin(nt) \, dt = \frac{1}{\pi} \left( \int_{-\pi}^{0} (-\sin(nt)) \, dt + \int_{0}^{\pi} \sin(nt) \, dt \right).
$$
计算第一项:$\int_{-\pi}^{0} -\sin(nt) \, dt = \left[ \frac{\cos(nt)}{n} \right]_{-\pi}^{0} = \frac{1}{n} - \frac{\cos(-n\pi)}{n} = \frac{1 - (-1)^n}{n}$。
计算第二项:$\int_{0}^{\pi} \sin(nt) \, dt = \left[ -\frac{\cos(nt)}{n} \right]_{0}^{\pi} = -\frac{\cos(n\pi)}{n} + \frac{1}{n} = \frac{1 - (-1)^n}{n}$。
因此:
$$
b_n = \frac{1}{\pi} \cdot \frac{2[1 - (-1)^n]}{n} = \begin{cases}
\dfrac{4}{n\pi}, & n \text{ 为奇数}, \\[6pt]
0, & n \text{ 为偶数}.
\end{cases}
\tag{6.6}
$$
故方波的傅里叶级数展开为
$$
f(t) = \frac{4}{\pi} \sum_{k=0}^{\infty} \frac{\sin((2k+1)t)}{2k+1} = \frac{4}{\pi} \left( \sin t + \frac{1}{3}\sin 3t + \frac{1}{5}\sin 5t + \cdots \right).
\tag{6.7}
$$
数值验证:取 $t = \pi/2$,前 3 项近似为
$$
f(\pi/2) \approx \frac{4}{\pi} \left( 1 - \frac{1}{3} + \frac{1}{5} \right) = \frac{52}{15\pi} \approx 1.103,
$$
已接近真实值 $1$。更多项将收敛于方波(吉布斯现象在间断点处产生约 $9\%$ 的过冲)。
```
### 6.4 工程与前沿应用
图 3 展示了傅里叶变换的典型应用。一个包含 50 Hz、120 Hz 和 260 Hz 三个频率分量的带噪信号 $x(t)$,其时域波形看似杂乱无章。经傅里叶变换后,频谱图在对应频率处清晰呈现三个峰值——这正是信号在各频率基上的投影强度。

**图 3:傅里叶变换的频域投影。** 上图为含噪多音信号 $x(t) = 1.2\sin(2\pi\cdot 50t) + 0.7\sin(2\pi\cdot 120t) + 0.4\sin(2\pi\cdot 260t) + \eta(t)$ 的时域波形;下图为幅度频谱,在 50、120、260 Hz 处出现显著峰值。该图由 main.py 中的 `np.fft.rfft`(离散傅里叶变换)生成,其本质是计算时域采样向量与复指数基向量的内积。
傅里叶分析的应用遍及工程各领域:MP3 音频压缩通过舍弃人耳不敏感的高频分量来减小数据量;JPEG 图像压缩使用离散余弦变换(DCT)$^{[18]}$ 将图像块投影到频率基上;心电图(ECG)信号的频域诊断则利用频谱特征识别病理模式。
---
## 第七章 从频域到复频域 —— 拉普拉斯与 Z 变换
### 7.1 理论与严格定义
傅里叶变换要求信号满足绝对可积条件 $\int_{-\infty}^{\infty} |f(t)|\,dt < \infty$。对于指数发散信号如 $f(t) = e^{2t}$($t \geq 0$),其能量随 $t$ 增长而发散,傅里叶变换的内积 $\langle f(t), e^{-j\omega t} \rangle$ 不收敛。为解决此问题,需将探测基底从纯虚指数 $e^{-j\omega t}$ 推广为具有实部衰减因子的复指数 $e^{-st}$,其中 $s = \sigma + j\omega$。 ```ad-definition title: 定义 7.1 拉普拉斯变换 设 $f(t)$ 是定义在 $[0, \infty)$ 上的函数,其**拉普拉斯变换**定义为 $^{[14]}$: $$F(s) = \mathcal{L}\{f(t)\} = \int_0^{\infty} f(t) e^{-st}\,dt, \quad s = \sigma + j\omega \in \mathbb{C} \tag{7.1}$$ 当 $s$ 的实部 $\sigma$ 足够大时,衰减因子 $e^{-\sigma t}$ 可压制 $f(t)$ 的发散趋势,使积分收敛。使 (7.1) 收敛的 $s$ 值集合称为**收敛域(Region of Convergence, ROC)**。 ``` ```ad-definition title: 定义 7.2 Z 变换 设 $x[n]$ 是定义在 $\mathbb{Z}$ 上的离散序列,其**Z 变换**定义为 $^{[15]}$: $$X(z) = \mathcal{Z}\{x[n]\} = \sum_{n=-\infty}^{\infty} x[n] z^{-n}, \quad z = re^{j\omega} \in \mathbb{C} \tag{7.2}$$ Z 变换可视为拉普拉斯变换在离散域中的对应:令 $z = e^{sT}$($T$ 为采样周期),则 $z$ 平面上的单位圆 $|z| = 1$ 对应 $s$ 平面上的虚轴 $s = j\omega$。 从内积视角看,拉普拉斯变换和 Z 变换均可理解为信号与复指数基函数的内积: $$\mathcal{L}\{f(t)\} = \langle f(t), e^{st} \rangle, \quad \mathcal{Z}\{x[n]\} = \langle x[n], z^n \rangle$$ 其中基函数 $e^{st}$ 和 $z^n$ 包含了幅度衰减(通过 $\sigma$ 或 $r$)和相位旋转(通过 $\omega$)两个自由度,比傅里叶变换的基函数更具表达能力。 ``` ### 7.2 几何与空间图像 傅里叶变换的基底 $e^{-j\omega t}$ 是复平面单位圆上的匀速旋转向量,模长恒为 1。对于发散信号 $e^{2t}$,被积函数 $|e^{2t} \cdot e^{-j\omega t}| = e^{2t}$ 随 $t$ 增长而发散,积分永不收敛。 拉普拉斯变换的基底 $e^{-(\sigma + j\omega)t} = e^{-\sigma t} e^{-j\omega t}$ 增加了一个"衰减旋钮" $\sigma$。当 $\sigma > 2$ 时,$e^{-\sigma t}$ 的衰减速率超过 $e^{2t}$ 的发散速率,内积积分收敛。在复 $s$ 平面上:
- **收敛域(ROC)**:使变换收敛的 $s$ 值区域;
- **极点(Pole)**:使 $F(s)$ 分母为零、变换发散到无穷的点;
- **零点(Zero)**:使 $F(s)$ 分子为零、变换为零的点。
极点的位置直接决定了系统的稳定性:所有极点位于左半平面($\text{Re}(s) < 0$)时系统稳定;任一极点位于右半平面时系统发散。 Z 变换的几何解释类似:$z = re^{j\omega}$,$r$ 控制幅度缩放,$\omega$ 控制相位旋转。收敛域为 $|z| > R$(右边序列)或 $|z| < R$(左边序列)的环形/外部区域。极点位于单位圆内时离散系统稳定。 ### 7.3 硬核例题详解 (Worked Example) ```ad-example title: 例题 7.1 发散函数的拉普拉斯变换——极点与收敛域分析 给定指数发散函数 $f(t) = e^{2t}$($t \geq 0$),计算其拉普拉斯变换并分析收敛域与极点。 **解**:代入拉普拉斯变换定义式 (7.1): $$F(s) = \int_0^{\infty} e^{2t} \cdot e^{-st}\,dt = \int_0^{\infty} e^{-(s-2)t}\,dt$$ 令 $a = s - 2 = (\sigma - 2) + j\omega$,则: $$F(s) = \int_0^{\infty} e^{-at}\,dt = \left[-\frac{1}{a}e^{-at}\right]_{t=0}^{t=\infty}$$ 当 $t \to \infty$ 时,$e^{-at} \to 0$ 要求 $\text{Re}(a) > 0$,即 $\text{Re}(s - 2) > 0$,亦即 $\sigma > 2$。在此条件下:
$$F(s) = 0 - \left(-\frac{1}{a}\right) = \frac{1}{a} = \frac{1}{s - 2}$$
因此:
$$\mathcal{L}\{e^{2t}\} = \frac{1}{s - 2}, \quad \text{ROC: } \text{Re}(s) > 2, \quad \text{Pole: } s = 2$$
**分析**:傅里叶变换对应 $\sigma = 0$,而 $s = j\omega$ 的实部为 0,小于 2,不在收敛域内——这解释了为何 $e^{2t}$ 的傅里叶变换不存在。拉普拉斯变换通过引入实部自由度 $\sigma$,将积分路径从虚轴推广到复平面右半平面,从而能够处理发散信号。
```
```ad-example
title: 例题 7.2 离散序列的 Z 变换——收敛域与稳定性分析
给定离散序列 $x[n] = (0.5)^n u[n]$,其中 $u[n]$ 为单位阶跃函数($n < 0$ 时为 0,$n \geq 0$ 时为 1)。计算其 Z 变换并分析收敛域与稳定性。 **解**:代入 Z 变换定义式 (7.2): $$X(z) = \sum_{n=0}^{\infty} (0.5)^n z^{-n} = \sum_{n=0}^{\infty} (0.5 z^{-1})^n$$ 此为几何级数。当 $|0.5 z^{-1}| < 1$ 即 $|z| > 0.5$ 时级数收敛:
$$X(z) = \frac{1}{1 - 0.5z^{-1}} = \frac{z}{z - 0.5}, \quad \text{ROC: } |z| > 0.5$$
收敛域是以原点为圆心、半径为 0.5 的圆外部区域。单位圆 $|z| = 1$ 完全位于收敛域内,意味着该序列的离散时间傅里叶变换(DTFT,对应 $z = e^{j\omega}$)存在。极点位于 $z = 0.5$,在单位圆内部,故该系统稳定。
```
### 7.4 工程与前沿应用
拉普拉斯变换是控制理论的基石。在反馈控制系统中,系统的传递函数 $H(s)$ 的极点位置直接决定稳定性:
- 所有极点位于左半平面($\text{Re}(s) < 0$):系统稳定,冲激响应指数衰减;
- 存在极点位于右半平面($\text{Re}(s) > 0$):系统发散,冲激响应指数增长;
- 极点位于虚轴($\text{Re}(s) = 0$):系统临界稳定,冲激响应等幅振荡。
Z 变换是数字信号处理的核心。数字滤波器的频率响应由 $H(z)$ 在单位圆上的取值决定,稳定性由极点是否全部位于单位圆内决定。IIR 滤波器设计本质上是在 $z$ 平面上配置极点和零点,以逼近目标频率响应。
---
## 第八章 卷积的本质 —— "滑动的内积"
### 8.1 理论与严格定义
卷积(Convolution)是信号处理、控制理论和深度学习中最核心的运算之一 $^{[17]}$。从内积视角看,卷积的本质是**滑动窗口上的内积序列**。
```ad-definition
title: 定义 8.1 卷积
设 $f, g: \mathbb{R} \to \mathbb{R}$ 为两个连续函数,其**卷积**定义为:
$$(f * g)(t) = \int_{-\infty}^{\infty} f(\tau) g(t - \tau)\,d\tau \tag{8.1}$$
对于离散序列 $x, h: \mathbb{Z} \to \mathbb{R}$,其**离散卷积**定义为:
$$(x * h)[n] = \sum_{k=-\infty}^{\infty} x[k]\, h[n - k] \tag{8.2}$$
```
```ad-theorem
title: 命题 8.1 卷积的内积解释
在固定时刻 $t$,卷积运算 $(f * g)(t)$ 等价于函数 $f(\tau)$ 与翻转平移后的 $g(\tau)$ 之间的内积:
$$(f * g)(t) = \langle f(\tau), g(t - \tau) \rangle = \int f(\tau) g(t - \tau)\,d\tau \tag{8.3}$$
其中翻转操作 $g(\tau) \to g(-\tau)$ 确保系统满足因果性——当前输出仅依赖于当前及过去的输入。
```
```ad-definition
title: 定义 8.2 互相关
与卷积密切相关的运算是**互相关(Cross-Correlation)**:
$$(f \star g)(t) = \int_{-\infty}^{\infty} f(\tau) g(\tau + t)\,d\tau \tag{8.4}$$
互相关不含翻转操作,直接计算信号在不同偏移下的内积,常用于模板匹配和相似度检测。
```
### 8.2 几何与空间图像
卷积的几何过程可分解为四个步骤:
1. **翻转**:将核函数 $g(\tau)$ 翻转为 $g(-\tau)$,使运算满足因果性;
2. **平移**:将翻转后的核平移 $t$,得到 $g(t - \tau)$;
3. **相乘**:将 $f(\tau)$ 与 $g(t - \tau)$ 逐点相乘;
4. **积分**:对乘积求和(积分),得到该时刻的内积值。
随着 $t$ 的变化,核函数沿时间轴滑动,在每个位置计算信号与核的内积。卷积结果 $y(t)$ 即为内积值随滑动位置的变化曲线。内积值大的位置,表示信号局部与核的波形最为相似——这正是**匹配滤波(Matched Filter)** 的原理。
在图像处理中,二维卷积核(Kernel)在图像上滑动,每个位置计算 $k \times k$ 邻域与核的二维内积,输出一张"响应图"(Feature Map)。响应值高的区域表示该局部图像块与卷积核的模式最为匹配。
### 8.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 8.1 离散序列的滑动内积卷积——逐点手算
给定输入序列 $x[n] = [1, 2, 3]$($n = 0, 1, 2$)和卷积核 $h[n] = [0.5, 1, 0.5]$($n = 0, 1, 2$)。计算卷积 $y[n] = (x * h)[n]$。
**解**:根据离散卷积公式 (8.2),逐点计算:
$n = 0$:
$$y[0] = \sum_{k} x[k]h[0-k] = x[0]h[0] = 1 \times 0.5 = 0.5$$
$n = 1$:
$$y[1] = x[0]h[1] + x[1]h[0] = 1 \times 1 + 2 \times 0.5 = 2$$
$n = 2$:
$$y[2] = x[0]h[2] + x[1]h[1] + x[2]h[0] = 1 \times 0.5 + 2 \times 1 + 3 \times 0.5 = 4$$
$n = 3$:
$$y[3] = x[1]h[2] + x[2]h[1] = 2 \times 0.5 + 3 \times 1 = 4$$
$n = 4$:
$$y[4] = x[2]h[2] = 3 \times 0.5 = 1.5$$
因此 $y[n] = [0.5, 2, 4, 4, 1.5]$。在 $n = 2, 3$ 处卷积值最大(为 4),此时输入序列 $[1, 2, 3]$ 与翻转核 $[0.5, 1, 0.5]$ 的重叠区域最大,内积值达到峰值。
```
```ad-example
title: 例题 8.2 Sobel 边缘检测——二维卷积作为内积模板
Sobel 算子由两个 $3 \times 3$ 的卷积核组成,分别检测水平和垂直方向的边缘:
$$S_x = \begin{bmatrix} 1 & 0 & -1 \\ 2 & 0 & -2 \\ 1 & 0 & -1 \end{bmatrix}, \quad S_y = \begin{bmatrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ -1 & -2 & -1 \end{bmatrix}$$
给定 $3 \times 3$ 局部图像块(灰度值):
$$I = \begin{bmatrix} 10 & 20 & 30 \\ 10 & 20 & 30 \\ 10 & 20 & 30 \end{bmatrix}$$
该图像块呈现水平方向的亮度渐变(从左到右变亮),垂直方向亮度均匀。
**解**:计算 Sobel X 算子与图像块的二维内积:
$$G_x = \sum_{i=1}^{3} \sum_{j=1}^{3} S_x(i,j) \cdot I(i,j)$$
$$= (1 \times 10) + (0 \times 20) + (-1 \times 30) + (2 \times 10) + (0 \times 20) + (-2 \times 30) + (1 \times 10) + (0 \times 20) + (-1 \times 30)$$
$$= 10 + 0 - 30 + 20 + 0 - 60 + 10 + 0 - 30 = -80$$
计算 Sobel Y 算子的二维内积:
$$G_y = (1 \times 10) + (2 \times 20) + (1 \times 30) + (0 \times 10) + (0 \times 20) + (0 \times 30) + (-1 \times 10) + (-2 \times 20) + (-1 \times 30)$$
$$= 10 + 40 + 30 + 0 + 0 + 0 - 10 - 40 - 30 = 0$$
边缘强度为:
$$\|\nabla I\| = \sqrt{G_x^2 + G_y^2} = \sqrt{(-80)^2 + 0^2} = 80$$
**分析**:$|G_x| = 80$ 较大,表明水平方向存在显著亮度变化(垂直边缘);$G_y = 0$ 表明垂直方向亮度均匀。Sobel 边缘检测的本质是用两个正交的卷积核(内积模板)在图像上滑动,计算每个像素邻域与模板的二维内积,内积幅值大的位置即为边缘所在。
```
### 8.4 工程与前沿应用

> **图 4:滑动内积与匹配滤波 (Matched Filter)**。图中蓝色曲线为含噪随机序列 $x[n]$,红色曲线为卷积响应。模板脉冲 $h[n] = [0, 0.35, 1.0, 0.35, 0]$ 沿时间轴滑动,在每个位置计算 $\sum x[k]h[n-k]$。橙色标记处($n \approx 110, 265, 340$)卷积值达到峰值,表明这些位置的信号局部波形与模板最为匹配。现代雷达信号捕获的核心原理即源于此滑动投影机制。

> **图 5:二维卷积提取边缘特征 (Sobel Edge Detection)**。Sobel 算子是一对正交的 $3 \times 3$ 微分模板,分别沿 $x$ 和 $y$ 方向检测亮度梯度。当模板在灰度图像上滑动时,在平坦区域正负投影相互抵消(内积接近零),而在边缘处像素阶跃导致内积幅值显著增大。通过 $\|\nabla I\| = \sqrt{G_x^2 + G_y^2}$ 合并两正交分量,即可提取出物理世界的边缘信息。这是计算机视觉中特征提取的底层基础。
---
## 第九章 离散余弦变换与 JPEG 压缩
### 9.1 理论与严格定义
离散余弦变换(Discrete Cosine Transform, DCT)是 JPEG 图像压缩标准的核心算法 $^{[18][19]}$。从内积视角看,DCT 将图像块向一组离散余弦基函数做正交投影,将空间域的像素值变换为频域系数。
```ad-definition
title: 定义 9.1 二维 DCT
设 $f(x, y)$ 为 $N \times N$ 的图像块($x, y = 0, 1, \dots, N-1$),其二维 DCT 定义为:
$$F(u, v) = \frac{2}{N} C(u) C(v) \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} f(x, y) \cos\left[\frac{(2x+1)u\pi}{2N}\right] \cos\left[\frac{(2y+1)v\pi}{2N}\right] \tag{9.1}$$
其中 $u, v = 0, 1, \dots, N-1$ 为频率索引,归一化系数为:
$$C(k) = \begin{cases} 1/\sqrt{2}, & k = 0 \\ 1, & k \neq 0 \end{cases}$$
```
```ad-theorem
title: 命题 9.1 DCT 作为正交投影
定义 $N \times N$ 个 DCT 基函数:
$$B_{u,v}(x, y) = \frac{2}{N} C(u) C(v) \cos\left[\frac{(2x+1)u\pi}{2N}\right] \cos\left[\frac{(2y+1)v\pi}{2N}\right]$$
则 $\{B_{u,v}\}$ 构成 $\mathbb{R}^{N \times N}$ 上的一组完备正交基,满足:
$$\langle B_{u,v}, B_{u',v'} \rangle = \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} B_{u,v}(x, y) B_{u',v'}(x, y) = \delta_{u,u'} \delta_{v,v'}$$
DCT 系数 $F(u, v)$ 正是图像块 $f$ 在基函数 $B_{u,v}$ 上的投影:
$$F(u, v) = \langle f, B_{u,v} \rangle = \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} f(x, y) B_{u,v}(x, y) \tag{9.2}$$
```
```ad-theorem
title: 命题 9.2 能量集中性
对于自然图像,DCT 系数的能量主要集中在低频区域($u, v$ 较小),高频系数($u, v$ 较大)幅值趋近于零。JPEG 压缩利用这一特性,通过量化舍弃微小的高频系数,在保持视觉质量的前提下实现大幅压缩。
```
### 9.2 几何与空间图像
一个 $8 \times 8$ 的图像块可视为 64 维空间中的向量。DCT 基函数构成该 64 维空间中的一组完备正交基:
- **$B_{0,0}$(DC 基)**:常数函数,对应图像块的平均亮度;
- **低频基**($u, v$ 较小):平滑渐变模式,对应图像的大尺度结构;
- **高频基**($u, v$ 较大):密集振荡模式,对应图像的细节纹理和噪声。
将图像块向量向这 64 个基方向投影,得到 64 个 DCT 系数。对于自然图像,投影能量高度集中在低频系数(左上角),高频系数(右下角)接近于零。JPEG 压缩通过量化将微小的高频系数置零,仅保留少数低频系数即可近似重建原图像块。
### 9.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 9.1 $2 \times 2$ 图像块的 DCT 投影系数手算
为展示 DCT 的投影本质,考虑 $N = 2$ 的微型图像块。$2 \times 2$ DCT 基矩阵为:
$$T = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}$$
$T$ 是正交矩阵,满足 $T^T T = I$。给定灰度图像块:
$$I = \begin{bmatrix} 100 & 80 \\ 60 & 40 \end{bmatrix}$$
二维 DCT 可通过矩阵乘法实现:$F = T \cdot I \cdot T^T$。
**解**:
**步骤 1**:计算 $T \cdot I$。
$$T \cdot I = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} 100 & 80 \\ 60 & 40 \end{bmatrix} = \frac{1}{\sqrt{2}} \begin{bmatrix} 160 & 120 \\ 40 & 40 \end{bmatrix}$$
**步骤 2**:计算 $(T \cdot I) \cdot T^T$。
$$F = \frac{1}{\sqrt{2}} \begin{bmatrix} 160 & 120 \\ 40 & 40 \end{bmatrix} \cdot \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} = \frac{1}{2} \begin{bmatrix} 160 & 120 \\ 40 & 40 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}$$
$$= \frac{1}{2} \begin{bmatrix} 280 & 40 \\ 80 & 0 \end{bmatrix} = \begin{bmatrix} 140 & 20 \\ 40 & 0 \end{bmatrix}$$
**步骤 3**:解读 DCT 系数。
- $F(0,0) = 140$:DC 系数,对应图像块平均亮度。$(100+80+60+40)/4 = 70$,乘以 $N = 2$ 得 140。
- $F(0,1) = 20$:水平方向高频分量,反映左右像素差异。
- $F(1,0) = 40$:垂直方向高频分量,反映上下像素差异。
- $F(1,1) = 0$:对角方向高频分量,为零说明无对角纹理。
**关键观察**:$F(1,1) = 0$,即对角方向高频基上的投影为零——该分量可完全舍弃而不损失信息。这正是 JPEG 压缩的核心原理:自然图像的大部分高频 DCT 系数接近于零,量化后变为零,从而实现大幅压缩。
```
### 9.4 工程与前沿应用
JPEG 压缩流程如下:
1. **分块**:将图像分割为 $8 \times 8$ 的块;
2. **DCT 变换**:对每个块执行二维 DCT,得到 64 个频域系数;
3. **量化**:用量化矩阵除以 DCT 系数(高频量化步长更大),将微小系数置零;
4. **熵编码**:对量化后的系数进行 Huffman 或算术编码。
在解码端,通过逆 DCT 变换重建图像块。由于舍弃了人眼不敏感的高频分量,JPEG 可在保持视觉质量的前提下将图像压缩至原始大小的 $1/10$ 甚至更小。
DCT 还被广泛应用于视频压缩(MPEG、H.264/AVC、HEVC)、音频压缩(MP3 中的 MDCT 变体)以及信号处理中的去相关和特征提取。
---
## 第十章 小波变换 —— 多分辨率内积
### 10.1 理论与严格定义
傅里叶变换将信号投影到无限延伸的正弦波基底上,获得了全局频率信息,但丧失了时间定位能力——无法从频谱中得知某一频率成分在何时出现。对于音乐、地震波、心电信号等非平稳信号,这一"时间盲区"是根本性的缺陷。
```ad-definition
title: 定义 10.1 短时傅里叶变换
为弥补时间定位的缺失,短时傅里叶变换(STFT)引入窗函数 $w(t)$:
$$\text{STFT}\{f(t)\}(\tau, \omega) = \int_{-\infty}^{\infty} f(t) w(t - \tau) e^{-j\omega t}\,dt$$
但 STFT 的窗长固定后,时间分辨率 $\Delta t$ 与频率分辨率 $\Delta f$ 受海森堡测不准原理约束 $^{[16]}$:
$$\Delta t \cdot \Delta f \geq \frac{1}{4\pi} \tag{10.1}$$
```
```ad-definition
title: 定义 10.2 小波变换
小波变换采用一组可伸缩、可平移的基函数 $\psi_{a,b}(t)$,从根本上解决了时频分辨率的矛盾 $^{[17]}$。设 $\psi(t)$ 为母小波(Mother Wavelet),满足 $\int \psi(t)\,dt = 0$(零均值条件),则小波基函数族定义为:
$$\psi_{a,b}(t) = \frac{1}{\sqrt{|a|}} \psi\left(\frac{t - b}{a}\right), \quad a \neq 0, \; b \in \mathbb{R} \tag{10.2}$$
其中 $a$ 为尺度参数(控制伸缩,对应频率),$b$ 为平移参数(控制位置,对应时间)。小波基函数在时域上具有**紧支撑**(Compact Support)性质——只在有限区间内非零——因此天然具备时间定位能力。
```
```ad-definition
title: 定义 10.3 连续小波变换
信号 $f(t)$ 的连续小波变换(CWT)定义为 $f$ 与小波基函数的内积:
$$W_f(a, b) = \langle f, \psi_{a,b} \rangle = \int_{-\infty}^{\infty} f(t) \cdot \frac{1}{\sqrt{|a|}} \psi^*\left(\frac{t - b}{a}\right) dt \tag{10.3}$$
```
```ad-theorem
title: 命题 10.1 多分辨率分析
小波变换的时频分辨率随尺度 $a$ 自适应变化:
- **小尺度 $a$**(高频):小波被压缩,时间分辨率高、频率分辨率低,适合分析瞬态信号;
- **大尺度 $a$**(低频):小波被拉伸,频率分辨率高、时间分辨率低,适合分析长期趋势。
这种**多分辨率分析(Multi-Resolution Analysis, MRA)** 特性是小波变换区别于傅里叶变换和 STFT 的核心优势。
```
### 10.2 几何与空间图像
小波变换的几何过程可理解为使用一组不同尺寸的"探针"沿时间轴滑动:
- **大探针(大尺度 $a$)**:覆盖宽时间范围,感知信号长期趋势(低频),但无法精确定位变化时刻;
- **小探针(小尺度 $a$)**:覆盖窄时间范围,精确定位信号突变点(高频),但看不到整体趋势。
在每个位置 $b$,计算信号 $f(t)$ 与探针 $\psi_{a,b}(t)$ 的内积 $W_f(a, b)$。结果构成一张**尺度图(Scalogram)**,横轴为时间 $b$,纵轴为尺度 $a$(或等效频率),颜色深浅表示内积强度。
与傅里叶变换的对比:傅里叶变换用无限长的正弦波"匹配"整个信号,得到全局频谱;小波变换用有限长的小波"扫描"信号,在每一处记录局部匹配度,同时保留时间和频率信息。
### 10.3 硬核例题详解 (Worked Example)
```ad-example
title: 例题 10.1 Haar 小波分解——手工计算一级与二级小波变换
Haar 小波是最简单的正交小波,其尺度函数 $\phi(t)$ 和小波函数 $\psi(t)$ 定义为:
$$\phi(t) = \begin{cases} 1, & 0 \leq t < 1 \\ 0, & \text{otherwise} \end{cases}, \quad \psi(t) = \begin{cases} 1, & 0 \leq t < 0.5 \\ -1, & 0.5 \leq t < 1 \\ 0, & \text{otherwise} \end{cases}$$ 给定长度为 8 的离散信号: $$x = [4, 6, 10, 12, 8, 6, 5, 5]$$ 手工执行 Haar 小波分解。 **解**: **步骤 1:一级分解——计算近似系数。** 近似系数通过尺度函数的内积获得,即相邻两点的平均值: $$a_1 = \frac{4+6}{2} = 5, \quad a_2 = \frac{10+12}{2} = 11, \quad a_3 = \frac{8+6}{2} = 7, \quad a_4 = \frac{5+5}{2} = 5$$ 近似系数向量:$A^{(1)} = [5, 11, 7, 5]$ **步骤 2:一级分解——计算细节系数。** 细节系数通过小波函数的内积获得,即相邻两点差值的一半: $$d_1 = \frac{4-6}{2} = -1, \quad d_2 = \frac{10-12}{2} = -1, \quad d_3 = \frac{8-6}{2} = 1, \quad d_4 = \frac{5-5}{2} = 0$$ 细节系数向量:$D^{(1)} = [-1, -1, 1, 0]$ **步骤 3:验证重构。** 从 $A^{(1)}$ 和 $D^{(1)}$ 可完美恢复原始信号: $$x_1 = a_1 + d_1 = 5 + (-1) = 4, \quad x_2 = a_1 - d_1 = 5 - (-1) = 6$$ $$x_3 = a_2 + d_2 = 11 + (-1) = 10, \quad x_4 = a_2 - d_2 = 11 - (-1) = 12$$ $$x_5 = a_3 + d_3 = 7 + 1 = 8, \quad x_6 = a_3 - d_3 = 7 - 1 = 6$$ $$x_7 = a_4 + d_4 = 5 + 0 = 5, \quad x_8 = a_4 - d_4 = 5 - 0 = 5$$ 重构完全正确。 **步骤 4:二级分解。** 对近似系数 $A^{(1)} = [5, 11, 7, 5]$ 继续做 Haar 小波变换: $$a_1^{(2)} = \frac{5+11}{2} = 8, \quad a_2^{(2)} = \frac{7+5}{2} = 6$$ $$d_1^{(2)} = \frac{5-11}{2} = -3, \quad d_2^{(2)} = \frac{7-5}{2} = 1$$ 二级近似:$A^{(2)} = [8, 6]$,二级细节:$D^{(2)} = [-3, 1]$ **关键观察**:原始信号需 8 个数值存储。一级分解后 $A^{(1)}$(4 值)+ $D^{(1)}$(4 值)= 8 值,未压缩。但若将绝对值小的细节系数(如 $d_4 = 0$)置零,则只需存储 7 个有效值——这就是小波压缩的原理。JPEG2000 正是基于小波变换(CDF 9/7 小波)实现了比 JPEG(DCT)更优的压缩性能,且无块效应。 ``` ### 10.4 工程与前沿应用 小波分析在信号处理领域有广泛的应用: - **JPEG2000 图像压缩**:采用 CDF 9/7 小波进行多级分解,比 JPEG 的 DCT 方法压缩率更高且无块效应; - **心电图(ECG)分析**:小波变换可精确定位 QRS 波群,用于心律失常检测; - **地震信号处理**:小波时频谱可同时揭示地震波到达时间和频率成分; - **深度学习中的小波网络**:将小波变换作为神经网络的前置特征提取层,用于处理非平稳信号。 --- ## 第十一章 自注意力机制 —— AI 的内积引擎 ### 11.1 理论与严格定义 现代人工智能,尤其是大语言模型(LLM)如 GPT、BERT 等,其底层计算几乎全部由内积(点积)构成。Transformer 架构的核心——**自注意力机制(Self-Attention)**——本质上是一组大规模的、并行的、可学习的向量内积运算 $^{[18]}$。 ```ad-definition title: 定义 11.1 缩放点积注意力 给定输入序列,每个位置的 token 被线性投影为三个向量:查询向量 $Q$、键向量 $K$、值向量 $V$。自注意力输出定义为: $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V \tag{11.1}$$ 其中 $Q \in \mathbb{R}^{n \times d_k}$,$K \in \mathbb{R}^{n \times d_k}$,$V \in \mathbb{R}^{n \times d_v}$,$n$ 为序列长度,$d_k$ 为查询/键的维度。 ``` ```ad-theorem title: 命题 11.1 注意力权重作为归一化内积 矩阵 $QK^T$ 中的第 $(i, j)$ 元素正是第 $i$ 个查询向量与第 $j$ 个键向量的内积: $$(QK^T)_{ij} = \langle Q_i, K_j \rangle = Q_i \cdot K_j = \sum_{k=1}^{d_k} Q_{i,k} \cdot K_{j,k} \tag{11.2}$$ 该内积值越大,表示第 $i$ 个 token 与第 $j$ 个 token 的相关性越高。缩放因子 $1/\sqrt{d_k}$ 防止内积值随维度增长过大导致 softmax 梯度消失。经 softmax 归一化后,内积值转化为概率权重,用于对值向量 $V$ 进行加权求和。 **多头注意力**将上述过程并行执行 $h$ 次($h$ 为注意力头数),每个头学习不同的投影子空间: $$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h) W^O \tag{11.3}$$ 其中 $\text{head}_i = \text{Attention}(Q W_i^Q, K W_i^K, V W_i^V)$。 ``` ### 11.2 几何与空间图像 自注意力机制在高维空间中执行了一个精妙的"投影-检索"操作: 1. **查询向量 $Q_i$**:编码"谁和我相关?"的查询意图; 2. **键向量 $K_j$**:编码"我是谁,我有什么特征?"的标识信息; 3. **内积 $\langle Q_i, K_j \rangle$**:衡量查询与键在高维空间中的相似度(向量夹角余弦的缩放版本); 4. **Softmax 归一化**:将相似度转换为概率分布,使模型聚焦于最相关的 token; 5. **加权求和**:根据注意力权重从值向量中提取上下文信息。 整个 Transformer 模型可视为一个巨大的**可微内积引擎**:每一层都在执行内积运算,通过反向传播不断调整 $Q$、$K$、$V$ 的投影矩阵,使内积结果能够准确捕捉数据中的长距离依赖关系。 ### 11.3 硬核例题详解 (Worked Example) ```ad-example title: 例题 11.1 手工计算 2 个 token 的自注意力 考虑极简序列,仅含两个 token:"我"和"爱"。经嵌入和线性投影后(设 $d_k = 3$): $$Q = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix}, \quad K = \begin{bmatrix} 1 & 1 & 0 \\ 0 & 1 & 1 \end{bmatrix}, \quad V = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$$ 第一行对应"我",第二行对应"爱"。 **解**: **步骤 1:计算 $QK^T$(所有内积对)。** $$QK^T = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{bmatrix}$$ 逐元素计算: - $(QK^T)_{11} = \langle Q_1, K_1 \rangle = 1 \times 1 + 0 \times 1 + 1 \times 0 = 1$ - $(QK^T)_{12} = \langle Q_1, K_2 \rangle = 1 \times 0 + 0 \times 1 + 1 \times 1 = 1$ - $(QK^T)_{21} = \langle Q_2, K_1 \rangle = 0 \times 1 + 1 \times 1 + 1 \times 0 = 1$ - $(QK^T)_{22} = \langle Q_2, K_2 \rangle = 0 \times 0 + 1 \times 1 + 1 \times 1 = 2$ $$QK^T = \begin{bmatrix} 1 & 1 \\ 1 & 2 \end{bmatrix}$$ **步骤 2:缩放(除以 $\sqrt{d_k} = \sqrt{3} \approx 1.732$)。** $$\frac{QK^T}{\sqrt{3}} = \begin{bmatrix} 0.577 & 0.577 \\ 0.577 & 1.155 \end{bmatrix}$$ **步骤 3:Softmax 归一化(按行)。** 第一行 $[0.577, 0.577]$: $$e^{0.577} \approx 1.781, \quad \text{sum} = 3.562$$ $$\text{softmax}_{11} = \frac{1.781}{3.562} = 0.5, \quad \text{softmax}_{12} = \frac{1.781}{3.562} = 0.5$$ 第二行 $[0.577, 1.155]$: $$e^{0.577} \approx 1.781, \quad e^{1.155} \approx 3.174, \quad \text{sum} = 4.955$$ $$\text{softmax}_{21} = \frac{1.781}{4.955} = 0.359, \quad \text{softmax}_{22} = \frac{3.174}{4.955} = 0.641$$ 注意力权重矩阵: $$\text{Weights} = \begin{bmatrix} 0.5 & 0.5 \\ 0.359 & 0.641 \end{bmatrix}$$ **步骤 4:加权求和得到输出。** $$\text{Output} = \text{Weights} \cdot V = \begin{bmatrix} 0.5 & 0.5 \\ 0.359 & 0.641 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$$ - "我"的新表示:$0.5 \times [1, 0] + 0.5 \times [0, 1] = [0.5, 0.5]$ - "爱"的新表示:$0.359 \times [1, 0] + 0.641 \times [0, 1] = [0.359, 0.641]$ **关键观察**: - "我"的注意力均匀分布在两个 token 上(各 0.5),因其与两者的内积相同; - "爱"更关注自己(0.641)而非"我"(0.359),因其与自己的内积(2)大于与"我"的内积(1); - 输出向量是值向量的加权组合,权重完全由内积决定——这就是"通过内积实现上下文感知表示"的核心机制。 ``` ### 11.4 工程与前沿应用 自注意力机制的计算量随序列长度 $n$ 呈 $O(n^2)$ 增长。对于 GPT-4 等大模型(上下文长度可达 128K),单次前向传播需执行数十万亿次内积运算。为加速计算,业界开发了多种优化技术: - **Flash Attention**:通过分块计算和内存优化,减少显存读写,将注意力计算加速 2–4 倍; - **稀疏注意力**:仅计算部分 token 对之间的内积(如局部窗口 + 全局 token),将复杂度降至 $O(n \log n)$; - **多查询注意力(MQA)**:多个查询头共享同一组键值对,减少 KV 缓存大小; - **线性注意力**:用核方法近似 softmax 注意力,将复杂度降至 $O(n)$。 这些优化本质上都是在"减少内积计算次数"和"保持模型表达能力"之间寻找最优平衡。 --- ## 第十二章 核方法 —— 隐式高维内积 ### 12.1 理论与严格定义 在低维空间中,数据往往是线性不可分的——例如二维平面上的同心圆数据无法用一条直线分开。传统做法是手动构造高维特征(如 $x_1^2 + x_2^2$),但特征工程成本极高。**核方法(Kernel Method)** 的核心思想是:不显式计算高维空间中的坐标,而是直接计算高维空间中的内积 $^{[22]}$。这一技巧称为**核技巧(Kernel Trick)**。 ```ad-definition title: 定义 12.1 核函数 设 $\phi: \mathcal{X} \to \mathcal{H}$ 是从输入空间到高维(可能无穷维)希尔伯特空间的非线性映射。核函数 $k: \mathcal{X} \times \mathcal{X} \to \mathbb{R}$ 定义为: $$k(x, y) = \langle \phi(x), \phi(y) \rangle_{\mathcal{H}} \tag{12.1}$$ 核函数的精妙之处在于:我们无需知道 $\phi$ 的具体形式,只要 $k(x, y)$ 满足 **Mercer 条件**(对称且半正定),它就对应某个再生核希尔伯特空间(RKHS)中的内积。 ``` ```ad-definition title: 定义 12.2 常见核函数 常用的核函数包括: - **线性核**:$k(x, y) = x^T y$(即原始空间中的内积); - **多项式核**:$k(x, y) = (x^T y + c)^d$(对应 $d$ 阶多项式特征空间); - **高斯径向基核(RBF)**:$k(x, y) = \exp\left(-\frac{\|x - y\|^2}{2\sigma^2}\right)$(对应无穷维特征空间); - **Sigmoid 核**:$k(x, y) = \tanh(\alpha x^T y + c)$。 ``` ```ad-definition title: 定义 12.3 支持向量机 支持向量机(SVM)是核方法最经典的应用 $^{[23]}$。SVM 在特征空间中寻找最大间隔超平面,其决策函数仅依赖于支持向量与待分类样本的内积: $$f(x) = \text{sign}\left(\sum_{i=1}^{m} \alpha_i y_i \langle \phi(x_i), \phi(x) \rangle + b\right) = \text{sign}\left(\sum_{i=1}^{m} \alpha_i y_i k(x_i, x) + b\right) \tag{12.2}$$ 其中 $x_i$ 为支持向量,$y_i \in \{-1, +1\}$ 为标签,$\alpha_i$ 为对偶变量。 ``` ### 12.2 几何与空间图像 核技巧的几何直观可用"折叠-展开"来理解: 1. **输入空间**:数据点杂乱分布在低维空间中,线性分类器无能为力; 2. **隐式映射 $\phi$**:将数据点"展开"到高维希尔伯特空间中,原本纠缠的数据点被"拉直"; 3. **高维空间中的内积**:SVM 在高维空间中寻找最大间隔超平面——等价于输入空间中的非线性决策边界; 4. **核函数 $k(x, y)$**:直接返回高维空间中的内积值,仿佛数据已被映射到高维空间,但计算量仍与低维空间相同。 **关键洞察**:RBF 核 $\exp(-\gamma\|x - y\|^2)$ 的泰勒展开包含所有阶的多项式特征,因此 RBF 核 SVM 理论上可逼近任意复杂的决策边界。 ### 12.3 硬核例题详解 (Worked Example) ```ad-example title: 例题 12.1 二维异或(XOR)问题的核技巧——手工推导 XOR 数据集:$x_1 = (-1, -1)$ 标签 $-1$,$x_2 = (1, 1)$ 标签 $-1$,$x_3 = (-1, 1)$ 标签 $+1$,$x_4 = (1, -1)$ 标签 $+1$。在二维空间中,XOR 数据线性不可分。 **解**: **步骤 1:选择核函数并找出隐式映射。** 取多项式核 $k(x, y) = (x^T y)^2$。展开: $$(x^T y)^2 = (x_1 y_1 + x_2 y_2)^2 = x_1^2 y_1^2 + 2x_1 x_2 y_1 y_2 + x_2^2 y_2^2$$ $$= \langle (x_1^2, \sqrt{2}x_1 x_2, x_2^2), (y_1^2, \sqrt{2}y_1 y_2, y_2^2) \rangle$$ 因此隐式映射为 $\phi(x) = (x_1^2, \sqrt{2}x_1 x_2, x_2^2)$,将二维数据映射到三维空间。 **步骤 2:计算数据点在三维空间中的坐标。** $$\phi(x_1) = \phi(-1, -1) = (1, \sqrt{2}, 1), \quad \phi(x_2) = \phi(1, 1) = (1, \sqrt{2}, 1)$$ $$\phi(x_3) = \phi(-1, 1) = (1, -\sqrt{2}, 1), \quad \phi(x_4) = \phi(1, -1) = (1, -\sqrt{2}, 1)$$ **步骤 3:验证线性可分性。** 在三维空间中,$x_1, x_2$(标签 $-1$)均位于 $(1, \sqrt{2}, 1)$,$x_3, x_4$(标签 $+1$)均位于 $(1, -\sqrt{2}, 1)$。两类点可被平面 $z_2 = 0$(即 $\sqrt{2}x_1 x_2 = 0$)完美分开! **步骤 4:验证核技巧。** 计算 $k(x_1, x_3) = (x_1^T x_3)^2$: $$x_1^T x_3 = (-1)(-1) + (-1)(1) = 0, \quad k(x_1, x_3) = 0^2 = 0$$ 在三维空间中:$\langle \phi(x_1), \phi(x_3) \rangle = 1 \times 1 + \sqrt{2} \times (-\sqrt{2}) + 1 \times 1 = 0$ 两者相等,验证了核技巧的正确性。 **步骤 5:SVM 决策。** 在三维空间中,最大间隔超平面为 $z_2 = 0$,法向量 $w = (0, 1, 0)$,偏置 $b = 0$。支持向量为全部四个点,$\alpha_i = 1$。 对于测试点 $x = (0.5, -0.5)$: $$k(x_1, x) = ((-1)(0.5) + (-1)(-0.5))^2 = 0, \quad k(x_2, x) = ((1)(0.5) + (1)(-0.5))^2 = 0$$ $$k(x_3, x) = ((-1)(0.5) + (1)(-0.5))^2 = 1, \quad k(x_4, x) = ((1)(0.5) + (-1)(-0.5))^2 = 1$$ $$f(x) = \text{sign}(-0 - 0 + 1 + 1) = \text{sign}(2) = +1$$ 预测为 $+1$,正确。 **关键观察**:我们从未显式计算 $\phi(x)$,而是通过核函数 $k(x, y) = (x^T y)^2$ 直接得到高维空间中的内积——用低维计算量实现高维分类能力。 ``` ### 12.4 工程与前沿应用 核方法的应用远不止 SVM: - **核主成分分析(Kernel PCA)**:在核映射后的高维空间中做 PCA,用于非线性降维; - **核岭回归(Kernel Ridge Regression)**:将线性岭回归推广到非线性回归; - **核均值匹配(Kernel Mean Matching)**:用于领域自适应和迁移学习; - **高斯过程(Gaussian Process)**:以核函数作为协方差函数,用于贝叶斯优化和回归; - **神经正切核(NTK)**:连接无限宽神经网络与核方法,为深度学习提供理论分析工具。 --- ## 第十三章 量子力学中的内积 —— 概率即投影 ### 13.1 理论与严格定义 量子力学将内积的概念推向了物理世界的终极层面。在量子力学中,系统的状态由希尔伯特空间 $\mathcal{H}$ 中的**态矢量** $|\psi\rangle$ 描述(狄拉克符号)$^{[26]}$。此处的希尔伯特空间通常是无穷维的复内积空间。 ```ad-definition title: 定义 13.1 态矢量与内积 态矢量 $|\psi\rangle \in \mathcal{H}$ 包含量子系统的全部信息。两个态的内积 $\langle \phi | \psi \rangle$ 是一个复数,其模平方给出测量概率。 **公理 13.1(玻恩规则)** 当系统处于态 $|\psi\rangle$ 时,测量可观测量 $\hat{A}$ 得到本征值 $\lambda_n$ 的概率为 $^{[21]}$: $$P(\lambda_n) = |\langle a_n | \psi \rangle|^2 \tag{13.1}$$ 其中 $|a_n\rangle$ 为 $\hat{A}$ 对应于 $\lambda_n$ 的本征态。测量后,系统态坍缩到 $|a_n\rangle$。玻恩规则的本质是:**概率等于态矢量在测量基上的投影模平方**。 ``` ```ad-definition title: 定义 13.2 可观测量与自伴算子 可观测量对应希尔伯特空间上的自伴算子(Hermitian Operator)$\hat{A}$,满足 $\hat{A}^\dagger = \hat{A}$。自伴算子的本征值为实数,本征态构成完备正交基。 ``` ```ad-definition title: 定义 13.3 薛定谔方程 态矢量的时间演化由薛定谔方程描述: $$i\hbar \frac{d}{dt} |\psi(t)\rangle = \hat{H} |\psi(t)\rangle \tag{13.2}$$ 其中 $\hat{H}$ 为哈密顿算符(能量算子)。该方程本质上是在无穷维希尔伯特空间中的酉演化方程——保内积的旋转。 ``` ### 13.2 几何与空间图像 量子力学的几何图像与经典内积空间有着深刻的联系: 1. **态矢量是单位向量**:物理上要求 $|\psi\rangle$ 归一化,即 $\langle \psi | \psi \rangle = 1$。所有可能的态矢量构成复希尔伯特空间中的单位球面。 2. **测量是正交投影**:测量操作将态矢量 $|\psi\rangle$ 投影到本征子空间上。投影长度 $|\langle a_n | \psi \rangle|$ 决定概率幅,其平方为测量概率。 3. **正交态互斥**:若 $\langle \phi | \psi \rangle = 0$,则两个态正交(互斥)——系统处于 $|\psi\rangle$ 时,测量到 $|\phi\rangle$ 的概率为零。 4. **纠缠态不可分**:对于复合系统,若 $|\psi\rangle_{AB} \neq |\phi\rangle_A \otimes |\chi\rangle_B$,则两个子系统处于纠缠态。纠缠态的数学本质是:两个子系统的内积结构无法分解为直积形式。 ### 13.3 硬核例题详解 (Worked Example) ```ad-example title: 例题 13.1 自旋 $1/2$ 系统的测量概率——内积计算 考虑电子自旋,其态可表示为二维复希尔伯特空间中的向量。自旋 $z$ 方向本征态: $$| \uparrow_z \rangle = \begin{pmatrix} 1 \\ 0 \end{pmatrix}, \quad | \downarrow_z \rangle = \begin{pmatrix} 0 \\ 1 \end{pmatrix}$$ 自旋 $x$ 方向本征态: $$| \uparrow_x \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}, \quad | \downarrow_x \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -1 \end{pmatrix}$$ 电子处于态 $|\psi\rangle = \frac{1}{\sqrt{2}}| \uparrow_z \rangle + \frac{1}{\sqrt{2}}| \downarrow_z \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}$。 **解**: **步骤 1:验证归一化。** $$\langle \psi | \psi \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 1 \end{pmatrix} \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} = \frac{1}{2}(1 + 1) = 1$$ 归一化成立。 **步骤 2:测量 $S_z$ 的概率。** $$P(\uparrow_z) = |\langle \uparrow_z | \psi \rangle|^2 = \left| \begin{pmatrix} 1 & 0 \end{pmatrix} \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{\sqrt{2}} \right|^2 = \frac{1}{2}$$ $$P(\downarrow_z) = |\langle \downarrow_z | \psi \rangle|^2 = \left| \begin{pmatrix} 0 & 1 \end{pmatrix} \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{\sqrt{2}} \right|^2 = \frac{1}{2}$$ 各 50%,符合预期。 **步骤 3:测量 $S_x$ 的概率。** $$P(\uparrow_x) = |\langle \uparrow_x | \psi \rangle|^2 = \left| \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 1 \end{pmatrix} \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{2}(1 + 1) \right|^2 = 1$$ $$P(\downarrow_x) = |\langle \downarrow_x | \psi \rangle|^2 = \left| \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & -1 \end{pmatrix} \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{2}(1 - 1) \right|^2 = 0$$ **关键观察**:$|\psi\rangle = | \uparrow_x \rangle$,因此测量 $S_x$ 时 100% 得到 $+\hbar/2$。这验证了内积的几何意义:态矢量完全对齐时(内积模为 1),概率为 100%;正交时(内积为 0),概率为 0。 **步骤 4:测量后的态坍缩。** 假设测量 $S_z$ 得到 $+\hbar/2$,态矢量坍缩: $$|\psi\rangle = \frac{1}{\sqrt{2}}| \uparrow_z \rangle + \frac{1}{\sqrt{2}}| \downarrow_z \rangle \xrightarrow{\text{测量 } S_z = +\hbar/2} |\psi'\rangle = | \uparrow_z \rangle$$ 此时再次测量 $S_z$ 将 100% 得到 $+\hbar/2$,但测量 $S_x$ 又回到 50/50 概率。这就是"测量改变状态"的本质——正交投影操作。 ``` ### 13.4 工程与前沿应用 量子内积的概念正在催生革命性技术: - **量子计算**:量子门操作本质上是希尔伯特空间中的酉变换(保内积旋转)。Shor 算法和 Grover 算法利用量子态的叠加和干涉(内积的相位)实现指数级加速; - **量子密码学**:BB84 协议利用测量基的正交性检测窃听——窃听者的测量会坍缩态矢量,改变内积结果,从而被合法通信方发现; - **量子隐形传态**:利用 Bell 态(最大纠缠态)的内积结构实现量子信息的远程传输; - **量子机器学习**:量子核方法利用量子态内积在高维希尔伯特空间中高效计算核函数,有望实现量子优势。 --- ## 终章 大统一知识图谱与哲学升华 ### 万物皆投影——一张贯穿所有学科的内积图谱 回顾全文构建的知识体系,从二维向量点积到无穷维复希尔伯特空间的态矢量内积,内积概念贯穿了数学、物理、工程和计算机科学的每一个角落。 **核心主线**:内积 $\langle \cdot, \cdot \rangle$ 是一个**相似度度量**。无论对象是向量、函数、信号、图像还是量子态,内积都在回答同一个问题——"这两个对象有多相似?" **大统一知识图谱**: | 领域 | 内积的具体形式 | 几何解释 | 核心应用 | |------|--------------|---------|---------| | 线性代数 | $\langle x, y \rangle = x^T y$ | 投影长度 | 正交分解、最小二乘 | | 函数分析 | $\langle f, g \rangle = \int fg$ | 波形相似度 | 傅里叶级数、小波变换 | | 信号处理 | $\langle x, h \rangle = \sum x[n]h[n]$ | 匹配滤波 | 卷积、相关检测 | | 概率统计 | $\text{Cov}(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]$ | 相关性方向 | PCA、回归分析 | | 机器学习 | $\langle Q_i, K_j \rangle$ | 注意力权重 | Transformer、自注意力 | | 图像处理 | $\langle I, K \rangle$ | 特征响应 | 卷积神经网络、边缘检测 | | 量子力学 | $\langle \phi \mid \psi \rangle$ | 概率幅 | 测量、量子计算 | | 控制理论 | $\langle f, e^{-st} \rangle$ | 复频域投影 | 拉普拉斯变换、稳定性分析 | ### 哲学升华——投影即认知 从哲学层面看,"万物皆投影"不仅是一个数学论断,更是一种认知世界的方式 $^{[22]}$: 1. **认知即投影**:人类认识世界的过程,本质上是将外部世界的复杂信息投影到有限的认知基函数上。我们看到的不是"真实世界本身",而是真实世界在认知基上的投影系数。 2. **正交即独立**:当两个概念正交时,意味着它们互不干扰、互不重叠。正交分解是简化复杂问题的终极武器——将复杂系统分解为互不相关的独立模块。 3. **投影即决策**:最小二乘法表明,当精确解不存在时,求投影是最优选择。当完美方案不可得时,在可行域上做正交投影,即为最优决策。 4. **基的选择决定一切**:傅里叶选择正弦波为基,小波选择紧支撑函数为基,Transformer 选择可学习的注意力基——选择什么样的基,决定了能看到什么样的世界。 ### 终局思考 内积不仅是一个数学运算,更是连接微观与宏观、连续与离散、确定性与概率性的**元语言**。从勾股定理到量子纠缠,从最小二乘到大语言模型,内积以其简洁而深刻的形式,统一了人类知识大厦的各个角落。 --- ## 附录 本文图表生成代码 本文所有五张图表(余弦相似度热力图、最小二乘投影、傅里叶分解、卷积匹配滤波、Sobel 边缘检测)均由 main.py 统一生成。该脚本基于 Python 的科学计算生态(NumPy、SciPy、Matplotlib),围绕"内积"这一核心主题,将文中抽象的数学概念转化为直观的可视化图形。
脚本的核心设计思路如下:
1. **余弦相似度**:通过 `cosine_similarity()` 函数计算词嵌入向量间的归一化内积,生成 $5 \times 5$ 热力图矩阵。该函数实现公式 (1.5) 中的余弦相似度定义。
2. **最小二乘法**:利用 `np.linalg.lstsq` 求解正规方程 $A^T A \hat{x} = A^T b$(定理 3.1),本质上是将观测向量向模型空间做正交投影。
3. **傅里叶分解**:通过 FFT 将时域信号投影到频率基上(定理 6.1),频谱中的每个峰值对应一个频率分量的内积系数。
4. **卷积与匹配滤波**:将卷积视为滑动的内积运算(定义 8.1),用模板与信号逐点做内积来检测脉冲位置。
5. **Sobel 边缘检测**:将二维卷积核与图像做内积(例题 8.2),计算每个像素处的梯度幅值。
以下是脚本中生成余弦相似度热力图的核心代码片段:
def cosine_similarity(vec_a: np.ndarray, vec_b: np.ndarray) -> float:
dot_product = float(np.dot(vec_a, vec_b))
norm_a = np.linalg.norm(vec_a)
norm_b = np.linalg.norm(vec_b)
return dot_product / (norm_a * norm_b)
def build_semantic_demo() -> tuple[list[str], dict[str, np.ndarray], np.ndarray]:
tokens = ["king", "queen", "man", "woman", "apple"]
embeddings = {
"king": np.array([0.92, 0.10, 0.78, 0.25, 0.60]),
"queen": np.array([0.90, 0.12, 0.80, 0.30, 0.63]),
"man": np.array([0.88, 0.18, 0.40, 0.22, 0.35]),
"woman": np.array([0.86, 0.22, 0.42, 0.28, 0.38]),
"apple": np.array([0.05, 0.95, 0.08, 0.87, 0.10]),
}
matrix = np.array(
[[cosine_similarity(embeddings[left], embeddings[right]) for right in tokens] for left in tokens]
)
return tokens, embeddings, matrix
完整代码请参照 main.py
## 参考文献
[1] Wikipedia contributors. (2026, April 28). Dot product. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:42, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Dot_product&oldid=1351567929.
[2] Wikipedia contributors. (2025, November 3). Orthogonal complement. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:43, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Orthogonal_complement&oldid=1320174088.
[3] Wikipedia contributors. (2025, July 7). Orthogonalization. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:44, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Orthogonalization&oldid=1299273509.
[4] Wikipedia contributors. (2025, September 1). Orthogonal functions. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:46, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Orthogonal_functions&oldid=1308940353.
[5] Wikipedia contributors. (2026, March 13). Least squares. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:46, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Least_squares&oldid=1343263636.
[6] Wikipedia contributors. (2026, May 23). Hilbert space. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:47, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Hilbert_space&oldid=1355759876.
[7] 卷积、内积、互相关概念. CSDN博客, 2024. https://blog.csdn.net/qq_31073871/article/details/146475191.
[8] Wikipedia contributors. (2026, February 27). Inner product space. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:51, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Inner_product_space&oldid=1340828148.
[9] 内积和外积[G/OL]. OI Wiki, 2025. https://oi-wiki.org/math/linear-algebra/product/.
[10] 维基百科编者. 内积[G/OL]. 维基百科, 2025(20250703)[2025-07-03]. https://zh.wikipedia.org/w/index.php?title=%E5%86%85%E7%A7%AF&oldid=88045564.
[11] Wikipedia contributors. (2026, April 24). Fourier series. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:55, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Fourier_series&oldid=1350934101.
[12] Wikipedia contributors. (2026, May 20). Fourier transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:55, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Fourier_transform&oldid=1355147665.
[13] Wikipedia contributors. (2026, May 17). Cosine similarity. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:56, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Cosine_similarity&oldid=1354643579.
[14] Wikipedia contributors. (2026, May 11). Laplace transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:56, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Laplace_transform&oldid=1353668445.
[15] Wikipedia contributors. (2026, May 8). Z-transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Z-transform&oldid=1353129057.
[16] Wikipedia contributors. (2025, June 1). Frequency domain. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Frequency_domain&oldid=1293464779.
[17] Wikipedia contributors. (2026, May 20). Convolution. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Convolution&oldid=1355143781.
[18] Wikipedia contributors. (2026, April 25). Discrete cosine transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Discrete_cosine_transform&oldid=1350947997.
[19] Wikipedia contributors. (2026, May 19). JPEG. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=JPEG&oldid=1355030069.
[20] Wikipedia contributors. (2026, April 29). Wavelet. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Wavelet&oldid=1351640900.
[21] Wikipedia contributors. (2026, March 22). Word embedding. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:59, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Word_embedding&oldid=1344811356.
[22] Wikipedia contributors. (2025, November 24). Kernel method. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Kernel_method&oldid=1323912764.
[23] Wikipedia contributors. (2026, April 19). Support vector machine. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Support_vector_machine&oldid=1350010737.
[24] Wikipedia contributors. (2026, May 23). Cluster analysis. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Cluster_analysis&oldid=1355672094.
[25] Wikipedia contributors. (2026, April 8). Regression analysis. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Regression_analysis&oldid=1347668389.
[26] Wikipedia contributors. (2026, May 22). Quantum mechanics. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Quantum_mechanics&oldid=1355584024.
[27] Wikipedia contributors. (2026, May 20). Uncertainty principle. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Uncertainty_principle&oldid=1355179215.

Comments NOTHING