# Vom Punktprodukt zum Innenproduktraum: Die vereinheitlichte Sprache hinter linearer Algebra, Signalverarbeitung und KI (From Dot Product to Inner Product Space: The Unified Language Behind Linear Algebra, Signals, and AI)

## Zusammenfassung (Abstract)

Das **Innenprodukt(Inner Product)** ist eine fundamentale algebraische Struktur, die sich durch lineare Algebra, Funktionalanalysis, Signalverarbeitung, maschinelles Lernen und Quantenmechanik zieht. Diese Arbeit behandelt das Innenprodukt als einziges Thema, beginnend mit dem Punktprodukt(Dot Product) im endlichdimensionalen euklidischen Raum, und führt nacheinander die Axiome des Innenproduktraums, die orthogonale Zerlegung(Orthogonal Decomposition), die Kleinste-Quadrate-Projektion(Least-Squares Projection), den Hilbertraum(Hilbert Space), die Fourier-Reihe und -Transformation(Fourier Series and Transform), die Faltung(Convolution), die diskrete Kosinustransformation(Discrete Cosine Transform), die Wavelet-Analyse(Wavelet Analysis), den Selbstaufmerksamkeitsmechanismus(Self-Attention Mechanism), die Kernmethode(Kernel Method) und die Zustandsvektorprojektion(State-Vector Projection) in der Quantenmechanik ein. Es wird gezeigt, dass diese scheinbar unterschiedlichen Fachgebiete in ihrer mathematischen Struktur vereinheitlicht sind: **Definition des Innenprodukts → Aufstellung einer Orthonormalbasis → Projektionszerlegung → Informationsextraktion**. Ziel dieser Arbeit ist es, dem Leser eine kognitive Landkarte(Cognitive Map) zu bieten, die Mathematik, Ingenieurwissenschaften und Physik miteinander verbindet.

## Vorwort: Alles ist Projektion (Preface: Everything Is a Projection)

In der Mathematik und den Ingenieurwissenschaften gibt es ein wiederkehrendes Muster: die Zerlegung komplexer Objekte in Linearkombinationen von "Elementarkomponenten", wobei das Werkzeug der Zerlegung genau die **Projektion(Projection)** ist. Das Wesen der Projektionsoperation ist das Innenprodukt(Inner Product) — eine binäre Operation zur Messung von **Ähnlichkeit(Similarity)** . Von der Zerlegung von Signalen in Sinuswellen verschiedener Frequenzen in der Fourier-Analyse über die Suche nach der am besten passenden Geraden durch Datenpunkte mittels der Methode der kleinsten Quadrate bis hin zur Messung eines Teilchens im Überlagerungszustand in der Quantenmechanik — all diese Prozesse teilen dieselbe mathematische Sprache: **Definition des Innenprodukts → Aufstellung einer Orthonormalbasis → Projektion → orthogonale Zerlegung → Informationsextraktion**.

Das Ziel dieser Arbeit ist es, dieses vereinheitlichte Framework systematisch zu erläutern. Ausgehend vom vertrauten Punktprodukt(Dot Product) von Vektoren wird schrittweise zum Innenproduktraum(Inner Product Space) und Hilbertraum(Hilbert Space) abstrahiert, um zu zeigen, wie diese Struktur in der Analysis, Signalverarbeitung, künstlichen Intelligenz und Quantenmechanik immer wieder auftaucht. Vorkenntnisse in Funktionalanalysis(Functional Analysis) sind nicht erforderlich; grundlegende Kenntnisse in linearer Algebra und Analysis genügen.

---

## Kapitel 1 Die Ontologie des Innenprodukts — Die fundamentale Operation zur Messung von Ähnlichkeit (Chapter 1 The Ontology of Inner Products — The Fundamental Operation for Measuring Similarity)

### 1.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

Das Konzept des **Innenprodukts(Inner Product)** hat seinen Ursprung im Punktprodukt(Dot Product) der euklidischen Geometrie, aber seine mathematische Bedeutung wurde in der Funktionalanalysis(Functional Analysis) erheblich erweitert. Dieser Abschnitt beginnt mit dem endlichdimensionalen Fall und entwickelt schrittweise die rigorose Definition des Innenprodukts.

```ad-definition
title: Definition 1.1 Punktprodukt (Definition 1.1 Dot Product)
Sei $\mathbb{R}^n$ der $n$-dimensionale reelle euklidische Raum. Für zwei beliebige Vektoren $\mathbf{a} = (a_1, a_2, \dots, a_n)$ und $\mathbf{b} = (b_1, b_2, \dots, b_n)$ ist das Punktprodukt als die Summe der Produkte der entsprechenden Komponenten definiert$^{[1]}$:

$$
\langle \mathbf{a}, \mathbf{b} \rangle = \mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i b_i.
\tag{1.1}
$$

Das Punktprodukt ist eine binäre Operation, die zwei Vektoren auf einen Skalar abbildet. Seine geometrische Interpretation wird durch das Kosinusgesetz(Cosine Law) gegeben:

$$
\mathbf{a} \cdot \mathbf{b} = \|\mathbf{a}\| \|\mathbf{b}\| \cos\theta,
\tag{1.2}
$$

wobei $\|\mathbf{a}\| = \sqrt{\langle \mathbf{a}, \mathbf{a} \rangle}$ die euklidische Norm ($L_2$-Norm) des Vektors und $\theta$ der Winkel zwischen den beiden Vektoren ist.
```

```ad-definition
title: Definition 1.2 Innenproduktraum (Definition 1.2 Inner Product Space)
Sei $V$ ein Vektorraum über dem Körper $\mathbb{F}$ ($\mathbb{R}$ oder $\mathbb{C}$). Eine Abbildung $\langle \cdot, \cdot \rangle: V \times V \to \mathbb{F}$ heißt **Innenprodukt(Inner Product)** , wenn sie die folgenden drei Axiome erfüllt$^{[8][9]}$:

1. **Konjugierte Symmetrie(Conjugate Symmetry)**: $\langle \mathbf{u}, \mathbf{v} \rangle = \overline{\langle \mathbf{v}, \mathbf{u} \rangle}$, wobei der Überstrich die komplexe Konjugation bezeichnet. Für reelle Vektorräume reduziert sich dies auf Symmetrie $\langle \mathbf{u}, \mathbf{v} \rangle = \langle \mathbf{v}, \mathbf{u} \rangle$.
2. **Linearität im ersten Argument(Linearity in the First Argument)**: $\langle \alpha\mathbf{u} + \beta\mathbf{v}, \mathbf{w} \rangle = \alpha\langle \mathbf{u}, \mathbf{w} \rangle + \beta\langle \mathbf{v}, \mathbf{w} \rangle$ für alle $\alpha, \beta \in \mathbb{F}$.
3. **Positive Definitheit(Positive Definiteness)**: $\langle \mathbf{v}, \mathbf{v} \rangle \geq 0$, und $\langle \mathbf{v}, \mathbf{v} \rangle = 0$ gilt genau dann, wenn $\mathbf{v} = \mathbf{0}$.

Aus dem Innenprodukt wird die Norm $\|\mathbf{v}\| = \sqrt{\langle \mathbf{v}, \mathbf{v} \rangle}$ abgeleitet, und daraus der Abstand $d(\mathbf{u}, \mathbf{v}) = \|\mathbf{u} - \mathbf{v}\|$. Somit ist ein Innenproduktraum natürlicherweise ein normierter Raum(Normed Space) und weiterhin ein metrischer Raum(Metric Space).
```

```ad-theorem
title: Satz 1.1 Cauchy-Schwarz-Ungleichung (Theorem 1.1 Cauchy-Schwarz Inequality)
Für jeden Innenproduktraum $V$ gilt für alle $\mathbf{u}, \mathbf{v} \in V$ die Cauchy-Schwarz-Ungleichung$^{[8]}$:

$$
|\langle \mathbf{u}, \mathbf{v} \rangle| \leq \|\mathbf{u}\| \cdot \|\mathbf{v}\|.
\tag{1.3}
$$

Die Gleichheit gilt genau dann, wenn $\mathbf{u}$ und $\mathbf{v}$ linear abhängig sind (d.h. kollinear).

**Beweis**: Betrachte $\langle \mathbf{u} - \lambda\mathbf{v}, \mathbf{u} - \lambda\mathbf{v} \rangle \geq 0$ für $\lambda = \frac{\langle \mathbf{u}, \mathbf{v} \rangle}{\langle \mathbf{v}, \mathbf{v} \rangle}$. Durch Ausmultiplizieren erhält man $\|\mathbf{u}\|^2 - \frac{|\langle \mathbf{u}, \mathbf{v} \rangle|^2}{\|\mathbf{v}\|^2} \geq 0$, woraus die Ungleichung folgt. $\square$
```

```ad-definition
title: Definition 1.3 Kosinusähnlichkeit (Definition 1.3 Cosine Similarity)
Die Kosinusähnlichkeit(Cosine Similarity) ist der Kosinus des Winkels zwischen zwei Vektoren, definiert als das normalisierte Innenprodukt$^{[13]}$:

$$
\text{cosine\_similarity}(\mathbf{a}, \mathbf{b}) = \frac{\langle \mathbf{a}, \mathbf{b} \rangle}{\|\mathbf{a}\| \|\mathbf{b}\|} = \cos\theta.
\tag{1.5}
$$

Der Wertebereich liegt in $[-1, 1]$: $\cos\theta = 1$ bedeutet, dass die Vektoren in die gleiche Richtung zeigen (maximale Ähnlichkeit); $\cos\theta = 0$ bedeutet Orthogonalität (keine Ähnlichkeit); $\cos\theta = -1$ bedeutet entgegengesetzte Richtung (maximale Unähnlichkeit). Die Kosinusähnlichkeit ist invariant gegenüber der Skalierung von Vektoren, d.h. $\text{cosine\_similarity}(\mathbf{a}, \mathbf{b}) = \text{cosine\_similarity}(c\mathbf{a}, \mathbf{b})$.
```

### 1.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition)

Die geometrische Bedeutung des Punktprodukts $\mathbf{a} \cdot \mathbf{b} = \|\mathbf{a}\| \|\mathbf{b}\| \cos\theta$ lässt sich in drei Fälle unterteilen:

1. **$\theta = 0$ (parallele Vektoren)**: $\mathbf{a} \cdot \mathbf{b} = \|\mathbf{a}\| \|\mathbf{b}\|$, das Innenprodukt ist maximal;
2. **$\theta = 90^\circ$ (orthogonale Vektoren)**: $\mathbf{a} \cdot \mathbf{b} = 0$, das Innenprodukt ist Null;
3. **$\theta = 180^\circ$ (antiparallele Vektoren)**: $\mathbf{a} \cdot \mathbf{b} = -\|\mathbf{a}\| \|\mathbf{b}\|$, das Innenprodukt ist minimal.

Das Punktprodukt misst im Wesentlichen die **Projektionslänge(Projection Length)** : $\mathbf{a} \cdot \hat{\mathbf{b}}$ (wobei $\hat{\mathbf{b}}$ der Einheitsvektor in Richtung $\mathbf{b}$ ist) ist die Länge der orthogonalen Projektion von $\mathbf{a}$ auf die Richtung von $\mathbf{b}$. Diese "Projektion zum Messen von Ähnlichkeit" ist der konzeptionelle Kern, der sich durch diese gesamte Arbeit zieht.

Abbildung 1 zeigt eine $5 \times 5$ Kosinusähnlichkeitsmatrix für fünf Worteinbettungsvektoren(Word Embedding Vectors). Die semantische Ähnlichkeit zwischen Wörtern wird durch die Kosinusähnlichkeit ihrer Einbettungsvektoren gemessen. "King" und "Queen" haben eine hohe Ähnlichkeit (0.98), während "Apple" mit den anderen Wörtern eine geringe Ähnlichkeit aufweist (ca. 0.2). Dies zeigt intuitiv, wie das Innenprodukt als universelles Werkzeug zur Messung von Ähnlichkeit in der KI fungiert.

**Abbildung 1: Kosinusähnlichkeitsmatrix von Worteinbettungen (Figure 1: Cosine Similarity Heatmap of Word Embeddings).** Die Farbintensität stellt die Kosinusähnlichkeit zwischen Wortpaaren dar. Die Einbettungen von "king" und "queen" sind einander sehr ähnlich (0.98), während "apple" mit den anderen Wörtern eine geringe Ähnlichkeit aufweist. Erstellt von main.py.

### 1.3 Ausführliches Beispiel mit Lösung (Worked Example)

```ad-example
title: Beispiel 1.1 Gram-Schmidt-Orthonormalisierung — Manuelle Berechnung (Example 1.1 Gram-Schmidt Orthonormalization — Manual Calculation)

Gegeben seien zwei Vektoren im $\mathbb{R}^3$: $\mathbf{v}_1 = (1, 1, 0)$, $\mathbf{v}_2 = (1, 2, 1)$. Konstruiere daraus eine Orthonormalbasis(Orthonormal Basis) $\{\mathbf{u}_1, \mathbf{u}_2\}$ des von $\{\mathbf{v}_1, \mathbf{v}_2\}$ aufgespannten Unterraums.

**Lösung**:

**Schritt 1**: Wähle $\mathbf{v}_1$ als Startvektor und normalisiere ihn:

$$
\mathbf{u}_1 = \frac{\mathbf{v}_1}{\|\mathbf{v}_1\|} = \frac{(1, 1, 0)}{\sqrt{1^2 + 1^2 + 0^2}} = \frac{(1, 1, 0)}{\sqrt{2}} = \left(\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}, 0\right).
$$

**Schritt 2**: Entferne die Projektion von $\mathbf{v}_2$ auf $\mathbf{u}_1$:

$$
\langle \mathbf{v}_2, \mathbf{u}_1 \rangle = 1 \cdot \frac{1}{\sqrt{2}} + 2 \cdot \frac{1}{\sqrt{2}} + 1 \cdot 0 = \frac{3}{\sqrt{2}}.
$$

$$
\mathbf{w}_2 = \mathbf{v}_2 - \langle \mathbf{v}_2, \mathbf{u}_1 \rangle \mathbf{u}_1 = (1, 2, 1) - \frac{3}{\sqrt{2}} \left(\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}, 0\right) = (1, 2, 1) - \left(\frac{3}{2}, \frac{3}{2}, 0\right) = \left(-\frac{1}{2}, \frac{1}{2}, 1\right).
$$

**Schritt 3**: Normalisiere $\mathbf{w}_2$:

$$
\|\mathbf{w}_2\| = \sqrt{\left(-\frac{1}{2}\right)^2 + \left(\frac{1}{2}\right)^2 + 1^2} = \sqrt{\frac{1}{4} + \frac{1}{4} + 1} = \sqrt{\frac{3}{2}} = \frac{\sqrt{6}}{2}.
$$

$$
\mathbf{u}_2 = \frac{\mathbf{w}_2}{\|\mathbf{w}_2\|} = \frac{(-1/2, 1/2, 1)}{\sqrt{6}/2} = \left(-\frac{1}{\sqrt{6}}, \frac{1}{\sqrt{6}}, \frac{2}{\sqrt{6}}\right).
$$

**Überprüfung**: $\langle \mathbf{u}_1, \mathbf{u}_2 \rangle = \frac{1}{\sqrt{2}} \cdot \left(-\frac{1}{\sqrt{6}}\right) + \frac{1}{\sqrt{2}} \cdot \frac{1}{\sqrt{6}} + 0 \cdot \frac{2}{\sqrt{6}} = -\frac{1}{\sqrt{12}} + \frac{1}{\sqrt{12}} + 0 = 0$, und $\|\mathbf{u}_1\| = \|\mathbf{u}_2\| = 1$. Die Orthonormalbasis ist korrekt konstruiert.

**Wichtige Beobachtung**: Der Kernschritt ist $\mathbf{w}_2 = \mathbf{v}_2 - \text{proj}_{\mathbf{u}_1}(\mathbf{v}_2)$, d.h. die Subtraktion der Projektion. Dies stellt sicher, dass $\mathbf{w}_2$ orthogonal zu $\mathbf{u}_1$ ist. Dieses "Projizieren und Subtrahieren" ist die grundlegende Idee der orthogonalen Zerlegung(Orthogonal Decomposition).
```

### 1.4 Anwendungen in Technik und Spitzenforschung (Engineering and Cutting-Edge Applications)

Das Punktprodukt und die Kosinusähnlichkeit sind in der modernen KI allgegenwärtig:

- **Worteinbettungen(Word Embeddings)**$^{[21]}$: In Modellen wie Word2Vec und GloVe wird die semantische Ähnlichkeit zwischen Wörtern durch die Kosinusähnlichkeit ihrer Einbettungsvektoren gemessen. Das klassische Beispiel "king - man + woman = queen" wird durch Innenproduktoperationen im Einbettungsraum realisiert.
- **Empfehlungssysteme(Recommendation Systems)** : Die Ähnlichkeit zwischen Benutzern oder Artikeln wird durch das Innenprodukt ihrer Merkmalsvektoren gemessen (Collaborative Filtering).
- **Aufmerksamkeitsmechanismus(Attention Mechanism)** : Im Transformer-Modell wird die Relevanz zwischen Tokens durch das Innenprodukt von Query- und Key-Vektoren berechnet (wird in Kapitel 11 ausführlich behandelt).
- **Informationsabruf(Information Retrieval)** : Die Kosinusähnlichkeit zwischen dem Anfragevektor und dem Dokumentvektor wird zur Bewertung der Dokumentrelevanz verwendet.

---

## Kapitel 2 Orthogonale Zerlegung — Die Kunst, Komplexität zu entwirren (Chapter 2 Orthogonal Decomposition — The Art of Untangling Complexity)

### 2.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

Orthogonalität(Orthogonality) ist eines der wichtigsten Konzepte im Innenproduktraum. Zwei Vektoren sind orthogonal, wenn ihr Innenprodukt Null ist: $\langle \mathbf{u}, \mathbf{v} \rangle = 0$. Dieses Konzept kann auf Unterräume erweitert werden.

```ad-definition
title: Definition 2.1 Orthogonales Komplement (Definition 2.1 Orthogonal Complement)
Sei $U$ ein Unterraum von $V$. Das **orthogonale Komplement(Orthogonal Complement)** $U^\perp$ ist definiert als die Menge aller Vektoren in $V$, die orthogonal zu jedem Vektor in $U$ sind$^{[2]}$:

$$
U^\perp = \{\mathbf{v} \in V \mid \langle \mathbf{v}, \mathbf{u} \rangle = 0,\ \forall \mathbf{u} \in U\}.
\tag{2.1}
$$

$U^\perp$ ist ebenfalls ein Unterraum von $V$.
```

```ad-theorem
title: Satz 2.1 Orthogonale direkte Summenzerlegung (Theorem 2.1 Orthogonal Direct Sum Decomposition)
Sei $U$ ein Unterraum von $V$. Dann kann $V$ als orthogonale direkte Summe(Orthogonal Direct Sum) von $U$ und $U^\perp$ zerlegt werden$^{[2]}$:

$$
V = U \oplus U^\perp.
\tag{2.2}
$$

Das bedeutet, jeder Vektor $\mathbf{v} \in V$ kann eindeutig geschrieben werden als $\mathbf{v} = \mathbf{u} + \mathbf{w}$, wobei $\mathbf{u} \in U$ und $\mathbf{w} \in U^\perp$. Die Eindeutigkeit folgt aus der Tatsache, dass $U \cap U^\perp = \{\mathbf{0}\}$.
```

```ad-theorem
title: Satz 2.2 Projektion auf Orthonormalbasis (Theorem 2.2 Projection onto Orthonormal Basis)
Sei $\{\mathbf{e}_1, \dots, \mathbf{e}_k\}$ eine Orthonormalbasis(Orthonormal Basis) von $U$. Dann ist die orthogonale Projektion(Orthogonal Projection) eines Vektors $\mathbf{v}$ auf $U$ gegeben durch:

$$
\mathbf{u} = \text{proj}_U(\mathbf{v}) = \sum_{i=1}^{k} \langle \mathbf{v}, \mathbf{e}_i \rangle \mathbf{e}_i.
\tag{2.3}
$$

Die Projektionskoeffizienten $\langle \mathbf{v}, \mathbf{e}_i \rangle$ sind die Koordinaten von $\mathbf{v}$ in der Basis $\{\mathbf{e}_i\}$.
```

### 2.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition)

Die orthogonale Zerlegung(Orthogonal Decomposition) ist eine der elegantesten Ideen in der Mathematik. Sie besagt: Jeder Vektor kann eindeutig in zwei orthogonale Komponenten zerlegt werden — eine, die im Unterraum $U$ liegt, und eine, die senkrecht dazu steht. Dies ist die Verallgemeinerung der Zerlegung einer Kraft in Komponenten in der Physik.

Die orthogonale Projektion(Orthogonal Projection) $\text{proj}_U(\mathbf{v})$ ist die beste Approximation von $\mathbf{v}$ durch Vektoren aus $U$, und der Projektionsfehler $\mathbf{v} - \text{proj}_U(\mathbf{v})$ steht senkrecht auf $U$. Diese "beste Approximation"-Eigenschaft ist die Grundlage der Methode der kleinsten Quadrate.

### 2.3 Ausführliches Beispiel mit Lösung (Worked Example)

```ad-example
title: Beispiel 2.1 Orthogonale Zerlegung im $\mathbb{R}^3$ — Manuelle Berechnung (Example 2.1 Orthogonal Decomposition in $\mathbb{R}^3$ — Manual Calculation)

Gegeben sei $\mathbf{v} = (3, 4, 5)$ und der von $\mathbf{e}_1 = (1, 0, 0)$ und $\mathbf{e}_2 = (0, 1, 0)$ aufgespannte Unterraum $U$ (die $xy$-Ebene). Zerlege $\mathbf{v}$ in seine Projektion auf $U$ und die dazu orthogonale Komponente.

**Lösung**:

**Schritt 1**: Da $\{\mathbf{e}_1, \mathbf{e}_2\}$ eine Orthonormalbasis von $U$ ist, kann die Projektion direkt nach Formel (2.3) berechnet werden:

$$
\mathbf{u} = \langle \mathbf{v}, \mathbf{e}_1 \rangle \mathbf{e}_1 + \langle \mathbf{v}, \mathbf{e}_2 \rangle \mathbf{e}_2 = 3 \cdot (1, 0, 0) + 4 \cdot (0, 1, 0) = (3, 4, 0).
$$

**Schritt 2**: Die orthogonale Komponente ist:

$$
\mathbf{w} = \mathbf{v} - \mathbf{u} = (3, 4, 5) - (3, 4, 0) = (0, 0, 5).
$$

**Schritt 3**: Überprüfung der Orthogonalität: $\langle \mathbf{u}, \mathbf{w} \rangle = 3 \cdot 0 + 4 \cdot 0 + 0 \cdot 5 = 0$. Die Zerlegung ist korrekt.

**Wichtige Beobachtung**: $\mathbf{u} = (3, 4, 0)$ ist die Projektion von $\mathbf{v}$ auf die $xy$-Ebene, und $\mathbf{w} = (0, 0, 5)$ ist die $z$-Komponente. Die Zerlegung $\mathbf{v} = \mathbf{u} + \mathbf{w}$ entspricht der Aufteilung des Vektors in einen horizontalen und einen vertikalen Anteil.
```

```ad-example
title: Beispiel 2.2 Gram-Schmidt-Verfahren — Vom $\mathbb{R}^3$ zum Funktionenraum (Example 2.2 Gram-Schmidt Process — From $\mathbb{R}^3$ to Function Space)

Wende das Gram-Schmidt-Verfahren auf die Vektoren $\mathbf{a}_1 = (1, 1, 1)$, $\mathbf{a}_2 = (1, 2, 3)$ im $\mathbb{R}^3$ an, um eine Orthonormalbasis zu konstruieren.

**Lösung**:

**Schritt 1**: Normalisiere $\mathbf{a}_1$:

$$
\|\mathbf{a}_1\| = \sqrt{1^2 + 1^2 + 1^2} = \sqrt{3}, \quad \mathbf{q}_1 = \frac{(1, 1, 1)}{\sqrt{3}} = \left(\frac{1}{\sqrt{3}}, \frac{1}{\sqrt{3}}, \frac{1}{\sqrt{3}}\right).
$$

**Schritt 2**: Entferne die Projektion von $\mathbf{a}_2$ auf $\mathbf{q}_1$:

$$
\langle \mathbf{a}_2, \mathbf{q}_1 \rangle = 1 \cdot \frac{1}{\sqrt{3}} + 2 \cdot \frac{1}{\sqrt{3}} + 3 \cdot \frac{1}{\sqrt{3}} = \frac{6}{\sqrt{3}} = 2\sqrt{3}.
$$

$$
\mathbf{w}_2 = \mathbf{a}_2 - \langle \mathbf{a}_2, \mathbf{q}_1 \rangle \mathbf{q}_1 = (1, 2, 3) - 2\sqrt{3} \cdot \left(\frac{1}{\sqrt{3}}, \frac{1}{\sqrt{3}}, \frac{1}{\sqrt{3}}\right) = (1, 2, 3) - (2, 2, 2) = (-1, 0, 1).
$$

**Schritt 3**: Normalisiere $\mathbf{w}_2$:

$$
\|\mathbf{w}_2\| = \sqrt{(-1)^2 + 0^2 + 1^2} = \sqrt{2}, \quad \mathbf{q}_2 = \left(-\frac{1}{\sqrt{2}}, 0, \frac{1}{\sqrt{2}}\right).
$$

**Überprüfung**: $\langle \mathbf{q}_1, \mathbf{q}_2 \rangle = \frac{1}{\sqrt{3}} \cdot \left(-\frac{1}{\sqrt{2}}\right) + \frac{1}{\sqrt{3}} \cdot 0 + \frac{1}{\sqrt{3}} \cdot \frac{1}{\sqrt{2}} = 0$. Die Orthonormalbasis ist korrekt.

**Anwendung**: Die QR-Zerlegung(QR Decomposition) $A = QR$ ist eine Matrixformulierung des Gram-Schmidt-Verfahrens, wobei $Q$ orthogonale Spalten und $R$ eine obere Dreiecksmatrix ist. Die QR-Zerlegung wird häufig zur Lösung linearer Ausgleichsprobleme verwendet.
```

### 2.4 Anwendungen in Technik und Spitzenforschung (Engineering and Cutting-Edge Applications)

Die Hauptkomponentenanalyse(PCA: Principal Component Analysis) ist eine der wichtigsten Anwendungen der orthogonalen Zerlegung. PCA findet die Richtungen maximaler Varianz in den Daten durch orthogonale Zerlegung der Kovarianzmatrix:

1. **Berechne die Kovarianzmatrix**: $C = \frac{1}{n} \sum_{i=1}^{n} (\mathbf{x}_i - \bar{\mathbf{x}})(\mathbf{x}_i - \bar{\mathbf{x}})^T$;
2. **Eigenwertzerlegung**: $C = Q \Lambda Q^T$, wobei $Q$ orthogonale Eigenvektoren (Hauptkomponenten) und $\Lambda$ die Eigenwerte (Varianzen) enthält;
3. **Dimensionsreduktion**: Projiziere die Daten auf die ersten $k$ Hauptkomponenten: $\mathbf{y}_i = Q_k^T (\mathbf{x}_i - \bar{\mathbf{x}})$.

PCA wird in der Bildkompression (Eigenfaces), der Genexpressionsanalyse und der Finanzmodellierung eingesetzt. Sein Kern ist die orthogonale Zerlegung des Datenraums.

---

## Kapitel 3 Die Methode der kleinsten Quadrate — Optimale Approximation, wenn keine exakte Lösung existiert (Chapter 3 Least Squares — Optimal Approximation When No Exact Solution Exists)

### 3.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

In der Praxis haben lineare Gleichungssysteme $A\mathbf{x} = \mathbf{b}$ oft keine exakte Lösung, weil $\mathbf{b}$ nicht im Spaltenraum von $A$ liegt. Die Methode der kleinsten Quadrate(Least Squares Method) findet die beste Näherungslösung, indem sie $\mathbf{b}$ orthogonal auf den Spaltenraum von $A$ projiziert$^{[5]}$.

```ad-theorem
title: Satz 3.1 Normalgleichungen (Theorem 3.1 Normal Equations)
Für ein überbestimmtes lineares System $A\mathbf{x} \approx \mathbf{b}$ ($A \in \mathbb{R}^{m \times n}$, $m > n$) ist die Kleinste-Quadrate-Lösung $\hat{\mathbf{x}}$ gegeben durch die Normalgleichungen(Normal Equations):

$$
A^T A \hat{\mathbf{x}} = A^T \mathbf{b}.
\tag{3.1}
$$

Wenn $A$ vollen Spaltenrang hat, ist $A^T A$ invertierbar, und die eindeutige Lösung ist:

$$
\hat{\mathbf{x}} = (A^T A)^{-1} A^T \mathbf{b}.
\tag{3.2}
$$
```

```ad-theorem
title: Satz 3.2 Projektionsinterpretation der kleinsten Quadrate (Theorem 3.2 Projection Interpretation of Least Squares)
Die Kleinste-Quadrate-Lösung $\hat{\mathbf{x}}$ erfüllt:

$$
A\hat{\mathbf{x}} = \text{proj}_{\text{col}(A)}(\mathbf{b}) = P \mathbf{b},
\tag{3.3}
$$

wobei $P = A(A^T A)^{-1} A^T$ die orthogonale Projektionsmatrix(Projection Matrix) auf den Spaltenraum $\text{col}(A)$ ist. Der Residuenvektor $\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}}$ ist orthogonal zu $\text{col}(A)$, d.h. $A^T \mathbf{r} = \mathbf{0}$.

Die Projektionsmatrix $P$ hat die Eigenschaften $P^T = P$ (Symmetrie) und $P^2 = P$ (Idempotenz), die charakteristisch für orthogonale Projektionen sind.
```

### 3.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition)

Die geometrische Interpretation der Methode der kleinsten Quadrate ist äußerst elegant: Der Beobachtungsvektor $\mathbf{b}$ liegt im Allgemeinen nicht im Spaltenraum $\text{col}(A)$ (dem "Modellraum"). Die Kleinste-Quadrate-Lösung $\hat{\mathbf{x}}$ ist der Punkt im Parameterraum, der die orthogonale Projektion von $\mathbf{b}$ auf $\text{col}(A)$ ergibt, d.h. $A\hat{\mathbf{x}} = \text{proj}_{\text{col}(A)}(\mathbf{b})$. Der Residuenvektor $\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}}$ steht senkrecht auf $\text{col}(A)$.

Diese Projektion minimiert den quadratischen Fehler $\|\mathbf{b} - A\mathbf{x}\|^2$, weil die orthogonale Projektion die kürzeste Entfernung von $\mathbf{b}$ zum Unterraum $\text{col}(A)$ darstellt.

### 3.3 Ausführliches Beispiel mit Lösung (Worked Example)

```ad-example
title: Beispiel 3.1 Lineare Regression — Manuelle Berechnung der Normalgleichungen (Example 3.1 Linear Regression — Manual Calculation of Normal Equations)

Gegeben seien drei Datenpunkte: $(1, 1)$, $(2, 3)$, $(3, 2)$. Finde die Ausgleichsgerade $\hat{y} = \beta_0 + \beta_1 x$ nach der Methode der kleinsten Quadrate.

**Lösung**:

**Schritt 1**: Stelle das überbestimmte System $A\mathbf{x} \approx \mathbf{b}$ auf:

$$
A = \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix}, \quad
\mathbf{x} = \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix}, \quad
\mathbf{b} = \begin{bmatrix} 1 \\ 3 \\ 2 \end{bmatrix}.
$$

**Schritt 2**: Berechne $A^T A$ und $A^T \mathbf{b}$:

$$
A^T A = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 3 \end{bmatrix}
\begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix}
= \begin{bmatrix} 3 & 6 \\ 6 & 14 \end{bmatrix},
$$

$$
A^T \mathbf{b} = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 3 \end{bmatrix}
\begin{bmatrix} 1 \\ 3 \\ 2 \end{bmatrix}
= \begin{bmatrix} 6 \\ 13 \end{bmatrix}.
$$

Normalgleichungen:

$$
\begin{bmatrix} 3 & 6 \\ 6 & 14 \end{bmatrix} \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix} = \begin{bmatrix} 6 \\ 13 \end{bmatrix}.
$$

Normalgleichungen:

$$
\begin{bmatrix} 3 & 6 \\ 6 & 14 \end{bmatrix} \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix} = \begin{bmatrix} 6 \\ 13 \end{bmatrix}.
$$

**Schritt 3**: Löse die Normalgleichungen. Aus der ersten Gleichung: $3\beta_0 + 6\beta_1 = 6 \implies \beta_0 = 2 - 2\beta_1$. Einsetzen in die zweite Gleichung:

$$
6(2 - 2\beta_1) + 14\beta_1 = 13 \implies 12 - 12\beta_1 + 14\beta_1 = 13 \implies 2\beta_1 = 1 \implies \beta_1 = 0.5.
$$

Rücksubstitution: $\beta_0 = 2 - 2 \times 0.5 = 1$. Daher ist die Ausgleichsgerade:

$$
\hat{y} = 1 + 0.5x.
$$

**Schritt 4**: Überprüfe die Orthogonalität. Berechne die angepassten Werte $\hat{\mathbf{b}} = A\hat{\mathbf{x}}$ und die Residuen $\mathbf{e}$:

$$
\hat{\mathbf{b}} = \begin{bmatrix} 1 + 0.5 \times 1 \\ 1 + 0.5 \times 2 \\ 1 + 0.5 \times 3 \end{bmatrix} = \begin{bmatrix} 1.5 \\ 2 \\ 2.5 \end{bmatrix}, \quad
\mathbf{e} = \mathbf{b} - \hat{\mathbf{b}} = \begin{bmatrix} 1 - 1.5 \\ 3 - 2 \\ 2 - 2.5 \end{bmatrix} = \begin{bmatrix} -0.5 \\ 1 \\ -0.5 \end{bmatrix}.
$$

Überprüfe $A^T \mathbf{e} = \mathbf{0}$:

$$
A^T \mathbf{e} = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 3 \end{bmatrix} \begin{bmatrix} -0.5 \\ 1 \\ -0.5 \end{bmatrix} = \begin{bmatrix} -0.5 + 1 - 0.5 \\ -0.5 + 2 - 1.5 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}.
$$

Die Orthogonalitätsbedingung ist erfüllt, was bestätigt, dass $\hat{\mathbf{b}}$ die orthogonale Projektion von $\mathbf{b}$ auf $\text{col}(A)$ ist.
```

### 3.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)

Die Methode der kleinsten Quadrate ist die Grundlage der **Regressionsanalyse(Regression Analysis)** in der Statistik$^{[5][25]}$. Abbildung 2 veranschaulicht die Geometrie des obigen Beispiels: Die schwarzen Punkte sind die ursprünglichen Datenpunkte, die rote Linie ist die Kleinste-Quadrate-Anpassung, und die grauen gestrichelten Linien stellen die Residuen dar (d. h. den senkrechten Abstand von $\mathbf{b}$ zu $\text{col}(A)$).

**Abbildung 2: Geometrische Veranschaulichung der Methode der kleinsten Quadrate.** Die schwarzen Punkte sind die Datenpunkte, die rote Linie ist die Anpassungsgerade. Der Residuenvektor $\mathbf{e}$ steht senkrecht auf dem Spaltenraum $\text{col}(A)$. Die numerische Überprüfung der Orthogonalitätsbedingung $A^T \mathbf{e} = \mathbf{0}$ ergibt $\|A^T \mathbf{e}\|_2 \approx 1.92 \times 10^{-14}$ (berechnet mit main.py), die innerhalb der Gleitkommagenauigkeit Null ist.

Die Methode der kleinsten Quadrate findet breite Anwendung in der Technik: der Messupdate-Schritt des Kalman-Filters, die Parameterschätzung in der Systemidentifikation und das lineare Regressionsmodell im maschinellen Lernen — all dies läuft im Kern auf die Lösung der Normalgleichungen (3.2) hinaus.

---

## Kapitel 4 Vom Endlichdimensionalen zum Unendlichdimensionalen — Funktionen als Vektoren (Chapter 4 From Finite Dimensions to Infinite Dimensions — Functions as Vectors)

### 4.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

Die in den vorangegangenen Kapiteln diskutierten Innenprodukte waren auf den endlichdimensionalen euklidischen Raum $\mathbb{R}^n$ beschränkt. Das Konzept des Innenprodukts lässt sich jedoch auf natürliche Weise auf unendlichdimensionale Funktionenräume verallgemeinern. Diese Verallgemeinerung ist der Kern der Funktionalanalysis(Functional Analysis) und die Brücke, die lineare Algebra mit Signalverarbeitung und Quantenmechanik verbindet.

```ad-definition
title: Definition 4.1 $L^2$-Innenprodukt (Definition 4.1 $L^2$ Inner Product)
Seien $f, g: [a, b] \to \mathbb{R}$ quadratisch integrierbare Funktionen, d. h. $\int_a^b [f(x)]^2 dx < \infty$. Definiere ihr Innenprodukt als $$ \langle f, g \rangle = \int_a^b f(x) g(x) \, dx. \tag{4.1} $$ Die durch dieses Innenprodukt induzierte Norm ist $$ \|f\| = \sqrt{\langle f, f \rangle} = \sqrt{\int_a^b [f(x)]^2 \, dx}, \tag{4.2} $$ genannt $L^2$-Norm, die physikalisch oft als die "Energie" des Signals interpretiert wird. ``` ```ad-definition title: Definition 4.2 Hilbertraum (Definition 4.2 Hilbert Space) Ein vollständiger Innenproduktraum heißt **Hilbertraum(Hilbert Space)**$^{[6][8]}$. Konkret ist ein Hilbertraum $\mathcal{H}$ ein Innenproduktraum, in dem jede Cauchy-Folge in $\mathcal{H}$ konvergiert (d. h. der Raum ist vollständig). Der endlichdimensionale Innenproduktraum $\mathbb{R}^n$ ist ein Spezialfall des Hilbertraums. Beispiele für unendlichdimensionale Hilberträume sind $L^2[a,b]$ (der Raum der quadratisch integrierbaren Funktionen) und $\ell^2$ (der Raum der quadratisch summierbaren Folgen). Die Vollständigkeit des Hilbertraums garantiert die Konvergenz von unendlichen Reihenentwicklungen wie der Fourier-Reihe. ``` ```ad-theorem title: Satz 4.1 Cauchy-Schwarz-Ungleichung im $L^2$-Raum (Theorem 4.1 Cauchy-Schwarz Inequality in $L^2$ Space) Für beliebige Funktionen $f, g$ in $L^2[a,b]$ gilt: $$ \left| \int_a^b f(x) g(x) \, dx \right| \leq \sqrt{\int_a^b [f(x)]^2 \, dx} \cdot \sqrt{\int_a^b [g(x)]^2 \, dx}. \tag{4.3} $$ ``` ### 4.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition) Der Schlüssel zum Verständnis von Funktionen als Vektoren liegt in der Idee der "punktweisen Entsprechung". Im $\mathbb{R}^n$ entspricht die $i$-te Komponente $v_i$ eines Vektors $\mathbf{v} = (v_1, \dots, v_n)$ dem Wert auf der $i$-ten Koordinatenachse. Im Funktionenraum entspricht jedes $x \in [a,b]$ einer unabhängigen "Koordinatenachse", und der Funktionswert $f(x)$ ist die Komponente auf dieser Achse. Daher ist eine Funktion $f$ im Wesentlichen ein Vektor mit überabzählbar unendlich vielen Komponenten. Zwei Funktionen sind orthogonal ($\langle f, g \rangle = 0$), wenn sie im $L^2$-Sinne "keine Anteile voneinander enthalten". Dieses Konzept hat eine tiefe physikalische Bedeutung in der Signalverarbeitung: Orthogonale Signale können im selben Kanal übertragen werden, ohne sich gegenseitig zu stören. ### 4.3 Ausführliches Beispiel mit Lösung (Worked Example) ```ad-example title: Beispiel 4.1 Orthogonalität und Abstandsmessung im Funktionenraum (Example 4.1 Orthogonality and Distance Measurement in Function Space) Auf dem Intervall $[-1, 1]$ seien $f(x) = x$ und $g(x) = x^2$ gegeben. Bestimme, ob sie orthogonal sind, und berechne ihre jeweiligen Normen sowie den Abstand zwischen den Funktionen. **Lösung** (1) Berechne das Innenprodukt: $$ \langle f, g \rangle = \int_{-1}^{1} x \cdot x^2 \, dx = \int_{-1}^{1} x^3 \, dx = \left[ \frac{x^4}{4} \right]_{-1}^{1} = \frac{1}{4} - \frac{1}{4} = 0. $$ Daher ist $\langle f, g \rangle = 0$, d. h. $f$ und $g$ sind auf $[-1,1]$ orthogonal. Der Grund ist, dass $x^3$ eine ungerade Funktion ist und ihr Integral über ein symmetrisches Intervall verschwindet. (2) Berechne die Normen: $$ \|f\| = \sqrt{\int_{-1}^{1} x^2 \, dx} = \sqrt{\left[ \frac{x^3}{3} \right]_{-1}^{1}} = \sqrt{\frac{2}{3}} \approx 0.8165, $$ $$ \|g\| = \sqrt{\int_{-1}^{1} x^4 \, dx} = \sqrt{\left[ \frac{x^5}{5} \right]_{-1}^{1}} = \sqrt{\frac{2}{5}} \approx 0.6325. $$ (3) Berechne den Abstand zwischen den Funktionen: $$ \|f - g\|^2 = \int_{-1}^{1} (x - x^2)^2 \, dx = \int_{-1}^{1} (x^2 - 2x^3 + x^4) \, dx = \frac{2}{3} + 0 + \frac{2}{5} = \frac{16}{15}, $$ also $d(f, g) = \|f - g\| = \sqrt{16/15} \approx 1.0328$. Dieses Beispiel zeigt: Ungerade und gerade Funktionen sind auf symmetrischen Intervallen natürlicherweise orthogonal. Diese Eigenschaft ist in der Fourier-Analyse von entscheidender Bedeutung — sie garantiert die Orthogonalität zwischen Sinus- und Kosinusbasen. ``` ### 4.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications) Die direkteste Anwendung des Funktionen-Innenprodukts in der Technik ist das **angepasste Filter(Matched Filter)**. In Radar- und Kommunikationssystemen wird das Innenprodukt des Empfangssignals $r(t)$ mit der Sendeschablone $s(t)$ $$ \langle r, s \rangle = \int_{-\infty}^{\infty} r(t) s(t) \, dt $$ verwendet, um zu erkennen, ob ein Ziel vorhanden ist. Wenn eine Zielreflexion im Echo vorhanden ist, steigt der Innenproduktwert signifikant an. Dies ist im Wesentlichen eine "Ähnlichkeitserkennung" im Funktionenraum. Darüber hinaus besteht der Kern der **Kernmethode(Kernel Methods)**$^{[22]}$ darin, Datenpunkte in einen reproduzierenden Kernel-Hilbertraum (RKHS) abzubilden, in diesem unendlichdimensionalen Raum Innenprodukte zu berechnen und so implizit eine hochdimensionale Merkmalstransformation zu erreichen. Wir werden dies in Kapitel 12 vertiefen. --- ## Kapitel 5 Orthogonalität trigonometrischer Funktionen — Basisvektoren im Frequenzbereich (Chapter 5 Orthogonality of Trigonometric Functions — Basis Functions in the Frequency Domain) ### 5.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions) Im Hilbertraum $L^2[-\pi, \pi]$ bildet das System der trigonometrischen Funktionen eine wichtige orthogonale Basis. Betrachte die Funktionenmenge $$ \{1,\ \sin x,\ \cos x,\ \sin 2x,\ \cos 2x,\ \dots,\ \sin nx,\ \cos nx,\ \dots\}. $$ ```ad-theorem title: Satz 5.1 Orthogonalität trigonometrischer Funktionen (Theorem 5.1 Orthogonality of Trigonometric Functions) Auf dem Intervall $[-\pi, \pi]$ erfüllt das System der trigonometrischen Funktionen die folgenden Orthogonalitätsrelationen$^{[4]}$: $$ \int_{-\pi}^{\pi} \sin(mx) \cos(nx) \, dx = 0, \quad \forall m, n, \tag{5.1} $$ $$ \int_{-\pi}^{\pi} \sin(mx) \sin(nx) \, dx = 0, \quad m \neq n, \tag{5.2} $$ $$ \int_{-\pi}^{\pi} \cos(mx) \cos(nx) \, dx = 0, \quad m \neq n. \tag{5.3} $$ Die Selbst-Innenprodukte bei gleicher Frequenz sind nicht null: $$ \int_{-\pi}^{\pi} \sin^2(nx) \, dx = \pi, \quad \int_{-\pi}^{\pi} \cos^2(nx) \, dx = \pi. \tag{5.4} $$ **Beweis** Diese Relationen können direkt aus den trigonometrischen Produkt-zu-Summe-Formeln abgeleitet werden. Für (5.2) beispielsweise: $$ \sin(mx)\sin(nx) = \frac{1}{2}[\cos((m-n)x) - \cos((m+n)x)]. $$ Wenn $m \neq n$, sind die Integrale von $\cos((m-n)x)$ und $\cos((m+n)x)$ über $[-\pi, \pi]$ beide null. $\square$ ``` ### 5.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition) Die geometrische Bedeutung der Orthogonalität trigonometrischer Funktionen ist: Sinus- und Kosinuswellen unterschiedlicher Frequenzen stehen im $L^2$-Raum senkrecht aufeinander. Das bedeutet, dass sie sich als "Signale" gegenseitig nicht stören — dies ist die mathematische Grundlage der Frequenzmultiplextechnik. In Kommunikationssystemen können die Daten verschiedener Benutzer auf zueinander orthogonale Träger moduliert und gleichzeitig übertragen werden. Die Empfängerseite kann die einzelnen Signale durch Innenproduktoperationen trennen, selbst wenn sie im Zeitbereich vollständig überlappen. Dieses Prinzip steht im Zentrum der **Frequenzbereich(Frequency Domain)**$^{[16]}$-Analyse in der modernen drahtlosen Kommunikation. ### 5.3 Ausführliches Beispiel mit Lösung (Worked Example) ```ad-example title: Beispiel 5.1 Manuelle Überprüfung der Orthogonalität trigonometrischer Funktionen (Example 5.1 Manual Verification of Trigonometric Orthogonality) Überprüfe auf $[-\pi, \pi]$ die folgenden drei Innenprodukte. **Fall A: $\langle \sin(2x), \cos(3x) \rangle$** $$ \langle \sin(2x), \cos(3x) \rangle = \int_{-\pi}^{\pi} \sin(2x)\cos(3x) \, dx. $$ Mit der Produkt-zu-Summe-Formel $\sin\alpha\cos\beta = \frac{1}{2}[\sin(\alpha+\beta) + \sin(\alpha-\beta)]$: $$ \sin(2x)\cos(3x) = \frac{1}{2}[\sin(5x) + \sin(-x)] = \frac{1}{2}[\sin(5x) - \sin(x)]. $$ Da $\int_{-\pi}^{\pi} \sin(kx) \, dx = 0$ für jede ganze Zahl $k$ gilt, folgt: $$ \langle \sin(2x), \cos(3x) \rangle = \frac{1}{2} \times 0 - \frac{1}{2} \times 0 = 0. $$ **Fall B: $\langle \sin(2x), \sin(3x) \rangle$** Mit $\sin\alpha\sin\beta = \frac{1}{2}[\cos(\alpha-\beta) - \cos(\alpha+\beta)]$: $$ \sin(2x)\sin(3x) = \frac{1}{2}[\cos(-x) - \cos(5x)] = \frac{1}{2}[\cos(x) - \cos(5x)]. $$ Da $\int_{-\pi}^{\pi} \cos(kx) \, dx = 0$ für $k \neq 0$ gilt, folgt: $$ \langle \sin(2x), \sin(3x) \rangle = \frac{1}{2} \times 0 - \frac{1}{2} \times 0 = 0. $$ **Fall C: $\langle \sin(2x), \sin(2x) \rangle$ (Selbst-Innenprodukt)** Mit der Doppelwinkelformel $\sin^2\theta = (1 - \cos 2\theta)/2$: $$ \langle \sin(2x), \sin(2x) \rangle = \int_{-\pi}^{\pi} \frac{1 - \cos(4x)}{2} \, dx = \frac{1}{2} \cdot 2\pi - 0 = \pi. $$ Dieses Ergebnis zeigt, dass $\|\sin(2x)\| = \sqrt{\pi}$, was der Grund dafür ist, dass $\pi$ im Nenner der Fourier-Koeffizienten erscheint. ``` ### 5.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications) **Orthogonales Frequenzmultiplex (OFDM)** ist die Kerntechnologie der modernen 4G/5G-Mobilfunkkommunikation$^{[16]}$. Es teilt einen高速en Datenstrom in mehrere langsame Teilströme auf, die auf zueinander orthogonalen Unterträgern parallel übertragen werden. Aufgrund der Orthogonalität der Unterträger $$ \int_0^T \sin(2\pi f_k t) \cdot \sin(2\pi f_l t) \, dt = 0, \quad k \neq l, $$ kann die Empfängerseite die Signale der einzelnen Unterträger durch Innenproduktoperationen perfekt trennen, selbst wenn sie sich im Spektrum stark überlappen. Dies verbessert die spektrale Effizienz erheblich. --- ## Kapitel 6 Fourier-Reihe und Fourier-Transformation — Projektion von Funktionen auf trigonometrische Basen (Chapter 6 Fourier Series and Fourier Transform — Projection of Functions onto Trigonometric Bases) ### 6.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions) Die Orthogonalität des trigonometrischen Systems ermöglicht es, jede periodische Funktion als Linearkombination trigonometrischer Funktionen verschiedener Frequenzen zu zerlegen. Diese Zerlegung heißt **Fourier-Reihe(Fourier Series)**$^{[11]}$. ```ad-theorem title: Satz 6.1 Fourier-Reihe (Theorem 6.1 Fourier Series) Sei $f(t)$ eine quadratisch integrierbare Funktion mit Periode $2\pi$. Dann lautet ihre Fourier-Reihenentwicklung: $$ f(t) = \frac{a_0}{2} + \sum_{n=1}^{\infty} [a_n \cos(nt) + b_n \sin(nt)], \tag{6.1} $$ wobei die Koeffizienten durch Innenprodukte gegeben sind: $$ a_0 = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \, dt, \tag{6.2} $$ $$ a_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \cos(nt) \, dt = \frac{\langle f, \cos(nt) \rangle}{\|\cos(nt)\|^2}, \tag{6.3} $$ $$ b_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \sin(nt) \, dt = \frac{\langle f, \sin(nt) \rangle}{\|\sin(nt)\|^2}. \tag{6.4} $$ Die Gleichungen (6.3)-(6.4) offenbaren das Wesen der Fourier-Koeffizienten: Sie sind die Projektionskoeffizienten der Funktion $f$ auf die trigonometrischen Basen (Innenprodukt geteilt durch das Quadrat der Norm der Basis), völlig analog zur Berechnung der Koordinaten eines endlichdimensionalen Vektors in einer Orthonormalbasis. Wenn die Periode $T \to \infty$ geht, geht die Fourier-Reihe in die **Fourier-Transformation(Fourier Transform)**$^{[12]}$ über: $$ X(f) = \int_{-\infty}^{\infty} x(t) e^{-j2\pi ft} \, dt = \langle x(t), e^{j2\pi ft} \rangle. \tag{6.5} $$ Die Fourier-Transformation projiziert die Zeitbereichsfunktion $x(t)$ auf die komplexe Exponentialbasis $e^{j2\pi ft}$ und ergibt die Frequenzbereichsdarstellung $X(f)$. ``` ### 6.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition) Das geometrische Wesen der Fourier-Transformation ist die "Sonden"-Idee: Komplexe Exponentialschwingungen verschiedener Frequenzen werden als Sonden verwendet, um das Innenprodukt mit dem zu analysierenden Signal zu berechnen. Wenn das Signal eine bestimmte Frequenzkomponente enthält, ist der Innenproduktwert groß (es entsteht ein Spektrumspitze); wenn nicht, ist der Innenproduktwert nahe null. Jede Spitze im Spektrum entspricht der Projektionsstärke des Signals auf die Basis dieser Frequenz. ### 6.3 Ausführliches Beispiel mit Lösung (Worked Example) ```ad-example title: Beispiel 6.1 Fourier-Reihenentwicklung einer periodischen Rechteckschwingung (Example 6.1 Fourier Series Expansion of a Periodic Square Wave) Gegeben sei eine Rechteckschwingung mit Periode $2\pi$: $$ f(t) = \begin{cases} 1, & 0 < t < \pi, \\ -1, & -\pi < t < 0, \end{cases} $$ Bestimme ihre Fourier-Reihenkoeffizienten. **Lösung** $f(t)$ ist eine ungerade Funktion, daher gilt $a_0 = a_n = 0$ (alle Kosinuskoeffizienten sind null). Es müssen nur die $b_n$ berechnet werden. $$ b_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \sin(nt) \, dt = \frac{1}{\pi} \left( \int_{-\pi}^{0} (-\sin(nt)) \, dt + \int_{0}^{\pi} \sin(nt) \, dt \right). $$ Berechne den ersten Term: $\int_{-\pi}^{0} -\sin(nt) \, dt = \left[ \frac{\cos(nt)}{n} \right]_{-\pi}^{0} = \frac{1}{n} - \frac{\cos(-n\pi)}{n} = \frac{1 - (-1)^n}{n}$. Berechne den zweiten Term: $\int_{0}^{\pi} \sin(nt) \, dt = \left[ -\frac{\cos(nt)}{n} \right]_{0}^{\pi} = -\frac{\cos(n\pi)}{n} + \frac{1}{n} = \frac{1 - (-1)^n}{n}$. Daher: $$ b_n = \frac{1}{\pi} \cdot \frac{2[1 - (-1)^n]}{n} = \begin{cases} \dfrac{4}{n\pi}, & n \text{ ungerade}, \\[6pt] 0, & n \text{ gerade}. \end{cases} \tag{6.6} $$ Die Fourier-Reihenentwicklung der Rechteckschwingung lautet also: $$ f(t) = \frac{4}{\pi} \sum_{k=0}^{\infty} \frac{\sin((2k+1)t)}{2k+1} = \frac{4}{\pi} \left( \sin t + \frac{1}{3}\sin 3t + \frac{1}{5}\sin 5t + \cdots \right). \tag{6.7} $$ Numerische Überprüfung: Für $t = \pi/2$ ergibt die Näherung mit den ersten 3 Termen: $$ f(\pi/2) \approx \frac{4}{\pi} \left( 1 - \frac{1}{3} + \frac{1}{5} \right) = \frac{52}{15\pi} \approx 1.103, $$ was bereits nahe am wahren Wert $1$ liegt. Weitere Terme konvergieren gegen die Rechteckschwingung (das Gibbs-Phänomen erzeugt an den Sprungstellen einen Überschwinger von etwa $9\%$). ``` ### 6.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications) Abbildung 3 zeigt eine typische Anwendung der Fourier-Transformation. Ein verrauschtes Signal $x(t)$, das drei Frequenzkomponenten bei 50 Hz, 120 Hz und 260 Hz enthält, erscheint im Zeitbereich chaotisch. Nach der Fourier-Transformation zeigt das Spektrum drei klare Spitzen bei den entsprechenden Frequenzen — dies sind die Projektionsstärken des Signals auf die einzelnen Frequenzbasen.

**Abbildung 3: Frequenzbereichsprojektion der Fourier-Transformation.** Oben: Zeitbereichsverlauf des verrauschten Mehrtonsignals $x(t) = 1.2\sin(2\pi\cdot 50t) + 0.7\sin(2\pi\cdot 120t) + 0.4\sin(2\pi\cdot 260t) + \eta(t)$; unten: Amplitudenspektrum mit deutlichen Spitzen bei 50, 120 und 260 Hz. Diese Abbildung wurde mit main.py unter Verwendung von `np.fft.rfft` (diskrete Fourier-Transformation) erzeugt, die im Kern die Innenprodukte des abgetasteten Zeitbereichsvektors mit den komplexen Exponentialbasisvektoren berechnet.

Die Fourier-Analyse findet in allen Bereichen der Technik Anwendung: MP3-Audiokompression reduziert die Datenmenge durch Verwerfen hochfrequenter Komponenten, die für das menschliche Ohr nicht hörbar sind; JPEG-Bildkompression verwendet die diskrete Kosinustransformation (DCT)$^{[18]}$, um Bildblöcke auf Frequenzbasen zu projizieren; die Frequenzbereichsdiagnose von EKG-Signalen nutzt Spektrummerkmale zur Identifikation pathologischer Muster.

---

## Kapitel 7 Vom Frequenzbereich zum komplexen Frequenzbereich — Laplace- und Z-Transformation (Chapter 7 From Frequency Domain to Complex Frequency Domain — Laplace and Z-Transforms)

### 7.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

Die Fourier-Transformation setzt voraus, dass das Signal absolut integrierbar ist: $\int_{-\infty}^{\infty} |f(t)|\,dt < \infty$. Für exponentiell divergente Signale wie $f(t) = e^{2t}$ ($t \geq 0$) wächst die Energie mit $t$, und das Innenprodukt der Fourier-Transformation $\langle f(t), e^{-j\omega t} \rangle$ konvergiert nicht. Um dieses Problem zu lösen, muss die Basis von rein imaginären Exponenten $e^{-j\omega t}$ auf komplexe Exponenten $e^{-st}$ mit einem Dämpfungsfaktor im Realteil verallgemeinert werden, wobei $s = \sigma + j\omega$. ```ad-definition title: Definition 7.1 Laplace-Transformation (Definition 7.1 Laplace Transform) Sei $f(t)$ eine auf $[0, \infty)$ definierte Funktion. Ihre **Laplace-Transformation** ist definiert als$^{[14]}$: $$F(s) = \mathcal{L}\{f(t)\} = \int_0^{\infty} f(t) e^{-st}\,dt, \quad s = \sigma + j\omega \in \mathbb{C} \tag{7.1}$$ Wenn der Realteil $\sigma$ von $s$ groß genug ist, kann der Dämpfungsfaktor $e^{-\sigma t}$ die Divergenz von $f(t)$ unterdrücken, sodass das Integral konvergiert. Die Menge der $s$-Werte, für die (7.1) konvergiert, heißt **Konvergenzbereich(Region of Convergence, ROC)**. ``` ```ad-definition title: Definition 7.2 Z-Transformation (Definition 7.2 Z-Transform) Sei $x[n]$ eine auf $\mathbb{Z}$ definierte diskrete Folge. Ihre **Z-Transformation** ist definiert als$^{[15]}$: $$X(z) = \mathcal{Z}\{x[n]\} = \sum_{n=-\infty}^{\infty} x[n] z^{-n}, \quad z = re^{j\omega} \in \mathbb{C} \tag{7.2}$$ Die Z-Transformation kann als das diskrete Gegenstück der Laplace-Transformation betrachtet werden: Mit $z = e^{sT}$ ($T$ = Abtastperiode) entspricht der Einheitskreis $|z| = 1$ in der $z$-Ebene der imaginären Achse $s = j\omega$ in der $s$-Ebene. Aus der Innenproduktperspektive können sowohl die Laplace- als auch die Z-Transformation als Innenprodukte des Signals mit komplexen Exponentialbasisfunktionen verstanden werden: $$\mathcal{L}\{f(t)\} = \langle f(t), e^{st} \rangle, \quad \mathcal{Z}\{x[n]\} = \langle x[n], z^n \rangle$$ wobei die Basisfunktionen $e^{st}$ und $z^n$ zwei Freiheitsgrade besitzen — Amplitudendämpfung (durch $\sigma$ oder $r$) und Phasenrotation (durch $\omega$) — und daher ausdrucksstärker sind als die Basisfunktionen der Fourier-Transformation. ``` ### 7.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition) Die Basis $e^{-j\omega t}$ der Fourier-Transformation ist ein rotierender Vektor auf dem Einheitskreis der komplexen Ebene mit konstantem Betrag 1. Für ein divergentes Signal $e^{2t}$ wächst der Integrand $|e^{2t} \cdot e^{-j\omega t}| = e^{2t}$ mit $t$, und das Integral konvergiert nie. Die Basis $e^{-(\sigma + j\omega)t} = e^{-\sigma t} e^{-j\omega t}$ der Laplace-Transformation fügt einen "Dämpfungsregler" $\sigma$ hinzu. Wenn $\sigma > 2$, übersteigt die Dämpfungsrate von $e^{-\sigma t}$ die Divergenzrate von $e^{2t}$, und das Innenproduktintegral konvergiert. In der komplexen $s$-Ebene:

- **Konvergenzbereich (ROC)**: Der Bereich der $s$-Werte, für den die Transformation konvergiert;
- **Polstelle(Pole)**: Ein Punkt, an dem der Nenner von $F(s)$ null wird und die Transformation gegen unendlich divergiert;
- **Nullstelle(Zero)**: Ein Punkt, an dem der Zähler von $F(s)$ null wird und die Transformation verschwindet.

Die Lage der Polstellen bestimmt direkt die Stabilität des Systems: Wenn alle Polstellen in der linken Halbebene ($\text{Re}(s) < 0$) liegen, ist das System stabil; wenn eine Polstelle in der rechten Halbebene liegt, divergiert das System. Die geometrische Interpretation der Z-Transformation ist ähnlich: $z = re^{j\omega}$, wobei $r$ die Amplitudenskalierung und $\omega$ die Phasenrotation steuert. Der Konvergenzbereich ist ein Ring-/Außenbereich $|z| > R$ (für rechtsseitige Folgen) oder $|z| < R$ (für linksseitige Folgen). Ein diskretes System ist stabil, wenn alle Polstellen innerhalb des Einheitskreises liegen. ### 7.3 Ausführliches Beispiel mit Lösung (Worked Example) ```ad-example title: Beispiel 7.1 Laplace-Transformation einer divergenten Funktion — Polstellen- und Konvergenzbereichsanalyse (Example 7.1 Laplace Transform of a Divergent Function — Pole and ROC Analysis) Gegeben sei die exponentiell divergente Funktion $f(t) = e^{2t}$ ($t \geq 0$). Berechne ihre Laplace-Transformation und analysiere den Konvergenzbereich und die Polstellen. **Lösung**: Einsetzen in die Definition der Laplace-Transformation (7.1): $$F(s) = \int_0^{\infty} e^{2t} \cdot e^{-st}\,dt = \int_0^{\infty} e^{-(s-2)t}\,dt$$ Setze $a = s - 2 = (\sigma - 2) + j\omega$, dann: $$F(s) = \int_0^{\infty} e^{-at}\,dt = \left[-\frac{1}{a}e^{-at}\right]_{t=0}^{t=\infty}$$ Für $t \to \infty$ gilt $e^{-at} \to 0$ genau dann, wenn $\text{Re}(a) > 0$, d. h. $\text{Re}(s - 2) > 0$, also $\sigma > 2$. Unter dieser Bedingung:

$$F(s) = 0 - \left(-\frac{1}{a}\right) = \frac{1}{a} = \frac{1}{s - 2}$$

Daher:

$$\mathcal{L}\{e^{2t}\} = \frac{1}{s - 2}, \quad \text{ROC: } \text{Re}(s) > 2, \quad \text{Polstelle: } s = 2$$

**Analyse**: Die Fourier-Transformation entspricht $\sigma = 0$, und der Realteil von $s = j\omega$ ist 0, was kleiner als 2 ist und daher nicht im Konvergenzbereich liegt — dies erklärt, warum die Fourier-Transformation von $e^{2t}$ nicht existiert. Die Laplace-Transformation führt durch die Einführung des Realteils $\sigma$ einen zusätzlichen Freiheitsgrad ein und verallgemeinert den Integrationsweg von der imaginären Achse auf die rechte Halbebene der komplexen Ebene, wodurch divergente Signale behandelt werden können.
```

```ad-example
title: Beispiel 7.2 Z-Transformation einer diskreten Folge — Konvergenzbereichs- und Stabilitätsanalyse (Example 7.2 Z-Transform of a Discrete Sequence — ROC and Stability Analysis)

Gegeben sei die diskrete Folge $x[n] = (0.5)^n u[n]$, wobei $u[n]$ die Einheitssprungfunktion ist (0 für $n < 0$, 1 für $n \geq 0$). Berechne ihre Z-Transformation und analysiere den Konvergenzbereich und die Stabilität. **Lösung**: Einsetzen in die Definition der Z-Transformation (7.2): $$X(z) = \sum_{n=0}^{\infty} (0.5)^n z^{-n} = \sum_{n=0}^{\infty} (0.5 z^{-1})^n$$ Dies ist eine geometrische Reihe. Sie konvergiert für $|0.5 z^{-1}| < 1$, d. h. $|z| > 0.5$:

$$X(z) = \frac{1}{1 - 0.5z^{-1}} = \frac{z}{z - 0.5}, \quad \text{ROC: } |z| > 0.5$$

Der Konvergenzbereich ist der Außenbereich eines Kreises mit Radius 0,5 um den Ursprung. Der Einheitskreis $|z| = 1$ liegt vollständig im Konvergenzbereich, was bedeutet, dass die diskrete Zeit-Fourier-Transformation (DTFT, entsprechend $z = e^{j\omega}$) dieser Folge existiert. Die Polstelle liegt bei $z = 0.5$, innerhalb des Einheitskreises, daher ist das System stabil.
```

### 7.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)

Die Laplace-Transformation ist das Fundament der Regelungstechnik. In rückgekoppelten Regelungssystemen bestimmt die Lage der Polstellen der Übertragungsfunktion $H(s)$ direkt die Stabilität:

- Alle Polstellen in der linken Halbebene ($\text{Re}(s) < 0$): System stabil, Impulsantwort klingt exponentiell ab; - Eine Polstelle in der rechten Halbebene ($\text{Re}(s) > 0$): System divergiert, Impulsantwort wächst exponentiell;
- Polstellen auf der imaginären Achse ($\text{Re}(s) = 0$): System grenzstabil, Impulsantwort oszilliert mit konstanter Amplitude.

Die Z-Transformation ist der Kern der digitalen Signalverarbeitung. Der Frequenzgang digitaler Filter wird durch die Werte von $H(z)$ auf dem Einheitskreis bestimmt, und die Stabilität wird dadurch bestimmt, ob alle Polstellen innerhalb des Einheitskreises liegen. Der IIR-Filterentwurf besteht im Wesentlichen darin, Pol- und Nullstellen in der $z$-Ebene so zu platzieren, dass der gewünschte Frequenzgang angenähert wird.

---

## Kapitel 8 Das Wesen der Faltung — "Gleitendes Innenprodukt" (Chapter 8 The Essence of Convolution — "Sliding Inner Product")

### 8.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

Die **Faltung(Convolution)** ist eine der zentralsten Operationen in der Signalverarbeitung, Regelungstechnik und im Deep Learning$^{[17]}$. Aus der Innenproduktperspektive ist das Wesen der Faltung eine **Folge von Innenprodukten über ein gleitendes Fenster**.

```ad-definition
title: Definition 8.1 Faltung (Definition 8.1 Convolution)
Seien $f, g: \mathbb{R} \to \mathbb{R}$ zwei stetige Funktionen. Ihre **Faltung** ist definiert als:

$$(f * g)(t) = \int_{-\infty}^{\infty} f(\tau) g(t - \tau)\,d\tau \tag{8.1}$$

Für diskrete Folgen $x, h: \mathbb{Z} \to \mathbb{R}$ ist die **diskrete Faltung** definiert als:

$$(x * h)[n] = \sum_{k=-\infty}^{\infty} x[k]\, h[n - k] \tag{8.2}$$
```

```ad-theorem
title: Proposition 8.1 Innenprodukt-Interpretation der Faltung (Proposition 8.1 Inner Product Interpretation of Convolution)
Zu einem festen Zeitpunkt $t$ ist die Faltungsoperation $(f * g)(t)$ äquivalent zum Innenprodukt zwischen der Funktion $f(\tau)$ und der gespiegelten, verschobenen Funktion $g(\tau)$:

$$(f * g)(t) = \langle f(\tau), g(t - \tau) \rangle = \int f(\tau) g(t - \tau)\,d\tau \tag{8.3}$$

Die Spiegelungsoperation $g(\tau) \to g(-\tau)$ stellt sicher, dass das System kausal ist — der aktuelle Ausgang hängt nur vom aktuellen und vergangenen Eingang ab.
```

```ad-definition
title: Definition 8.2 Kreuzkorrelation (Definition 8.2 Cross-Correlation)
Eine mit der Faltung eng verwandte Operation ist die **Kreuzkorrelation(Cross-Correlation)**:

$$(f \star g)(t) = \int_{-\infty}^{\infty} f(\tau) g(\tau + t)\,d\tau \tag{8.4}$$

Die Kreuzkorrelation enthält keine Spiegelungsoperation und berechnet direkt das Innenprodukt von Signalen bei verschiedenen Verschiebungen. Sie wird häufig für die Template-Matching- und Ähnlichkeitserkennung verwendet.
```

### 8.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition)

Der geometrische Prozess der Faltung kann in vier Schritte unterteilt werden:

1. **Spiegelung**: Die Kernfunktion $g(\tau)$ wird zu $g(-\tau)$ gespiegelt, um die Kausalität zu gewährleisten;
2. **Verschiebung**: Der gespiegelte Kern wird um $t$ verschoben, was $g(t - \tau)$ ergibt;
3. **Multiplikation**: $f(\tau)$ und $g(t - \tau)$ werden punktweise multipliziert;
4. **Integration**: Das Produkt wird summiert (integriert), um den Innenproduktwert zu diesem Zeitpunkt zu erhalten.

Während sich $t$ ändert, gleitet der Kern entlang der Zeitachse, und an jeder Position wird das Innenprodukt zwischen Signal und Kern berechnet. Das Faltungsergebnis $y(t)$ ist die Kurve der Innenproduktwerte über die Gleitposition. Positionen mit großen Innenproduktwerten zeigen an, dass das lokale Signal dem Kern am ähnlichsten ist — dies ist das Prinzip des **angepassten Filters(Matched Filter)**.

In der Bildverarbeitung gleitet ein zweidimensionaler Faltungskern (Kernel) über das Bild, und an jeder Position wird das zweidimensionale Innenprodukt der $k \times k$-Nachbarschaft mit dem Kern berechnet, was eine "Antwortkarte" (Feature Map) ergibt. Regionen mit hohen Antwortwerten zeigen an, dass das lokale Bildpatch am besten mit dem Kernmuster übereinstimmt.

### 8.3 Ausführliches Beispiel mit Lösung (Worked Example)

```ad-example
title: Beispiel 8.1 Gleitendes Innenprodukt der diskreten Faltung — Punktweise Handrechnung (Example 8.1 Sliding Inner Product of Discrete Convolution — Pointwise Manual Calculation)

Gegeben sei die Eingangsfolge $x[n] = [1, 2, 3]$ ($n = 0, 1, 2$) und der Faltungskern $h[n] = [0.5, 1, 0.5]$ ($n = 0, 1, 2$). Berechne die Faltung $y[n] = (x * h)[n]$.

**Lösung**: Gemäß der diskreten Faltungsformel (8.2) punktweise Berechnung:

$n = 0$:
$$y[0] = \sum_{k} x[k]h[0-k] = x[0]h[0] = 1 \times 0.5 = 0.5$$

$n = 1$:
$$y[1] = x[0]h[1] + x[1]h[0] = 1 \times 1 + 2 \times 0.5 = 2$$

$n = 2$:
$$y[2] = x[0]h[2] + x[1]h[1] + x[2]h[0] = 1 \times 0.5 + 2 \times 1 + 3 \times 0.5 = 4$$

$n = 3$:
$$y[3] = x[1]h[2] + x[2]h[1] = 2 \times 0.5 + 3 \times 1 = 4$$

$n = 4$:
$$y[4] = x[2]h[2] = 3 \times 0.5 = 1.5$$

Daher $y[n] = [0.5, 2, 4, 4, 1.5]$. Bei $n = 2, 3$ sind die Faltungswerte am größten (4), da die Überlappung zwischen der Eingangsfolge $[1, 2, 3]$ und dem gespiegelten Kern $[0.5, 1, 0.5]$ maximal ist und das Innenprodukt seinen Spitzenwert erreicht.
```

```ad-example
title: Beispiel 8.2 Sobel-Kantendetektion — Zweidimensionale Faltung als Innenprodukt-Template (Example 8.2 Sobel Edge Detection — 2D Convolution as Inner Product Template)

Der Sobel-Operator besteht aus zwei $3 \times 3$-Faltungskernen zur Erkennung von Kanten in horizontaler bzw. vertikaler Richtung:

$$S_x = \begin{bmatrix} 1 & 0 & -1 \\ 2 & 0 & -2 \\ 1 & 0 & -1 \end{bmatrix}, \quad S_y = \begin{bmatrix} 1 & 2 & 1 \\ 0 & 0 & 0 \\ -1 & -2 & -1 \end{bmatrix}$$

Gegeben sei ein $3 \times 3$-Bildpatch (Grauwerte):

$$I = \begin{bmatrix} 10 & 20 & 30 \\ 10 & 20 & 30 \\ 10 & 20 & 30 \end{bmatrix}$$

Dieser Bildpatch zeigt einen horizontalen Helligkeitsgradienten (von links nach rechts heller werdend), während die Helligkeit in vertikaler Richtung gleichmäßig ist.

**Lösung**: Berechne das zweidimensionale Innenprodukt des Sobel-X-Operators mit dem Bildpatch:

$$G_x = \sum_{i=1}^{3} \sum_{j=1}^{3} S_x(i,j) \cdot I(i,j)$$

$$= (1 \times 10) + (0 \times 20) + (-1 \times 30) + (2 \times 10) + (0 \times 20) + (-2 \times 30) + (1 \times 10) + (0 \times 20) + (-1 \times 30)$$

$$= 10 + 0 - 30 + 20 + 0 - 60 + 10 + 0 - 30 = -80$$

Berechne das zweidimensionale Innenprodukt des Sobel-Y-Operators:

$$G_y = (1 \times 10) + (2 \times 20) + (1 \times 30) + (0 \times 10) + (0 \times 20) + (0 \times 30) + (-1 \times 10) + (-2 \times 20) + (-1 \times 30)$$

$$= 10 + 40 + 30 + 0 + 0 + 0 - 10 - 40 - 30 = 0$$

Die Kantenstärke beträgt:

$$\|\nabla I\| = \sqrt{G_x^2 + G_y^2} = \sqrt{(-80)^2 + 0^2} = 80$$

**Analyse**: $|G_x| = 80$ ist groß, was auf eine signifikante Helligkeitsänderung in horizontaler Richtung hinweist (vertikale Kante); $G_y = 0$ zeigt an, dass die Helligkeit in vertikaler Richtung gleichmäßig ist. Das Wesen der Sobel-Kantendetektion besteht darin, zwei orthogonale Faltungskerne (Innenprodukt-Templates) über das Bild gleiten zu lassen, an jeder Pixel-Nachbarschaft das zweidimensionale Innenprodukt mit dem Kern zu berechnen — Positionen mit großer Innenprodukt-Amplitude sind die Kanten.
```

### 8.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)

> **Abbildung 4: Gleitendes Innenprodukt und angepasstes Filter (Matched Filter)**. Die blaue Kurve zeigt die verrauschte Zufallsfolge $x[n]$, die rote Kurve die Faltungsantwort. Der Template-Impuls $h[n] = [0, 0.35, 1.0, 0.35, 0]$ gleitet entlang der Zeitachse, und an jeder Position wird $\sum x[k]h[n-k]$ berechnet. An den orange markierten Stellen ($n \approx 110, 265, 340$) erreicht der Faltungswert Spitzenwerte, was darauf hindeutet, dass die lokale Signalform an diesen Positionen am besten mit dem Template übereinstimmt. Das Kernprinzip der modernen Radarsignalerfassung beruht auf diesem gleitenden Projektionsmechanismus.

> **Abbildung 5: Zweidimensionale Faltung zur Extraktion von Kantenmerkmalen (Sobel Edge Detection)**. Der Sobel-Operator besteht aus einem Paar orthogonaler $3 \times 3$-Differential-Templates, die Helligkeitsgradienten in $x$- bzw. $y$-Richtung erkennen. Wenn das Template über das Graustufenbild gleitet, heben sich positive und negative Projektionen in flachen Regionen gegenseitig auf (Innenprodukt nahe null), während an Kanten der Helligkeitssprung zu einer signifikanten Zunahme der Innenprodukt-Amplitude führt. Durch die Kombination der beiden orthogonalen Komponenten mittels $\|\nabla I\| = \sqrt{G_x^2 + G_y^2}$ können die Kanteninformationen der physischen Welt extrahiert werden. Dies ist die grundlegende Schicht der Merkmalsextraktion im Computer Vision.

---

## Kapitel 9 Diskrete Kosinustransformation und JPEG-Kompression (Chapter 9 Discrete Cosine Transform and JPEG Compression)

### 9.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

Die **diskrete Kosinustransformation(Discrete Cosine Transform, DCT)** ist der Kernalgorithmus des JPEG-Bildkompressionsstandards$^{[18][19]}$. Aus der Innenproduktperspektive projiziert die DCT Bildblöcke orthogonal auf eine Menge diskreter Kosinusbasisfunktionen und transformiert Pixelwerte im Ortsbereich in Frequenzbereichskoeffizienten.

```ad-definition
title: Definition 9.1 Zweidimensionale DCT (Definition 9.1 2D DCT)
Sei $f(x, y)$ ein $N \times N$-Bildblock ($x, y = 0, 1, \dots, N-1$). Seine zweidimensionale DCT ist definiert als:

$$F(u, v) = \frac{2}{N} C(u) C(v) \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} f(x, y) \cos\left[\frac{(2x+1)u\pi}{2N}\right] \cos\left[\frac{(2y+1)v\pi}{2N}\right] \tag{9.1}$$

wobei $u, v = 0, 1, \dots, N-1$ die Frequenzindizes sind und der Normierungsfaktor:

$$C(k) = \begin{cases} 1/\sqrt{2}, & k = 0 \\ 1, & k \neq 0 \end{cases}$$
```

```ad-theorem
title: Proposition 9.1 DCT als orthogonale Projektion (Proposition 9.1 DCT as Orthogonal Projection)
Definiere $N \times N$ DCT-Basisfunktionen:

$$B_{u,v}(x, y) = \frac{2}{N} C(u) C(v) \cos\left[\frac{(2x+1)u\pi}{2N}\right] \cos\left[\frac{(2y+1)v\pi}{2N}\right]$$

Dann bildet $\{B_{u,v}\}$ eine vollständige Orthonormalbasis von $\mathbb{R}^{N \times N}$, die erfüllt:

$$\langle B_{u,v}, B_{u',v'} \rangle = \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} B_{u,v}(x, y) B_{u',v'}(x, y) = \delta_{u,u'} \delta_{v,v'}$$

Die DCT-Koeffizienten $F(u, v)$ sind genau die Projektionen des Bildblocks $f$ auf die Basisfunktionen $B_{u,v}$:

$$F(u, v) = \langle f, B_{u,v} \rangle = \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} f(x, y) B_{u,v}(x, y) \tag{9.2}$$
```

```ad-theorem
title: Proposition 9.2 Energieverdichtung (Proposition 9.2 Energy Compaction)
Bei natürlichen Bildern konzentriert sich die Energie der DCT-Koeffizienten hauptsächlich im niederfrequenten Bereich (kleine $u, v$), während die hochfrequenten Koeffizienten (große $u, v$) gegen null gehen. JPEG-Kompression nutzt diese Eigenschaft, indem sie kleine hochfrequente Koeffizienten durch Quantisierung verwirft und so eine erhebliche Kompression bei gleichbleibender visueller Qualität erreicht.
```

### 9.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition)

Ein $8 \times 8$-Bildblock kann als Vektor in einem 64-dimensionalen Raum betrachtet werden. Die DCT-Basisfunktionen bilden eine vollständige Orthonormalbasis dieses 64-dimensionalen Raums:

- **$B_{0,0}$ (DC-Basis)**: Konstante Funktion, entspricht der durchschnittlichen Helligkeit des Bildblocks;
- **Niederfrequente Basen** (kleine $u, v$): Sanfte Verlaufsmuster, entsprechen der großskaligen Struktur des Bildes;
- **Hochfrequente Basen** (große $u, v$): Dicht oszillierende Muster, entsprechen feinen Texturen und Rauschen des Bildes.

Durch Projektion des Bildblockvektors auf diese 64 Basisrichtungen erhält man 64 DCT-Koeffizienten. Bei natürlichen Bildern ist die Projektionsenergie stark in den niederfrequenten Koeffizienten (oben links) konzentriert, während die hochfrequenten Koeffizienten (unten rechts) nahe null sind. Die JPEG-Kompression setzt kleine hochfrequente Koeffizienten durch Quantisierung auf null, sodass nur wenige niederfrequente Koeffizienten benötigt werden, um den ursprünglichen Bildblock näherungsweise zu rekonstruieren.

### 9.3 Ausführliches Beispiel mit Lösung (Worked Example)

```ad-example
title: Beispiel 9.1 Manuelle Berechnung der DCT-Projektionskoeffizienten eines $2 \times 2$-Bildblocks (Example 9.1 Manual Calculation of DCT Projection Coefficients for a $2 \times 2$ Image Block)

Um das Projektionswesen der DCT zu veranschaulichen, betrachten wir einen winzigen Bildblock mit $N = 2$. Die $2 \times 2$-DCT-Basismatrix ist:

$$T = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}$$

$T$ ist eine orthogonale Matrix, die $T^T T = I$ erfüllt. Gegeben sei der Graustufen-Bildblock:

$$I = \begin{bmatrix} 100 & 80 \\ 60 & 40 \end{bmatrix}$$

Die zweidimensionale DCT kann durch Matrixmultiplikation realisiert werden: $F = T \cdot I \cdot T^T$.

**Lösung**:

**Schritt 1**: Berechne $T \cdot I$.

$$T \cdot I = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} 100 & 80 \\ 60 & 40 \end{bmatrix} = \frac{1}{\sqrt{2}} \begin{bmatrix} 160 & 120 \\ 40 & 40 \end{bmatrix}$$

**Schritt 2**: Berechne $(T \cdot I) \cdot T^T$.

$$F = \frac{1}{\sqrt{2}} \begin{bmatrix} 160 & 120 \\ 40 & 40 \end{bmatrix} \cdot \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix} = \frac{1}{2} \begin{bmatrix} 160 & 120 \\ 40 & 40 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}$$

$$= \frac{1}{2} \begin{bmatrix} 280 & 40 \\ 80 & 0 \end{bmatrix} = \begin{bmatrix} 140 & 20 \\ 40 & 0 \end{bmatrix}$$

**Schritt 3**: Interpretation der DCT-Koeffizienten.

- $F(0,0) = 140$: DC-Koeffizient, entspricht der durchschnittlichen Helligkeit des Bildblocks. $(100+80+60+40)/4 = 70$, multipliziert mit $N = 2$ ergibt 140.
- $F(0,1) = 20$: Horizontale hochfrequente Komponente, spiegelt die Helligkeitsunterschiede zwischen linken und rechten Pixeln wider.
- $F(1,0) = 40$: Vertikale hochfrequente Komponente, spiegelt die Helligkeitsunterschiede zwischen oberen und unteren Pixeln wider.
- $F(1,1) = 0$: Diagonale hochfrequente Komponente, null, was auf das Fehlen diagonaler Texturen hinweist.

**Wichtige Beobachtung**: $F(1,1) = 0$, d. h. die Projektion auf die diagonale hochfrequente Basis ist null — diese Komponente kann vollständig verworfen werden, ohne dass Informationen verloren gehen. Dies ist das Kernprinzip der JPEG-Kompression: Die meisten hochfrequenten DCT-Koeffizienten natürlicher Bilder sind nahe null und werden nach der Quantisierung zu null, wodurch eine erhebliche Kompression erreicht wird.
```

### 9.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)

Der JPEG-Kompressionsablauf ist wie folgt:

1. **Blockbildung**: Das Bild wird in $8 \times 8$-Blöcke unterteilt;
2. **DCT-Transformation**: Für jeden Block wird eine zweidimensionale DCT durchgeführt, die 64 Frequenzbereichskoeffizienten ergibt;
3. **Quantisierung**: Die DCT-Koeffizienten werden durch eine Quantisierungsmatrix geteilt (mit größeren Quantisierungsschritten für hohe Frequenzen), wodurch kleine Koeffizienten auf null gesetzt werden;
4. **Entropiekodierung**: Die quantisierten Koeffizienten werden mit Huffman- oder arithmetischer Kodierung komprimiert.

Auf der Decoderseite wird der Bildblock durch die inverse DCT-Transformation rekonstruiert. Da hochfrequente Komponenten, die für das menschliche Auge weniger sichtbar sind, verworfen werden, kann JPEG das Bild auf $1/10$ oder weniger seiner ursprünglichen Größe komprimieren, während die visuelle Qualität erhalten bleibt.

Die DCT wird auch in der Videokompression (MPEG, H.264/AVC, HEVC), der Audiokompression (MDCT-Variante in MP3) sowie in der Signalverarbeitung zur Dekorrelation und Merkmalsextraktion eingesetzt.

---

## Kapitel 10 Wavelet-Transformation — Mehrskalen-Innenprodukt (Chapter 10 Wavelet Transform — Multi-Resolution Inner Product)

### 10.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)

Die Fourier-Transformation projiziert Signale auf unendlich ausgedehnte Sinuswellenbasen und liefert globale Frequenzinformationen, verliert aber die Fähigkeit zur Zeitlokalisierung — aus dem Spektrum kann nicht abgelesen werden, wann eine bestimmte Frequenzkomponente auftritt. Für nichtstationäre Signale wie Musik, seismische Wellen oder EKG-Signale ist diese "Zeitblindheit" ein grundlegender Mangel.

```ad-definition
title: Definition 10.1 Kurzzeit-Fourier-Transformation (Definition 10.1 Short-Time Fourier Transform)
Um die fehlende Zeitlokalisierung zu kompensieren, führt die Kurzzeit-Fourier-Transformation (STFT) eine Fensterfunktion $w(t)$ ein:

$$\text{STFT}\{f(t)\}(\tau, \omega) = \int_{-\infty}^{\infty} f(t) w(t - \tau) e^{-j\omega t}\,dt$$

Aber bei fester Fensterlänge der STFT unterliegen die Zeitauflösung $\Delta t$ und die Frequenzauflösung $\Delta f$ der Heisenbergschen Unschärferelation$^{[16]}$:

$$\Delta t \cdot \Delta f \geq \frac{1}{4\pi} \tag{10.1}$$
```

```ad-definition
title: Definition 10.2 Wavelet-Transformation (Definition 10.2 Wavelet Transform)
Die Wavelet-Transformation verwendet eine Familie von skalierbaren und verschiebbaren Basisfunktionen $\psi_{a,b}(t)$, die den Konflikt zwischen Zeit- und Frequenzauflösung grundlegend löst$^{[17]}$. Sei $\psi(t)$ das **Mutterwavelet(Mother Wavelet)**, das $\int \psi(t)\,dt = 0$ (Nullmittelwert-Bedingung) erfüllt. Dann ist die Familie der Wavelet-Basisfunktionen definiert als:

$$\psi_{a,b}(t) = \frac{1}{\sqrt{|a|}} \psi\left(\frac{t - b}{a}\right), \quad a \neq 0, \; b \in \mathbb{R} \tag{10.2}$$

wobei $a$ der Skalenparameter (steuert die Streckung/Stauchung, entspricht der Frequenz) und $b$ der Verschiebungsparameter (steuert die Position, entspricht der Zeit) ist. Wavelet-Basisfunktionen haben **kompakten Träger(Compact Support)** — sie sind nur ineinem endlichen Intervall nicht null sind — und daher natürlicherweise über die Fähigkeit zur Zeitlokalisierung verfügen.
```

```ad-definition
title: Definition 10.3 Kontinuierliche Wavelet-Transformation (Definition 10.3 Continuous Wavelet Transform)
Die kontinuierliche Wavelet-Transformation (CWT) eines Signals $f(t)$ ist definiert als das Innenprodukt von $f$ mit der Wavelet-Basisfunktion:

$$W_f(a, b) = \langle f, \psi_{a,b} \rangle = \int_{-\infty}^{\infty} f(t) \cdot \frac{1}{\sqrt{|a|}} \psi^*\left(\frac{t - b}{a}\right) dt \tag{10.3}$$
```

```ad-theorem
title: Proposition 10.1 Mehrskalenanalyse (Proposition 10.1 Multi-Resolution Analysis)
Die Zeit-Frequenz-Auflösung der Wavelet-Transformation passt sich adaptiv mit der Skala $a$ an:

- **Kleine Skala $a$** (hohe Frequenz): Das Wavelet wird gestaucht, hohe Zeitauflösung, niedrige Frequenzauflösung — geeignet für die Analyse transienter Signale;
- **Große Skala $a$** (niedrige Frequenz): Das Wavelet wird gestreckt, hohe Frequenzauflösung, niedrige Zeitauflösung — geeignet für die Analyse langfristiger Trends.

Diese **Mehrskalenanalyse(Multi-Resolution Analysis, MRA)**-Eigenschaft ist der zentrale Vorteil der Wavelet-Transformation gegenüber der Fourier-Transformation und der STFT.
```

### 10.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition)

Der geometrische Prozess der Wavelet-Transformation kann als die Verwendung einer Reihe von "Sonden" unterschiedlicher Größe verstanden werden, die entlang der Zeitachse gleiten:

- **Große Sonde (große Skala $a$)**: Deckt einen breiten Zeitbereich ab, erfasst langfristige Trends des Signals (niedrige Frequenz), kann aber den genauen Zeitpunkt von Änderungen nicht lokalisieren;
- **Kleine Sonde (kleine Skala $a$)**: Deckt einen schmalen Zeitbereich ab, lokalisiert präzise Signal-Sprungstellen (hohe Frequenz), sieht aber nicht den Gesamttrend.

An jeder Position $b$ wird das Innenprodukt $W_f(a, b)$ zwischen dem Signal $f(t)$ und der Sonde $\psi_{a,b}(t)$ berechnet. Das Ergebnis bildet ein **Skalogramm(Scalogram)**, mit der Zeit $b$ auf der horizontalen Achse, der Skala $a$ (oder äquivalent der Frequenz) auf der vertikalen Achse und der Farbintensität, die die Innenproduktstärke angibt.

Vergleich mit der Fourier-Transformation: Die Fourier-Transformation verwendet unendlich lange Sinuswellen, um das gesamte Signal zu "matchen", und liefert ein globales Spektrum; die Wavelet-Transformation verwendet endliche Wavelets, um das Signal zu "scannen", und zeichnet an jeder Stelle die lokale Übereinstimmung auf, wobei sowohl Zeit- als auch Frequenzinformationen erhalten bleiben.

### 10.3 Ausführliches Beispiel mit Lösung (Worked Example)

```ad-example
title: Beispiel 10.1 Haar-Wavelet-Zerlegung — Manuelle Berechnung der ein- und zweistufigen Wavelet-Transformation (Example 10.1 Haar Wavelet Decomposition — Manual Calculation of One-Level and Two-Level Wavelet Transform)

Das Haar-Wavelet ist das einfachste orthogonale Wavelet. Seine Skalierungsfunktion $\phi(t)$ und Wavelet-Funktion $\psi(t)$ sind definiert als:

$$\phi(t) = \begin{cases} 1, & 0 \leq t < 1 \\ 0, & \text{sonst} \end{cases}, \quad \psi(t) = \begin{cases} 1, & 0 \leq t < 0.5 \\ -1, & 0.5 \leq t < 1 \\ 0, & \text{sonst} \end{cases}$$ Gegeben sei das diskrete Signal der Länge 8: $$x = [4, 6, 10, 12, 8, 6, 5, 5]$$ Führe manuell eine Haar-Wavelet-Zerlegung durch. **Lösung**: **Schritt 1: Einstufige Zerlegung — Berechnung der Approximationskoeffizienten.** Die Approximationskoeffizienten werden durch das Innenprodukt mit der Skalierungsfunktion erhalten, d. h. der Durchschnitt zweier benachbarter Punkte: $$a_1 = \frac{4+6}{2} = 5, \quad a_2 = \frac{10+12}{2} = 11, \quad a_3 = \frac{8+6}{2} = 7, \quad a_4 = \frac{5+5}{2} = 5$$ Approximationskoeffizienten-Vektor: $A^{(1)} = [5, 11, 7, 5]$ **Schritt 2: Einstufige Zerlegung — Berechnung der Detailkoeffizienten.** Die Detailkoeffizienten werden durch das Innenprodukt mit der Wavelet-Funktion erhalten, d. h. die halbe Differenz zweier benachbarter Punkte: $$d_1 = \frac{4-6}{2} = -1, \quad d_2 = \frac{10-12}{2} = -1, \quad d_3 = \frac{8-6}{2} = 1, \quad d_4 = \frac{5-5}{2} = 0$$ Detailkoeffizienten-Vektor: $D^{(1)} = [-1, -1, 1, 0]$ **Schritt 3: Überprüfung der Rekonstruktion.** Aus $A^{(1)}$ und $D^{(1)}$ kann das ursprüngliche Signal perfekt rekonstruiert werden: $$x_1 = a_1 + d_1 = 5 + (-1) = 4, \quad x_2 = a_1 - d_1 = 5 - (-1) = 6$$ $$x_3 = a_2 + d_2 = 11 + (-1) = 10, \quad x_4 = a_2 - d_2 = 11 - (-1) = 12$$ $$x_5 = a_3 + d_3 = 7 + 1 = 8, \quad x_6 = a_3 - d_3 = 7 - 1 = 6$$ $$x_7 = a_4 + d_4 = 5 + 0 = 5, \quad x_8 = a_4 - d_4 = 5 - 0 = 5$$ Die Rekonstruktion ist vollständig korrekt. **Schritt 4: Zweistufige Zerlegung.** Führe die Haar-Wavelet-Transformation mit den Approximationskoeffizienten $A^{(1)} = [5, 11, 7, 5]$ fort: $$a_1^{(2)} = \frac{5+11}{2} = 8, \quad a_2^{(2)} = \frac{7+5}{2} = 6$$ $$d_1^{(2)} = \frac{5-11}{2} = -3, \quad d_2^{(2)} = \frac{7-5}{2} = 1$$ Zweistufige Approximation: $A^{(2)} = [8, 6]$, zweistufige Details: $D^{(2)} = [-3, 1]$ **Wichtige Beobachtung**: Das ursprüngliche Signal benötigt 8 Zahlenwerte zur Speicherung. Nach der einstufigen Zerlegung sind $A^{(1)}$ (4 Werte) + $D^{(1)}$ (4 Werte) = 8 Werte, keine Kompression. Wenn jedoch Detailkoeffizienten mit kleinem Betrag (wie $d_4 = 0$) auf null gesetzt werden, müssen nur 7 gültige Werte gespeichert werden — das ist das Prinzip der Wavelet-Kompression. JPEG2000 basiert auf der Wavelet-Transformation (CDF 9/7-Wavelet) und erzielt eine bessere Kompressionsleistung als JPEG (DCT) ohne Blockartefakte. ``` ### 10.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications) Die Wavelet-Analyse findet breite Anwendung in der Signalverarbeitung: - **JPEG2000-Bildkompression**: Verwendet das CDF 9/7-Wavelet für mehrstufige Zerlegung, höhere Kompressionsrate als JPEGs DCT-Verfahren und keine Blockartefakte; - **EKG-Analyse**: Die Wavelet-Transformation kann QRS-Komplexe präzise lokalisieren und wird zur Erkennung von Herzrhythmusstörungen eingesetzt; - **Seismische Signalverarbeitung**: Das Wavelet-Zeit-Frequenz-Spektrum kann gleichzeitig die Ankunftszeit und die Frequenzzusammensetzung seismischer Wellen aufdecken; - **Wavelet-Netze im Deep Learning**: Wavelet-Transformation als vorgelagerte Merkmalsextraktionsschicht in neuronalen Netzen zur Verarbeitung nichtstationärer Signale. --- ## Kapitel 11 Selbstaufmerksamkeitsmechanismus — Die Innenprodukt-Engine der KI (Chapter 11 Self-Attention Mechanism — AI's Inner Product Engine) ### 11.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions) Die moderne künstliche Intelligenz, insbesondere große Sprachmodelle (LLMs) wie GPT, BERT usw., basiert fast vollständig auf Innenproduktberechnungen (Punktprodukten). Der Kern des Transformer-Architektur — der **Selbstaufmerksamkeitsmechanismus(Self-Attention)** — ist im Wesentlichen eine groß angelegte, parallele, lernbare Menge von Vektor-Innenproduktoperationen$^{[18]}$. ```ad-definition title: Definition 11.1 Skaliertes Punktprodukt-Aufmerksamkeit (Definition 11.1 Scaled Dot-Product Attention) Gegeben sei eine Eingabesequenz. Jeder Token an jeder Position wird linear in drei Vektoren projiziert: den Abfragevektor $Q$, den Schlüsselvektor $K$ und den Wertvektor $V$. Die Selbstaufmerksamkeitsausgabe ist definiert als: $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V \tag{11.1}$$ wobei $Q \in \mathbb{R}^{n \times d_k}$, $K \in \mathbb{R}^{n \times d_k}$, $V \in \mathbb{R}^{n \times d_v}$, $n$ die Sequenzlänge und $d_k$ die Dimension der Abfrage/Schlüssel ist. ``` ```ad-theorem title: Proposition 11.1 Aufmerksamkeitsgewichte als normalisierte Innenprodukte (Proposition 11.1 Attention Weights as Normalized Inner Products) Das $(i, j)$-te Element der Matrix $QK^T$ ist genau das Innenprodukt zwischen dem $i$-ten Abfragevektor und dem $j$-ten Schlüsselvektor: $$(QK^T)_{ij} = \langle Q_i, K_j \rangle = Q_i \cdot K_j = \sum_{k=1}^{d_k} Q_{i,k} \cdot K_{j,k} \tag{11.2}$$ Je größer dieser Innenproduktwert, desto höher die Relevanz zwischen dem $i$-ten und dem $j$-ten Token. Der Skalierungsfaktor $1/\sqrt{d_k}$ verhindert, dass die Innenproduktwerte mit wachsender Dimension zu groß werden und der Softmax-Gradient verschwindet. Nach der Softmax-Normalisierung werden die Innenproduktwerte in Wahrscheinlichkeitsgewichte umgewandelt, die für die gewichtete Summation der Wertvektoren $V$ verwendet werden. **Multi-Head-Aufmerksamkeit** führt den obigen Prozess $h$-mal parallel aus ($h$ = Anzahl der Aufmerksamkeitsköpfe), wobei jeder Kopf einen anderen Projektionsunterraum lernt: $$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h) W^O \tag{11.3}$$ wobei $\text{head}_i = \text{Attention}(Q W_i^Q, K W_i^K, V W_i^V)$. ``` ### 11.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition) Der Selbstaufmerksamkeitsmechanismus führt im hochdimensionalen Raum eine raffinierte "Projektions-Abruf"-Operation durch: 1. **Abfragevektor $Q_i$**: Kodiert die Abfrageabsicht "Wer ist mit mir verwandt?"; 2. **Schlüsselvektor $K_j$**: Kodiert die Identifikationsinformation "Wer bin ich, welche Merkmale habe ich?"; 3. **Innenprodukt $\langle Q_i, K_j \rangle$**: Misst die Ähnlichkeit zwischen Abfrage und Schlüssel im hochdimensionalen Raum (skalierte Version des Kosinus des Winkels zwischen Vektoren); 4. **Softmax-Normalisierung**: Wandelt die Ähnlichkeiten in eine Wahrscheinlichkeitsverteilung um, sodass das Modell sich auf die relevantesten Token konzentrieren kann; 5. **Gewichtete Summation**: Extrahiert Kontextinformationen aus den Wertvektoren gemäß den Aufmerksamkeitsgewichten. Das gesamte Transformer-Modell kann als eine riesige **differenzierbare Innenprodukt-Engine** betrachtet werden: Jede Schicht führt Innenproduktoperationen aus, und durch Rückpropagation werden die Projektionsmatrizen von $Q$, $K$, $V$ kontinuierlich angepasst, sodass die Innenproduktergebnisse die langreichweitigen Abhängigkeiten in den Daten genau erfassen können. ### 11.3 Ausführliches Beispiel mit Lösung (Worked Example) ```ad-example title: Beispiel 11.1 Manuelle Berechnung der Selbstaufmerksamkeit für 2 Token (Example 11.1 Manual Calculation of Self-Attention for 2 Tokens) Betrachte eine minimale Sequenz mit nur zwei Token: "ich" und "liebe". Nach Einbettung und linearer Projektion (mit $d_k = 3$): $$Q = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix}, \quad K = \begin{bmatrix} 1 & 1 & 0 \\ 0 & 1 & 1 \end{bmatrix}, \quad V = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$$ Die erste Zeile entspricht "ich", die zweite Zeile "liebe". **Lösung**: **Schritt 1: Berechne $QK^T$ (alle Innenproduktpaare).** $$QK^T = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{bmatrix}$$ Elementweise Berechnung: - $(QK^T)_{11} = \langle Q_1, K_1 \rangle = 1 \times 1 + 0 \times 1 + 1 \times 0 = 1$ - $(QK^T)_{12} = \langle Q_1, K_2 \rangle = 1 \times 0 + 0 \times 1 + 1 \times 1 = 1$ - $(QK^T)_{21} = \langle Q_2, K_1 \rangle = 0 \times 1 + 1 \times 1 + 1 \times 0 = 1$ - $(QK^T)_{22} = \langle Q_2, K_2 \rangle = 0 \times 0 + 1 \times 1 + 1 \times 1 = 2$ $$QK^T = \begin{bmatrix} 1 & 1 \\ 1 & 2 \end{bmatrix}$$ **Schritt 2: Skalierung (Division durch $\sqrt{d_k} = \sqrt{3} \approx 1.732$).** $$\frac{QK^T}{\sqrt{3}} = \begin{bmatrix} 0.577 & 0.577 \\ 0.577 & 1.155 \end{bmatrix}$$ **Schritt 3: Softmax-Normalisierung (zeilenweise).** Erste Zeile $[0.577, 0.577]$: $$e^{0.577} \approx 1.781, \quad \text{sum} = 3.562$$ $$\text{softmax}_{11} = \frac{1.781}{3.562} = 0.5, \quad \text{softmax}_{12} = \frac{1.781}{3.562} = 0.5$$ Zweite Zeile $[0.577, 1.155]$: $$e^{0.577} \approx 1.781, \quad e^{1.155} \approx 3.174, \quad \text{sum} = 4.955$$ $$\text{softmax}_{21} = \frac{1.781}{4.955} = 0.359, \quad \text{softmax}_{22} = \frac{3.174}{4.955} = 0.641$$ Aufmerksamkeitsgewichtsmatrix: $$\text{Weights} = \begin{bmatrix} 0.5 & 0.5 \\ 0.359 & 0.641 \end{bmatrix}$$ **Schritt 4: Gewichtete Summation zur Ausgabe.** $$\text{Output} = \text{Weights} \cdot V = \begin{bmatrix} 0.5 & 0.5 \\ 0.359 & 0.641 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$$ - Neue Darstellung von "ich": $0.5 \times [1, 0] + 0.5 \times [0, 1] = [0.5, 0.5]$ - Neue Darstellung von "liebe": $0.359 \times [1, 0] + 0.641 \times [0, 1] = [0.359, 0.641]$ **Wichtige Beobachtung**: - "ich" verteilt seine Aufmerksamkeit gleichmäßig auf beide Token (je 0.5), da die Innenprodukte mit beiden gleich sind; - "liebe" achtet mehr auf sich selbst (0.641) als auf "ich" (0.359), da das Innenprodukt mit sich selbst (2) größer ist als das mit "ich" (1); - Der Ausgabevektor ist eine gewichtete Kombination der Wertvektoren, wobei die Gewichte vollständig durch die Innenprodukte bestimmt werden — dies ist der Kernmechanismus der "kontextbewussten Darstellung durch Innenprodukte". ``` ### 11.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications) Der Rechenaufwand des Selbstaufmerksamkeitsmechanismus wächst mit $O(n^2)$ in der Sequenzlänge $n$. Für große Modelle wie GPT-4 (mit Kontextlängen von bis zu 128K) sind pro Vorwärtspass zig Billionen Innenproduktoperationen erforderlich. Zur Beschleunigung wurden verschiedene Optimierungstechniken entwickelt: - **Flash Attention**: Durch blockweise Berechnung und Speicheroptimierung wird der Speicherzugriff reduziert und die Aufmerksamkeitsberechnung um das 2–4-fache beschleunigt; - **Sparse Attention**: Berechnet nur Innenprodukte zwischen einer Teilmenge von Token-Paaren (z. B. lokales Fenster + globale Token) und reduziert die Komplexität auf $O(n \log n)$; - **Multi-Query Attention (MQA)**: Mehrere Abfrageköpfe teilen sich denselben Satz von Schlüssel-Wert-Paaren, wodurch die KV-Cache-Größe reduziert wird; - **Lineare Aufmerksamkeit**: Verwendet Kernel-Methoden zur Approximation der Softmax-Aufmerksamkeit und reduziert die Komplexität auf $O(n)$. Diese Optimierungen zielen im Wesentlichen darauf ab, die optimale Balance zwischen "Reduzierung der Anzahl der Innenproduktberechnungen" und "Erhaltung der Modellausdrucksfähigkeit" zu finden. --- ## Kapitel 12 Kernel-Methoden — Implizite hochdimensionale Innenprodukte (Chapter 12 Kernel Methods — Implicit High-Dimensional Inner Products) ### 12.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions) In niedrigdimensionalen Räumen sind Daten oft linear nicht trennbar — zum Beispiel können konzentrische Kreisdaten in der zweidimensionalen Ebene nicht durch eine gerade Linie getrennt werden. Der traditionelle Ansatz besteht darin, manuell hochdimensionale Merkmale zu konstruieren (wie $x_1^2 + x_2^2$), aber das Merkmalsengineering ist extrem aufwendig. Der Kern der **Kernmethode(Kernel Method)** besteht darin: Nicht die Koordinaten im hochdimensionalen Raum explizit zu berechnen, sondern direkt das Innenprodukt im hochdimensionalen Raum zu berechnen$^{[22]}$. Dieser Trick heißt **Kernel-Trick(Kernel Trick)**. ```ad-definition title: Definition 12.1 Kernfunktion (Definition 12.1 Kernel Function) Sei $\phi: \mathcal{X} \to \mathcal{H}$ eine nichtlineare Abbildung vom Eingaberaum in einen hochdimensionalen (möglicherweise unendlichdimensionalen) Hilbertraum. Die Kernfunktion $k: \mathcal{X} \times \mathcal{X} \to \mathbb{R}$ ist definiert als: $$k(x, y) = \langle \phi(x), \phi(y) \rangle_{\mathcal{H}} \tag{12.1}$$ Das Raffinierte an der Kernfunktion ist: Wir müssen die genaue Form von $\phi$ nicht kennen. Solange $k(x, y)$ die **Mercer-Bedingung** (symmetrisch und positiv semidefinit) erfüllt, entspricht sie einem Innenprodukt in einem reproduzierenden Kernel-Hilbertraum (RKHS). ``` ```ad-definition title: Definition 12.2 Häufige Kernfunktionen (Definition 12.2 Common Kernel Functions) Zu den häufig verwendeten Kernfunktionen gehören: - **Linearer Kern**: $k(x, y) = x^T y$ (das Innenprodukt im ursprünglichen Raum); - **Polynomialer Kern**: $k(x, y) = (x^T y + c)^d$ (entspricht einem $d$-dimensionalen polynomialen Merkmalsraum); - **Gaußscher Radialbasisfunktions-Kern (RBF)**: $k(x, y) = \exp\left(-\frac{\|x - y\|^2}{2\sigma^2}\right)$ (entspricht einem unendlichdimensionalen Merkmalsraum); - **Sigmoid-Kern**: $k(x, y) = \tanh(\alpha x^T y + c)$. ``` ```ad-definition title: Definition 12.3 Support Vector Machine (Definition 12.3 Support Vector Machine) Die **Support Vector Machine (SVM)** ist die klassischste Anwendung der Kernel-Methode$^{[23]}$. Die SVM sucht im Merkmalsraum nach der Hyperebene mit maximalem Abstand. Ihre Entscheidungsfunktion hängt nur von den Innenprodukten zwischen den Stützvektoren und dem zu klassifizierenden Sample ab: $$f(x) = \text{sign}\left(\sum_{i=1}^{m} \alpha_i y_i \langle \phi(x_i), \phi(x) \rangle + b\right) = \text{sign}\left(\sum_{i=1}^{m} \alpha_i y_i k(x_i, x) + b\right) \tag{12.2}$$ wobei $x_i$ die Stützvektoren, $y_i \in \{-1, +1\}$ die Labels und $\alpha_i$ die dualen Variablen sind. ``` ### 12.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition) Die geometrische Anschauung des Kernel-Tricks kann mit "Falten-Entfalten" verstanden werden: 1. **Eingaberaum**: Datenpunkte sind chaotisch im niedrigdimensionalen Raum verteilt, lineare Klassifikatoren sind machtlos; 2. **Implizite Abbildung $\phi$**: Die Datenpunkte werden in einen hochdimensionalen Hilbertraum "entfaltet", ursprünglich verwickelte Datenpunkte werden "geradegezogen"; 3. **Innenprodukt im hochdimensionalen Raum**: Die SVM sucht im hochdimensionalen Raum nach der Hyperebene mit maximalem Abstand — äquivalent zu einer nichtlinearen Entscheidungsgrenze im Eingaberaum; 4. **Kernfunktion $k(x, y)$**: Gibt direkt den Innenproduktwert im hochdimensionalen Raum zurück, als ob die Daten in den hochdimensionalen Raum abgebildet worden wären, aber der Rechenaufwand bleibt derselbe wie im niedrigdimensionalen Raum. **Wichtige Erkenntnis**: Die Taylor-Entwicklung des RBF-Kerns $\exp(-\gamma\|x - y\|^2)$ enthält polynomiale Merkmale aller Ordnungen, daher kann die RBF-Kernel-SVM theoretisch jede beliebig komplexe Entscheidungsgrenze approximieren. ### 12.3 Ausführliches Beispiel mit Lösung (Worked Example) ```ad-example title: Beispiel 12.1 Kernel-Trick für das zweidimensionale XOR-Problem — Manuelle Herleitung (Example 12.1 Kernel Trick for the 2D XOR Problem — Manual Derivation) XOR-Datensatz: $x_1 = (-1, -1)$ Label $-1$, $x_2 = (1, 1)$ Label $-1$, $x_3 = (-1, 1)$ Label $+1$, $x_4 = (1, -1)$ Label $+1$. Im zweidimensionalen Raum sind XOR-Daten linear nicht trennbar. **Lösung**: **Schritt 1: Wähle die Kernfunktion und finde die implizite Abbildung.** Nimm den polynomialen Kern $k(x, y) = (x^T y)^2$. Expandiere: $$(x^T y)^2 = (x_1 y_1 + x_2 y_2)^2 = x_1^2 y_1^2 + 2x_1 x_2 y_1 y_2 + x_2^2 y_2^2$$ $$= \langle (x_1^2, \sqrt{2}x_1 x_2, x_2^2), (y_1^2, \sqrt{2}y_1 y_2, y_2^2) \rangle$$ Daher ist die implizite Abbildung $\phi(x) = (x_1^2, \sqrt{2}x_1 x_2, x_2^2)$, die zweidimensionale Daten in den dreidimensionalen Raum abbildet. **Schritt 2: Berechne die Koordinaten der Datenpunkte im dreidimensionalen Raum.** $$\phi(x_1) = \phi(-1, -1) = (1, \sqrt{2}, 1), \quad \phi(x_2) = \phi(1, 1) = (1, \sqrt{2}, 1)$$ $$\phi(x_3) = \phi(-1, 1) = (1, -\sqrt{2}, 1), \quad \phi(x_4) = \phi(1, -1) = (1, -\sqrt{2}, 1)$$ **Schritt 3: Überprüfe die lineare Trennbarkeit.** Im dreidimensionalen Raum liegen $x_1, x_2$ (Label $-1$) beide bei $(1, \sqrt{2}, 1)$, $x_3, x_4$ (Label $+1$) beide bei $(1, -\sqrt{2}, 1)$. Die beiden Klassen können durch die Ebene $z_2 = 0$ (d. h. $\sqrt{2}x_1 x_2 = 0$) perfekt getrennt werden! **Schritt 4: Überprüfe den Kernel-Trick.** Berechne $k(x_1, x_3) = (x_1^T x_3)^2$: $$x_1^T x_3 = (-1)(-1) + (-1)(1) = 0, \quad k(x_1, x_3) = 0^2 = 0$$ Im dreidimensionalen Raum: $\langle \phi(x_1), \phi(x_3) \rangle = 1 \times 1 + \sqrt{2} \times (-\sqrt{2}) + 1 \times 1 = 0$ Beide sind gleich, was die Korrektheit des Kernel-Tricks bestätigt. **Schritt 5: SVM-Entscheidung.** Im dreidimensionalen Raum ist die Hyperebene mit maximalem Abstand $z_2 = 0$, der Normalenvektor $w = (0, 1, 0)$, der Bias $b = 0$. Die Stützvektoren sind alle vier Punkte, $\alpha_i = 1$. Für den Testpunkt $x = (0.5, -0.5)$: $$k(x_1, x) = ((-1)(0.5) + (-1)(-0.5))^2 = 0, \quad k(x_2, x) = ((1)(0.5) + (1)(-0.5))^2 = 0$$ $$k(x_3, x) = ((-1)(0.5) + (1)(-0.5))^2 = 1, \quad k(x_4, x) = ((1)(0.5) + (-1)(-0.5))^2 = 1$$ $$f(x) = \text{sign}(-0 - 0 + 1 + 1) = \text{sign}(2) = +1$$ Vorhersage $+1$, korrekt. **Wichtige Beobachtung**: Wir haben $\phi(x)$ nie explizit berechnet, sondern durch die Kernfunktion $k(x, y) = (x^T y)^2$ direkt das Innenprodukt im hochdimensionalen Raum erhalten — hochdimensionale Klassifikationsfähigkeit mit niedrigdimensionalem Rechenaufwand. ``` ### 12.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications) Die Anwendungen von Kernel-Methoden gehen weit über SVM hinaus: - **Kernel-PCA**: Führt PCA im kernabgebildeten hochdimensionalen Raum durch, für nichtlineare Dimensionsreduktion; - **Kernel-Ridge-Regression**: Verallgemeinert die lineare Ridge-Regression auf nichtlineare Regression; - **Kernel Mean Matching**: Für Domain-Adaption und Transfer Learning; - **Gaußprozess (Gaussian Process)**: Verwendet die Kernfunktion als Kovarianzfunktion für Bayes'sche Optimierung und Regression; - **Neural Tangent Kernel (NTK)**: Verbindet unendlich breite neuronale Netze mit Kernel-Methoden und bietet ein theoretisches Analysewerkzeug für Deep Learning. --- ## Kapitel 13 Innenprodukte in der Quantenmechanik — Wahrscheinlichkeit als Projektion (Chapter 13 Inner Products in Quantum Mechanics — Probability as Projection) ### 13.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions) Die Quantenmechanik treibt das Konzept des Innenprodukts auf die ultimative Ebene der physikalischen Welt. In der Quantenmechanik wird der Zustand eines Systems durch einen **Zustandsvektor(State Vector)** $|\psi\rangle$ in einem Hilbertraum $\mathcal{H}$ beschrieben (Dirac-Notation)$^{[26]}$. Der Hilbertraum ist hier in der Regel ein unendlichdimensionaler komplexer Innenproduktraum. ```ad-definition title: Definition 13.1 Zustandsvektor und Innenprodukt (Definition 13.1 State Vector and Inner Product) Der Zustandsvektor $|\psi\rangle \in \mathcal{H}$ enthält die gesamte Information des Quantensystems. Das Innenprodukt zweier Zustände $\langle \phi | \psi \rangle$ ist eine komplexe Zahl, deren Betragsquadrat die Messwahrscheinlichkeit ergibt. **Axiom 13.1 (Born'sche Regel)** Wenn sich das System im Zustand $|\psi\rangle$ befindet, ist die Wahrscheinlichkeit, bei der Messung der Observablen $\hat{A}$ den Eigenwert $\lambda_n$ zu erhalten$^{[21]}$: $$P(\lambda_n) = |\langle a_n | \psi \rangle|^2 \tag{13.1}$$ wobei $|a_n\rangle$ der zu $\lambda_n$ gehörende Eigenzustand von $\hat{A}$ ist. Nach der Messung kollabiert der Systemzustand zu $|a_n\rangle$. Das Wesen der Born'schen Regel ist: **Wahrscheinlichkeit ist das Betragsquadrat der Projektion des Zustandsvektors auf die Messbasis**. ``` ```ad-definition title: Definition 13.2 Observable und selbstadjungierte Operatoren (Definition 13.2 Observables and Self-Adjoint Operators) Observablen entsprechen selbstadjungierten Operatoren (Hermiteschen Operatoren) $\hat{A}$ auf dem Hilbertraum, die $\hat{A}^\dagger = \hat{A}$ erfüllen. Die Eigenwerte selbstadjungierter Operatoren sind reell, und die Eigenzustände bilden eine vollständige Orthonormalbasis. ``` ```ad-definition title: Definition 13.3 Schrödinger-Gleichung (Definition 13.3 Schrödinger Equation) Die Zeitentwicklung des Zustandsvektors wird durch die Schrödinger-Gleichung beschrieben: $$i\hbar \frac{d}{dt} |\psi(t)\rangle = \hat{H} |\psi(t)\rangle \tag{13.2}$$ wobei $\hat{H}$ der Hamilton-Operator (Energieoperator) ist. Diese Gleichung ist im Wesentlichen eine unitäre Entwicklungsgleichung im unendlichdimensionalen Hilbertraum — eine innenprodukterhaltende Rotation. ``` ### 13.2 Geometrie und räumliche Anschauung (Geometry and Spatial Intuition) Die geometrische Vorstellung der Quantenmechanikhat tiefe Verbindungen zum klassischen Innenproduktraum: 1. **Zustandsvektoren sind Einheitsvektoren**: Physikalisch wird gefordert, dass $|\psi\rangle$ normiert ist, d. h. $\langle \psi | \psi \rangle = 1$. Alle möglichen Zustandsvektoren bilden die Einheitssphäre im komplexen Hilbertraum. 2. **Messung ist orthogonale Projektion**: Eine Messung projiziert den Zustandsvektor $|\psi\rangle$ auf den Eigenunterraum. Die Projektionslänge $|\langle a_n | \psi \rangle|$ bestimmt die Wahrscheinlichkeitsamplitude, deren Quadrat die Messwahrscheinlichkeit ergibt. 3. **Orthogonale Zustände schließen sich aus**: Wenn $\langle \phi | \psi \rangle = 0$, dann sind die beiden Zustände orthogonal (sich gegenseitig ausschließend) — wenn sich das System im Zustand $|\psi\rangle$ befindet, ist die Wahrscheinlichkeit, $|\phi\rangle$ zu messen, null. 4. **Verschränkte Zustände sind nicht separabel**: Für ein zusammengesetztes System gilt: Wenn $|\psi\rangle_{AB} \neq |\phi\rangle_A \otimes |\chi\rangle_B$, dann sind die beiden Subsysteme verschränkt. Das mathematische Wesen der Verschränkung ist: Die Innenproduktstruktur der beiden Subsysteme kann nicht als direktes Produkt zerlegt werden. ### 13.3 Ausführliches Beispiel mit Lösung (Worked Example) ```ad-example title: Beispiel 13.1 Messwahrscheinlichkeit eines Spin-$1/2$-Systems — Innenproduktberechnung (Example 13.1 Measurement Probability of a Spin-$1/2$ System — Inner Product Calculation) Betrachte den Elektronenspin, dessen Zustand als Vektor in einem zweidimensionalen komplexen Hilbertraum dargestellt werden kann. Die Eigenzustände in $z$-Richtung: $$| \uparrow_z \rangle = \begin{pmatrix} 1 \\ 0 \end{pmatrix}, \quad | \downarrow_z \rangle = \begin{pmatrix} 0 \\ 1 \end{pmatrix}$$ Die Eigenzustände in $x$-Richtung: $$| \uparrow_x \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}, \quad | \downarrow_x \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -1 \end{pmatrix}$$ Das Elektron befindet sich im Zustand $|\psi\rangle = \frac{1}{\sqrt{2}}| \uparrow_z \rangle + \frac{1}{\sqrt{2}}| \downarrow_z \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}$. **Lösung**: **Schritt 1: Überprüfung der Normierung.** $$\langle \psi | \psi \rangle = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 1 \end{pmatrix} \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} = \frac{1}{2}(1 + 1) = 1$$ Normierung bestätigt. **Schritt 2: Wahrscheinlichkeit der Messung von $S_z$.** $$P(\uparrow_z) = |\langle \uparrow_z | \psi \rangle|^2 = \left| \begin{pmatrix} 1 & 0 \end{pmatrix} \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{\sqrt{2}} \right|^2 = \frac{1}{2}$$ $$P(\downarrow_z) = |\langle \downarrow_z | \psi \rangle|^2 = \left| \begin{pmatrix} 0 & 1 \end{pmatrix} \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{\sqrt{2}} \right|^2 = \frac{1}{2}$$ Je 50 %, wie erwartet. **Schritt 3: Wahrscheinlichkeit der Messung von $S_x$.** $$P(\uparrow_x) = |\langle \uparrow_x | \psi \rangle|^2 = \left| \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & 1 \end{pmatrix} \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{2}(1 + 1) \right|^2 = 1$$ $$P(\downarrow_x) = |\langle \downarrow_x | \psi \rangle|^2 = \left| \frac{1}{\sqrt{2}}\begin{pmatrix} 1 & -1 \end{pmatrix} \cdot \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix} \right|^2 = \left| \frac{1}{2}(1 - 1) \right|^2 = 0$$ **Wichtige Beobachtung**: $|\psi\rangle = | \uparrow_x \rangle$, daher ergibt die Messung von $S_x$ zu 100 % $+\hbar/2$. Dies bestätigt die geometrische Bedeutung des Innenprodukts: Wenn der Zustandsvektor vollständig ausgerichtet ist (Innenprodukt-Betrag 1), beträgt die Wahrscheinlichkeit 100 %; bei Orthogonalität (Innenprodukt 0) beträgt die Wahrscheinlichkeit 0. **Schritt 4: Zustandskollaps nach der Messung.** Angenommen, die Messung von $S_z$ ergibt $+\hbar/2$, dann kollabiert der Zustandsvektor: $$|\psi\rangle = \frac{1}{\sqrt{2}}| \uparrow_z \rangle + \frac{1}{\sqrt{2}}| \downarrow_z \rangle \xrightarrow{\text{Messung } S_z = +\hbar/2} |\psi'\rangle = | \uparrow_z \rangle$$ Eine erneute Messung von $S_z$ würde nun zu 100 % $+\hbar/2$ ergeben, aber die Messung von $S_x$ würde wieder eine 50/50-Wahrscheinlichkeit liefern. Dies ist das Wesen der "Messung verändert den Zustand" — eine orthogonale Projektionsoperation. ``` ### 13.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications) Das Konzept des Quanten-Innenprodukts treibt revolutionäre Technologien hervor: - **Quantencomputing**: Quantengatteroperationen sind im Wesentlichen unitäre Transformationen im Hilbertraum (innenprodukterhaltende Rotationen). Der Shor-Algorithmus und der Grover-Algorithmus nutzen Superposition und Interferenz (Phase des Innenprodukts) von Quantenzuständen für exponentielle Beschleunigung; - **Quantenkryptographie**: Das BB84-Protokoll nutzt die Orthogonalität der Messbasen zur Erkennung von Lauschern — die Messung eines Lauschers kollabiert den Zustandsvektor, verändert das Innenproduktergebnis und wird so von den legitimen Kommunikationspartnern entdeckt; - **Quantenteleportation**: Nutzt die Innenproduktstruktur von Bell-Zuständen (maximal verschränkte Zustände) für die Fernübertragung von Quanteninformation; - **Quanten-Maschinenlernen**: Quanten-Kernel-Methoden nutzen Quantenzustands-Innenprodukte zur effizienten Berechnung von Kernfunktionen in hochdimensionalen Hilberträumen und versprechen einen Quantenvorteil. --- ## Schlusskapitel Vereinheitlichte Wissenslandkarte und philosophische Sublimierung (Final Chapter Unified Knowledge Graph and Philosophical Sublimation) ### Alles ist Projektion — Eine Innenprodukt-Landkarte durch alle Disziplinen (Everything Is a Projection — An Inner Product Map Across All Disciplines) Rückblickend auf das in dieser Arbeit aufgebaute Wissenssystem, vom zweidimensionalen Vektor-Punktprodukt bis zum Zustandsvektor-Innenprodukt im unendlichdimensionalen komplexen Hilbertraum, durchzieht das Konzept des Innenprodukts jeden Winkel der Mathematik, Physik, Technik und Informatik. **Kernlinie**: Das Innenprodukt $\langle \cdot, \cdot \rangle$ ist ein **Ähnlichkeitsmaß(Similarity Measure)**. Unabhängig davon, ob die Objekte Vektoren, Funktionen, Signale, Bilder oder Quantenzustände sind, beantwortet das Innenprodukt dieselbe Frage — "Wie ähnlich sind diese beiden Objekte?" **Vereinheitlichte Wissenslandkarte (Unified Knowledge Graph)**: | Bereich | Konkrete Form des Innenprodukts | Geometrische Interpretation | Kernanwendung | |---------|-------------------------------|----------------------------|---------------| | Lineare Algebra | $\langle x, y \rangle = x^T y$ | Projektionslänge | Orthogonale Zerlegung, Kleinste Quadrate | | Funktionalanalysis | $\langle f, g \rangle = \int fg$ | Wellenform-Ähnlichkeit | Fourier-Reihe, Wavelet-Transformation | | Signalverarbeitung | $\langle x, h \rangle = \sum x[n]h[n]$ | Angepasstes Filter | Faltung, Korrelationsdetektion | | Wahrscheinlichkeit/Statistik | $\text{Cov}(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]$ | Korrelationsrichtung | PCA, Regressionsanalyse | | Maschinelles Lernen | $\langle Q_i, K_j \rangle$ | Aufmerksamkeitsgewicht | Transformer, Selbstaufmerksamkeit | | Bildverarbeitung | $\langle I, K \rangle$ | Merkmalsantwort | Faltungsnetzwerke, Kantendetektion | | Quantenmechanik | $\langle \phi \mid \psi \rangle$ | Wahrscheinlichkeitsamplitude | Messung, Quantencomputing | | Regelungstechnik | $\langle f, e^{-st} \rangle$ | Komplexe Frequenzbereichsprojektion | Laplace-Transformation, Stabilitätsanalyse | ### Philosophische Sublimierung — Projektion als Erkenntnis (Philosophical Sublimation — Projection as Cognition) Aus philosophischer Sicht ist "Alles ist Projektion" nicht nur eine mathematische Aussage, sondern eine Art, die Welt zu erkennen$^{[22]}$: 1. **Erkenntnis ist Projektion**: Der Prozess, mit dem der Mensch die Welt erkennt, ist im Wesentlichen die Projektion komplexer Informationen der Außenwelt auf begrenzte kognitive Basisfunktionen. Wir sehen nicht "die reale Welt selbst", sondern die Projektionskoeffizienten der realen Welt auf kognitive Basen. 2. **Orthogonalität ist Unabhängigkeit**: Wenn zwei Konzepte orthogonal sind, bedeutet dies, dass sie sich gegenseitig nicht stören und nicht überlappen. Die orthogonale Zerlegung ist die ultimative Waffe zur Vereinfachung komplexer Probleme — die Zerlegung komplexer Systeme in unabhängige, nicht miteinander korrelierte Module. 3. **Projektion ist Entscheidung**: Die Methode der kleinsten Quadrate zeigt, dass die Projektion die optimale Wahl ist, wenn keine exakte Lösung existiert. Wenn eine perfekte Lösung nicht möglich ist, ist die orthogonale Projektion auf den zulässigen Bereich die optimale Entscheidung. 4. **Die Wahl der Basis bestimmt alles**: Fourier wählt Sinuswellen als Basis, Wavelets wählen kompakt getragene Funktionen als Basis, Transformer wählen lernbare Aufmerksamkeitsbasen — die Wahl der Basis bestimmt, welche Welt man sehen kann. ### Abschließende Gedanken (Final Thoughts) Das Innenprodukt ist nicht nur eine mathematische Operation, sondern eine **Metasprache(Meta-Language)**, die das Mikroskopische und das Makroskopische, das Kontinuierliche und das Diskrete, das Deterministische und das Probabilistische verbindet. Vom Satz des Pythagoras bis zur Quantenverschränkung, von der Methode der kleinsten Quadrate bis zu großen Sprachmodellen — das Innenprodukt vereint in seiner einfachen und tiefgründigen Form alle Ecken des menschlichen Wissensgebäudes. --- ## Anhang Code zur Erzeugung der Abbildungen in diesem Artikel (Appendix Code for Generating Figures in This Paper) Alle fünf Abbildungen in diesem Artikel (Kosinus-Ähnlichkeits-Wärmekarte, Kleinste-Quadrate-Projektion, Fourier-Zerlegung, Faltungs-Matched-Filter, Sobel-Kantendetektion) werden einheitlich von main.py erzeugt. Dieses Skript basiert auf dem wissenschaftlichen Rechen-Ökosystem von Python (NumPy, SciPy, Matplotlib) und verwandelt die abstrakten mathematischen Konzepte des Artikels rund um das Thema "Innenprodukt" in intuitive visuelle Grafiken.

Das Kern-Design des Skripts ist wie folgt:

1. **Kosinus-Ähnlichkeit**: Die Funktion `cosine_similarity()` berechnet das normalisierte Innenprodukt zwischen Worteinbettungsvektoren und erzeugt eine $5 \times 5$-Wärmekartenmatrix. Diese Funktion implementiert die Definition der Kosinus-Ähnlichkeit in Formel (1.5).
2. **Methode der kleinsten Quadrate**: Verwendet `np.linalg.lstsq` zur Lösung der Normalgleichungen $A^T A \hat{x} = A^T b$ (Satz 3.1), was im Wesentlichen die orthogonale Projektion des Beobachtungsvektors auf den Modellraum darstellt.
3. **Fourier-Zerlegung**: Projiziert das Zeitbereichssignal durch FFT auf Frequenzbasen (Satz 6.1), wobei jede Spitze im Spektrum einem Innenproduktkoeffizienten einer Frequenzkomponente entspricht.
4. **Faltung und angepasstes Filter**: Betrachtet die Faltung als gleitende Innenproduktoperation (Definition 8.1) und verwendet das Template, um punktweise Innenprodukte mit dem Signal zu berechnen und Impulspositionen zu erkennen.
5. **Sobel-Kantendetektion**: Führt das zweidimensionale Innenprodukt des Faltungskerns mit dem Bild durch (Beispiel 8.2) und berechnet die Gradientenstärke an jedem Pixel.

Hier ist der Kerncode-Ausschnitt zur Erzeugung der Kosinus-Ähnlichkeits-Wärmekarte:

def cosine_similarity(vec_a: np.ndarray, vec_b: np.ndarray) -> float:
    dot_product = float(np.dot(vec_a, vec_b))
    norm_a = np.linalg.norm(vec_a)
    norm_b = np.linalg.norm(vec_b)
    return dot_product / (norm_a * norm_b)

def build_semantic_demo() -> tuple[list[str], dict[str, np.ndarray], np.ndarray]:
    tokens = ["king", "queen", "man", "woman", "apple"]
    embeddings = {
        "king": np.array([0.92, 0.10, 0.78, 0.25, 0.60]),
        "queen": np.array([0.90, 0.12, 0.80, 0.30, 0.63]),
        "man": np.array([0.88, 0.18, 0.40, 0.22, 0.35]),
        "woman": np.array([0.86, 0.22, 0.42, 0.28, 0.38]),
        "apple": np.array([0.05, 0.95, 0.08, 0.87, 0.10]),
    }
    matrix = np.array(
        [[cosine_similarity(embeddings[left], embeddings[right]) for right in tokens] for left in tokens]
    )
    return tokens, embeddings, matrix

Den vollständigen Code finden Sie in main.py

## Referenzen (References)

[1] Wikipedia contributors. (2026, April 28). Dot product. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:42, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Dot_product&oldid=1351567929.

[2] Wikipedia contributors. (2025, November 3). Orthogonal complement. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:43, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Orthogonal_complement&oldid=1320174088.

[3] Wikipedia contributors. (2025, July 7). Orthogonalization. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:44, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Orthogonalization&oldid=1299273509.

[4] Wikipedia contributors. (2025, September 1). Orthogonal functions. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:46, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Orthogonal_functions&oldid=1308940353.

[5] Wikipedia contributors. (2026, March 13). Least squares. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:46, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Least_squares&oldid=1343263636.

[6] Wikipedia contributors. (2026, May 23). Hilbert space. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:47, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Hilbert_space&oldid=1355759876.

[7] 卷积、内积、互相关概念. CSDN博客, 2024. https://blog.csdn.net/qq_31073871/article/details/146475191.

[8] Wikipedia contributors. (2026, February 27). Inner product space. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:51, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Inner_product_space&oldid=1340828148.

[9] 内积和外积[G/OL]. OI Wiki, 2025. https://oi-wiki.org/math/linear-algebra/product/.

[10] 维基百科编者. 内积[G/OL]. 维基百科, 2025(20250703)[2025-07-03]. https://zh.wikipedia.org/w/index.php?title=%E5%86%85%E7%A7%AF&oldid=88045564.

[11] Wikipedia contributors. (2026, April 24). Fourier series. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:55, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Fourier_series&oldid=1350934101.

[12] Wikipedia contributors. (2026, May 20). Fourier transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:55, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Fourier_transform&oldid=1355147665.

[13] Wikipedia contributors. (2026, May 17). Cosine similarity. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:56, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Cosine_similarity&oldid=1354643579.

[14] Wikipedia contributors. (2026, May 11). Laplace transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:56, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Laplace_transform&oldid=1353668445.

[15] Wikipedia contributors. (2026, May 8). Z-transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Z-transform&oldid=1353129057.

[16] Wikipedia contributors. (2025, June 1). Frequency domain. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Frequency_domain&oldid=1293464779.

[17] Wikipedia contributors. (2026, May 20). Convolution. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Convolution&oldid=1355143781.

[18] Wikipedia contributors. (2026, April 25). Discrete cosine transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Discrete_cosine_transform&oldid=1350947997.

[19] Wikipedia contributors. (2026, May 19). JPEG. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=JPEG&oldid=1355030069.

[20] Wikipedia contributors. (2026, April 29). Wavelet. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Wavelet&oldid=1351640900.

[21] Wikipedia contributors. (2026, March 22). Word embedding. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:59, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Word_embedding&oldid=1344811356.

[22] Wikipedia contributors. (2025, November 24). Kernel method. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Kernel_method&oldid=1323912764.

[23] Wikipedia contributors. (2026, April 19). Support vector machine. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Support_vector_machine&oldid=1350010737.

[24] Wikipedia contributors. (2026, May 23). Cluster analysis. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Cluster_analysis&oldid=1355672094.

[25] Wikipedia contributors. (2026, April 8). Regression analysis. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Regression_analysis&oldid=1347668389.

[26] Wikipedia contributors. (2026, May 22). Quantum mechanics. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Quantum_mechanics&oldid=1355584024.

[27] Wikipedia contributors. (2026, May 20). Uncertainty principle. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from https://en.wikipedia.org/w/index.php?title=Uncertainty_principle&oldid=1355179215.

This author has not provided a description.
Last updated on 2026-05-25