{"id":597,"date":"2026-05-24T21:51:01","date_gmt":"2026-05-24T12:51:01","guid":{"rendered":"https:\/\/wuhanqing.cn\/wordpress\/?p=597"},"modified":"2026-05-25T11:51:07","modified_gmt":"2026-05-25T02:51:07","slug":"vom-punktprodukt-zum-innenproduktraum-die-vereinheitlichte-sprache-hinter-linearer-algebra-signalverarbeitung-und-ki","status":"publish","type":"post","link":"https:\/\/wuhanqing.cn\/wordpress\/de\/2026\/05\/24\/vom-punktprodukt-zum-innenproduktraum-die-vereinheitlichte-sprache-hinter-linearer-algebra-signalverarbeitung-und-ki\/","title":{"rendered":"Vom Punktprodukt zum Innenproduktraum: Die vereinheitlichte Sprache hinter linearer Algebra, Signalverarbeitung und KI"},"content":{"rendered":"<p># Vom Punktprodukt zum Innenproduktraum: Die vereinheitlichte Sprache hinter linearer Algebra, Signalverarbeitung und KI (From Dot Product to Inner Product Space: The Unified Language Behind Linear Algebra, Signals, and AI)<\/p>\n<p>## Zusammenfassung (Abstract)<\/p>\n<p>Das **Innenprodukt(Inner Product)** ist eine fundamentale algebraische Struktur, die sich durch lineare Algebra, Funktionalanalysis, Signalverarbeitung, maschinelles Lernen und Quantenmechanik zieht. Diese Arbeit behandelt das Innenprodukt als einziges Thema, beginnend mit dem Punktprodukt(Dot Product) im endlichdimensionalen euklidischen Raum, und f\u00fchrt nacheinander die Axiome des Innenproduktraums, die orthogonale Zerlegung(Orthogonal Decomposition), die Kleinste-Quadrate-Projektion(Least-Squares Projection), den Hilbertraum(Hilbert Space), die Fourier-Reihe und -Transformation(Fourier Series and Transform), die Faltung(Convolution), die diskrete Kosinustransformation(Discrete Cosine Transform), die Wavelet-Analyse(Wavelet Analysis), den Selbstaufmerksamkeitsmechanismus(Self-Attention Mechanism), die Kernmethode(Kernel Method) und die Zustandsvektorprojektion(State-Vector Projection) in der Quantenmechanik ein. Es wird gezeigt, dass diese scheinbar unterschiedlichen Fachgebiete in ihrer mathematischen Struktur vereinheitlicht sind: **Definition des Innenprodukts \u2192 Aufstellung einer Orthonormalbasis \u2192 Projektionszerlegung \u2192 Informationsextraktion**. Ziel dieser Arbeit ist es, dem Leser eine kognitive Landkarte(Cognitive Map) zu bieten, die Mathematik, Ingenieurwissenschaften und Physik miteinander verbindet.<\/p>\n<p>## Vorwort: Alles ist Projektion (Preface: Everything Is a Projection)<\/p>\n<p>In der Mathematik und den Ingenieurwissenschaften gibt es ein wiederkehrendes Muster: die Zerlegung komplexer Objekte in Linearkombinationen von \"Elementarkomponenten\", wobei das Werkzeug der Zerlegung genau die **Projektion(Projection)** ist. Das Wesen der Projektionsoperation ist das Innenprodukt(Inner Product) \u2014 eine bin\u00e4re Operation zur Messung von **\u00c4hnlichkeit(Similarity)** . Von der Zerlegung von Signalen in Sinuswellen verschiedener Frequenzen in der Fourier-Analyse \u00fcber die Suche nach der am besten passenden Geraden durch Datenpunkte mittels der Methode der kleinsten Quadrate bis hin zur Messung eines Teilchens im \u00dcberlagerungszustand in der Quantenmechanik \u2014 all diese Prozesse teilen dieselbe mathematische Sprache: **Definition des Innenprodukts \u2192 Aufstellung einer Orthonormalbasis \u2192 Projektion \u2192 orthogonale Zerlegung \u2192 Informationsextraktion**.<\/p>\n<p>Das Ziel dieser Arbeit ist es, dieses vereinheitlichte Framework systematisch zu erl\u00e4utern. Ausgehend vom vertrauten Punktprodukt(Dot Product) von Vektoren wird schrittweise zum Innenproduktraum(Inner Product Space) und Hilbertraum(Hilbert Space) abstrahiert, um zu zeigen, wie diese Struktur in der Analysis, Signalverarbeitung, k\u00fcnstlichen Intelligenz und Quantenmechanik immer wieder auftaucht. Vorkenntnisse in Funktionalanalysis(Functional Analysis) sind nicht erforderlich; grundlegende Kenntnisse in linearer Algebra und Analysis gen\u00fcgen.<\/p>\n<p>---<\/p>\n<p>## Kapitel 1 Die Ontologie des Innenprodukts \u2014 Die fundamentale Operation zur Messung von \u00c4hnlichkeit (Chapter 1 The Ontology of Inner Products \u2014 The Fundamental Operation for Measuring Similarity)<\/p>\n<p>### 1.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>Das Konzept des **Innenprodukts(Inner Product)** hat seinen Ursprung im Punktprodukt(Dot Product) der euklidischen Geometrie, aber seine mathematische Bedeutung wurde in der Funktionalanalysis(Functional Analysis) erheblich erweitert. Dieser Abschnitt beginnt mit dem endlichdimensionalen Fall und entwickelt schrittweise die rigorose Definition des Innenprodukts.<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 1.1 Punktprodukt (Definition 1.1 Dot Product)<br \/>\nSei $\\mathbb{R}^n$ der $n$-dimensionale reelle euklidische Raum. F\u00fcr zwei beliebige Vektoren $\\mathbf{a} = (a_1, a_2, \\dots, a_n)$ und $\\mathbf{b} = (b_1, b_2, \\dots, b_n)$ ist das Punktprodukt als die Summe der Produkte der entsprechenden Komponenten definiert$^{[1]}$:<\/p>\n<p>$$<br \/>\n\\langle \\mathbf{a}, \\mathbf{b} \\rangle = \\mathbf{a} \\cdot \\mathbf{b} = \\sum_{i=1}^{n} a_i b_i.<br \/>\n\\tag{1.1}<br \/>\n$$<\/p>\n<p>Das Punktprodukt ist eine bin\u00e4re Operation, die zwei Vektoren auf einen Skalar abbildet. Seine geometrische Interpretation wird durch das Kosinusgesetz(Cosine Law) gegeben:<\/p>\n<p>$$<br \/>\n\\mathbf{a} \\cdot \\mathbf{b} = \\|\\mathbf{a}\\| \\|\\mathbf{b}\\| \\cos\\theta,<br \/>\n\\tag{1.2}<br \/>\n$$<\/p>\n<p>wobei $\\|\\mathbf{a}\\| = \\sqrt{\\langle \\mathbf{a}, \\mathbf{a} \\rangle}$ die euklidische Norm ($L_2$-Norm) des Vektors und $\\theta$ der Winkel zwischen den beiden Vektoren ist.<br \/>\n```<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 1.2 Innenproduktraum (Definition 1.2 Inner Product Space)<br \/>\nSei $V$ ein Vektorraum \u00fcber dem K\u00f6rper $\\mathbb{F}$ ($\\mathbb{R}$ oder $\\mathbb{C}$). Eine Abbildung $\\langle \\cdot, \\cdot \\rangle: V \\times V \\to \\mathbb{F}$ hei\u00dft **Innenprodukt(Inner Product)** , wenn sie die folgenden drei Axiome erf\u00fcllt$^{[8][9]}$:<\/p>\n<p>1. **Konjugierte Symmetrie(Conjugate Symmetry)**: $\\langle \\mathbf{u}, \\mathbf{v} \\rangle = \\overline{\\langle \\mathbf{v}, \\mathbf{u} \\rangle}$, wobei der \u00dcberstrich die komplexe Konjugation bezeichnet. F\u00fcr reelle Vektorr\u00e4ume reduziert sich dies auf Symmetrie $\\langle \\mathbf{u}, \\mathbf{v} \\rangle = \\langle \\mathbf{v}, \\mathbf{u} \\rangle$.<br \/>\n2. **Linearit\u00e4t im ersten Argument(Linearity in the First Argument)**: $\\langle \\alpha\\mathbf{u} + \\beta\\mathbf{v}, \\mathbf{w} \\rangle = \\alpha\\langle \\mathbf{u}, \\mathbf{w} \\rangle + \\beta\\langle \\mathbf{v}, \\mathbf{w} \\rangle$ f\u00fcr alle $\\alpha, \\beta \\in \\mathbb{F}$.<br \/>\n3. **Positive Definitheit(Positive Definiteness)**: $\\langle \\mathbf{v}, \\mathbf{v} \\rangle \\geq 0$, und $\\langle \\mathbf{v}, \\mathbf{v} \\rangle = 0$ gilt genau dann, wenn $\\mathbf{v} = \\mathbf{0}$.<\/p>\n<p>Aus dem Innenprodukt wird die Norm $\\|\\mathbf{v}\\| = \\sqrt{\\langle \\mathbf{v}, \\mathbf{v} \\rangle}$ abgeleitet, und daraus der Abstand $d(\\mathbf{u}, \\mathbf{v}) = \\|\\mathbf{u} - \\mathbf{v}\\|$. Somit ist ein Innenproduktraum nat\u00fcrlicherweise ein normierter Raum(Normed Space) und weiterhin ein metrischer Raum(Metric Space).<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Satz 1.1 Cauchy-Schwarz-Ungleichung (Theorem 1.1 Cauchy-Schwarz Inequality)<br \/>\nF\u00fcr jeden Innenproduktraum $V$ gilt f\u00fcr alle $\\mathbf{u}, \\mathbf{v} \\in V$ die Cauchy-Schwarz-Ungleichung$^{[8]}$:<\/p>\n<p>$$<br \/>\n|\\langle \\mathbf{u}, \\mathbf{v} \\rangle| \\leq \\|\\mathbf{u}\\| \\cdot \\|\\mathbf{v}\\|.<br \/>\n\\tag{1.3}<br \/>\n$$<\/p>\n<p>Die Gleichheit gilt genau dann, wenn $\\mathbf{u}$ und $\\mathbf{v}$ linear abh\u00e4ngig sind (d.h. kollinear).<\/p>\n<p>**Beweis**: Betrachte $\\langle \\mathbf{u} - \\lambda\\mathbf{v}, \\mathbf{u} - \\lambda\\mathbf{v} \\rangle \\geq 0$ f\u00fcr $\\lambda = \\frac{\\langle \\mathbf{u}, \\mathbf{v} \\rangle}{\\langle \\mathbf{v}, \\mathbf{v} \\rangle}$. Durch Ausmultiplizieren erh\u00e4lt man $\\|\\mathbf{u}\\|^2 - \\frac{|\\langle \\mathbf{u}, \\mathbf{v} \\rangle|^2}{\\|\\mathbf{v}\\|^2} \\geq 0$, woraus die Ungleichung folgt. $\\square$<br \/>\n```<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 1.3 Kosinus\u00e4hnlichkeit (Definition 1.3 Cosine Similarity)<br \/>\nDie Kosinus\u00e4hnlichkeit(Cosine Similarity) ist der Kosinus des Winkels zwischen zwei Vektoren, definiert als das normalisierte Innenprodukt$^{[13]}$:<\/p>\n<p>$$<br \/>\n\\text{cosine\\_similarity}(\\mathbf{a}, \\mathbf{b}) = \\frac{\\langle \\mathbf{a}, \\mathbf{b} \\rangle}{\\|\\mathbf{a}\\| \\|\\mathbf{b}\\|} = \\cos\\theta.<br \/>\n\\tag{1.5}<br \/>\n$$<\/p>\n<p>Der Wertebereich liegt in $[-1, 1]$: $\\cos\\theta = 1$ bedeutet, dass die Vektoren in die gleiche Richtung zeigen (maximale \u00c4hnlichkeit); $\\cos\\theta = 0$ bedeutet Orthogonalit\u00e4t (keine \u00c4hnlichkeit); $\\cos\\theta = -1$ bedeutet entgegengesetzte Richtung (maximale Un\u00e4hnlichkeit). Die Kosinus\u00e4hnlichkeit ist invariant gegen\u00fcber der Skalierung von Vektoren, d.h. $\\text{cosine\\_similarity}(\\mathbf{a}, \\mathbf{b}) = \\text{cosine\\_similarity}(c\\mathbf{a}, \\mathbf{b})$.<br \/>\n```<\/p>\n<p>### 1.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)<\/p>\n<p>Die geometrische Bedeutung des Punktprodukts $\\mathbf{a} \\cdot \\mathbf{b} = \\|\\mathbf{a}\\| \\|\\mathbf{b}\\| \\cos\\theta$ l\u00e4sst sich in drei F\u00e4lle unterteilen:<\/p>\n<p>1. **$\\theta = 0$ (parallele Vektoren)**: $\\mathbf{a} \\cdot \\mathbf{b} = \\|\\mathbf{a}\\| \\|\\mathbf{b}\\|$, das Innenprodukt ist maximal;<br \/>\n2. **$\\theta = 90^\\circ$ (orthogonale Vektoren)**: $\\mathbf{a} \\cdot \\mathbf{b} = 0$, das Innenprodukt ist Null;<br \/>\n3. **$\\theta = 180^\\circ$ (antiparallele Vektoren)**: $\\mathbf{a} \\cdot \\mathbf{b} = -\\|\\mathbf{a}\\| \\|\\mathbf{b}\\|$, das Innenprodukt ist minimal.<\/p>\n<p>Das Punktprodukt misst im Wesentlichen die **Projektionsl\u00e4nge(Projection Length)** : $\\mathbf{a} \\cdot \\hat{\\mathbf{b}}$ (wobei $\\hat{\\mathbf{b}}$ der Einheitsvektor in Richtung $\\mathbf{b}$ ist) ist die L\u00e4nge der orthogonalen Projektion von $\\mathbf{a}$ auf die Richtung von $\\mathbf{b}$. Diese \"Projektion zum Messen von \u00c4hnlichkeit\" ist der konzeptionelle Kern, der sich durch diese gesamte Arbeit zieht.<\/p>\n<p>Abbildung 1 zeigt eine $5 \\times 5$ Kosinus\u00e4hnlichkeitsmatrix f\u00fcr f\u00fcnf Worteinbettungsvektoren(Word Embedding Vectors). Die semantische \u00c4hnlichkeit zwischen W\u00f6rtern wird durch die Kosinus\u00e4hnlichkeit ihrer Einbettungsvektoren gemessen. \"King\" und \"Queen\" haben eine hohe \u00c4hnlichkeit (0.98), w\u00e4hrend \"Apple\" mit den anderen W\u00f6rtern eine geringe \u00c4hnlichkeit aufweist (ca. 0.2). Dies zeigt intuitiv, wie das Innenprodukt als universelles Werkzeug zur Messung von \u00c4hnlichkeit in der KI fungiert.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/Pictures\/01_cosine_similarity_heatmap.png\"><\/p>\n<p>**Abbildung 1: Kosinus\u00e4hnlichkeitsmatrix von Worteinbettungen (Figure 1: Cosine Similarity Heatmap of Word Embeddings).** Die Farbintensit&auml;t stellt die Kosinus&auml;hnlichkeit zwischen Wortpaaren dar. Die Einbettungen von \"king\" und \"queen\" sind einander sehr &auml;hnlich (0.98), w&auml;hrend \"apple\" mit den anderen W&ouml;rtern eine geringe &Auml;hnlichkeit aufweist. Erstellt von <a href=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/main.py\" target=\"_blank\"  rel=\"nofollow\" >main.py<\/a>.<\/p>\n<p>### 1.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 1.1 Gram-Schmidt-Orthonormalisierung \u2014 Manuelle Berechnung (Example 1.1 Gram-Schmidt Orthonormalization \u2014 Manual Calculation)<\/p>\n<p>Gegeben seien zwei Vektoren im $\\mathbb{R}^3$: $\\mathbf{v}_1 = (1, 1, 0)$, $\\mathbf{v}_2 = (1, 2, 1)$. Konstruiere daraus eine Orthonormalbasis(Orthonormal Basis) $\\{\\mathbf{u}_1, \\mathbf{u}_2\\}$ des von $\\{\\mathbf{v}_1, \\mathbf{v}_2\\}$ aufgespannten Unterraums.<\/p>\n<p>**L\u00f6sung**:<\/p>\n<p>**Schritt 1**: W\u00e4hle $\\mathbf{v}_1$ als Startvektor und normalisiere ihn:<\/p>\n<p>$$<br \/>\n\\mathbf{u}_1 = \\frac{\\mathbf{v}_1}{\\|\\mathbf{v}_1\\|} = \\frac{(1, 1, 0)}{\\sqrt{1^2 + 1^2 + 0^2}} = \\frac{(1, 1, 0)}{\\sqrt{2}} = \\left(\\frac{1}{\\sqrt{2}}, \\frac{1}{\\sqrt{2}}, 0\\right).<br \/>\n$$<\/p>\n<p>**Schritt 2**: Entferne die Projektion von $\\mathbf{v}_2$ auf $\\mathbf{u}_1$:<\/p>\n<p>$$<br \/>\n\\langle \\mathbf{v}_2, \\mathbf{u}_1 \\rangle = 1 \\cdot \\frac{1}{\\sqrt{2}} + 2 \\cdot \\frac{1}{\\sqrt{2}} + 1 \\cdot 0 = \\frac{3}{\\sqrt{2}}.<br \/>\n$$<\/p>\n<p>$$<br \/>\n\\mathbf{w}_2 = \\mathbf{v}_2 - \\langle \\mathbf{v}_2, \\mathbf{u}_1 \\rangle \\mathbf{u}_1 = (1, 2, 1) - \\frac{3}{\\sqrt{2}} \\left(\\frac{1}{\\sqrt{2}}, \\frac{1}{\\sqrt{2}}, 0\\right) = (1, 2, 1) - \\left(\\frac{3}{2}, \\frac{3}{2}, 0\\right) = \\left(-\\frac{1}{2}, \\frac{1}{2}, 1\\right).<br \/>\n$$<\/p>\n<p>**Schritt 3**: Normalisiere $\\mathbf{w}_2$:<\/p>\n<p>$$<br \/>\n\\|\\mathbf{w}_2\\| = \\sqrt{\\left(-\\frac{1}{2}\\right)^2 + \\left(\\frac{1}{2}\\right)^2 + 1^2} = \\sqrt{\\frac{1}{4} + \\frac{1}{4} + 1} = \\sqrt{\\frac{3}{2}} = \\frac{\\sqrt{6}}{2}.<br \/>\n$$<\/p>\n<p>$$<br \/>\n\\mathbf{u}_2 = \\frac{\\mathbf{w}_2}{\\|\\mathbf{w}_2\\|} = \\frac{(-1\/2, 1\/2, 1)}{\\sqrt{6}\/2} = \\left(-\\frac{1}{\\sqrt{6}}, \\frac{1}{\\sqrt{6}}, \\frac{2}{\\sqrt{6}}\\right).<br \/>\n$$<\/p>\n<p>**\u00dcberpr\u00fcfung**: $\\langle \\mathbf{u}_1, \\mathbf{u}_2 \\rangle = \\frac{1}{\\sqrt{2}} \\cdot \\left(-\\frac{1}{\\sqrt{6}}\\right) + \\frac{1}{\\sqrt{2}} \\cdot \\frac{1}{\\sqrt{6}} + 0 \\cdot \\frac{2}{\\sqrt{6}} = -\\frac{1}{\\sqrt{12}} + \\frac{1}{\\sqrt{12}} + 0 = 0$, und $\\|\\mathbf{u}_1\\| = \\|\\mathbf{u}_2\\| = 1$. Die Orthonormalbasis ist korrekt konstruiert.<\/p>\n<p>**Wichtige Beobachtung**: Der Kernschritt ist $\\mathbf{w}_2 = \\mathbf{v}_2 - \\text{proj}_{\\mathbf{u}_1}(\\mathbf{v}_2)$, d.h. die Subtraktion der Projektion. Dies stellt sicher, dass $\\mathbf{w}_2$ orthogonal zu $\\mathbf{u}_1$ ist. Dieses \"Projizieren und Subtrahieren\" ist die grundlegende Idee der orthogonalen Zerlegung(Orthogonal Decomposition).<br \/>\n```<\/p>\n<p>### 1.4 Anwendungen in Technik und Spitzenforschung (Engineering and Cutting-Edge Applications)<\/p>\n<p>Das Punktprodukt und die Kosinus\u00e4hnlichkeit sind in der modernen KI allgegenw\u00e4rtig:<\/p>\n<p>- **Worteinbettungen(Word Embeddings)**$^{[21]}$: In Modellen wie Word2Vec und GloVe wird die semantische \u00c4hnlichkeit zwischen W\u00f6rtern durch die Kosinus\u00e4hnlichkeit ihrer Einbettungsvektoren gemessen. Das klassische Beispiel \"king - man + woman = queen\" wird durch Innenproduktoperationen im Einbettungsraum realisiert.<br \/>\n- **Empfehlungssysteme(Recommendation Systems)** : Die \u00c4hnlichkeit zwischen Benutzern oder Artikeln wird durch das Innenprodukt ihrer Merkmalsvektoren gemessen (Collaborative Filtering).<br \/>\n- **Aufmerksamkeitsmechanismus(Attention Mechanism)** : Im Transformer-Modell wird die Relevanz zwischen Tokens durch das Innenprodukt von Query- und Key-Vektoren berechnet (wird in Kapitel 11 ausf\u00fchrlich behandelt).<br \/>\n- **Informationsabruf(Information Retrieval)** : Die Kosinus\u00e4hnlichkeit zwischen dem Anfragevektor und dem Dokumentvektor wird zur Bewertung der Dokumentrelevanz verwendet.<\/p>\n<p>---<\/p>\n<p>## Kapitel 2 Orthogonale Zerlegung \u2014 Die Kunst, Komplexit\u00e4t zu entwirren (Chapter 2 Orthogonal Decomposition \u2014 The Art of Untangling Complexity)<\/p>\n<p>### 2.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>Orthogonalit\u00e4t(Orthogonality) ist eines der wichtigsten Konzepte im Innenproduktraum. Zwei Vektoren sind orthogonal, wenn ihr Innenprodukt Null ist: $\\langle \\mathbf{u}, \\mathbf{v} \\rangle = 0$. Dieses Konzept kann auf Unterr\u00e4ume erweitert werden.<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 2.1 Orthogonales Komplement (Definition 2.1 Orthogonal Complement)<br \/>\nSei $U$ ein Unterraum von $V$. Das **orthogonale Komplement(Orthogonal Complement)** $U^\\perp$ ist definiert als die Menge aller Vektoren in $V$, die orthogonal zu jedem Vektor in $U$ sind$^{[2]}$:<\/p>\n<p>$$<br \/>\nU^\\perp = \\{\\mathbf{v} \\in V \\mid \\langle \\mathbf{v}, \\mathbf{u} \\rangle = 0,\\ \\forall \\mathbf{u} \\in U\\}.<br \/>\n\\tag{2.1}<br \/>\n$$<\/p>\n<p>$U^\\perp$ ist ebenfalls ein Unterraum von $V$.<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Satz 2.1 Orthogonale direkte Summenzerlegung (Theorem 2.1 Orthogonal Direct Sum Decomposition)<br \/>\nSei $U$ ein Unterraum von $V$. Dann kann $V$ als orthogonale direkte Summe(Orthogonal Direct Sum) von $U$ und $U^\\perp$ zerlegt werden$^{[2]}$:<\/p>\n<p>$$<br \/>\nV = U \\oplus U^\\perp.<br \/>\n\\tag{2.2}<br \/>\n$$<\/p>\n<p>Das bedeutet, jeder Vektor $\\mathbf{v} \\in V$ kann eindeutig geschrieben werden als $\\mathbf{v} = \\mathbf{u} + \\mathbf{w}$, wobei $\\mathbf{u} \\in U$ und $\\mathbf{w} \\in U^\\perp$. Die Eindeutigkeit folgt aus der Tatsache, dass $U \\cap U^\\perp = \\{\\mathbf{0}\\}$.<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Satz 2.2 Projektion auf Orthonormalbasis (Theorem 2.2 Projection onto Orthonormal Basis)<br \/>\nSei $\\{\\mathbf{e}_1, \\dots, \\mathbf{e}_k\\}$ eine Orthonormalbasis(Orthonormal Basis) von $U$. Dann ist die orthogonale Projektion(Orthogonal Projection) eines Vektors $\\mathbf{v}$ auf $U$ gegeben durch:<\/p>\n<p>$$<br \/>\n\\mathbf{u} = \\text{proj}_U(\\mathbf{v}) = \\sum_{i=1}^{k} \\langle \\mathbf{v}, \\mathbf{e}_i \\rangle \\mathbf{e}_i.<br \/>\n\\tag{2.3}<br \/>\n$$<\/p>\n<p>Die Projektionskoeffizienten $\\langle \\mathbf{v}, \\mathbf{e}_i \\rangle$ sind die Koordinaten von $\\mathbf{v}$ in der Basis $\\{\\mathbf{e}_i\\}$.<br \/>\n```<\/p>\n<p>### 2.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)<\/p>\n<p>Die orthogonale Zerlegung(Orthogonal Decomposition) ist eine der elegantesten Ideen in der Mathematik. Sie besagt: Jeder Vektor kann eindeutig in zwei orthogonale Komponenten zerlegt werden \u2014 eine, die im Unterraum $U$ liegt, und eine, die senkrecht dazu steht. Dies ist die Verallgemeinerung der Zerlegung einer Kraft in Komponenten in der Physik.<\/p>\n<p>Die orthogonale Projektion(Orthogonal Projection) $\\text{proj}_U(\\mathbf{v})$ ist die beste Approximation von $\\mathbf{v}$ durch Vektoren aus $U$, und der Projektionsfehler $\\mathbf{v} - \\text{proj}_U(\\mathbf{v})$ steht senkrecht auf $U$. Diese \"beste Approximation\"-Eigenschaft ist die Grundlage der Methode der kleinsten Quadrate.<\/p>\n<p>### 2.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 2.1 Orthogonale Zerlegung im $\\mathbb{R}^3$ \u2014 Manuelle Berechnung (Example 2.1 Orthogonal Decomposition in $\\mathbb{R}^3$ \u2014 Manual Calculation)<\/p>\n<p>Gegeben sei $\\mathbf{v} = (3, 4, 5)$ und der von $\\mathbf{e}_1 = (1, 0, 0)$ und $\\mathbf{e}_2 = (0, 1, 0)$ aufgespannte Unterraum $U$ (die $xy$-Ebene). Zerlege $\\mathbf{v}$ in seine Projektion auf $U$ und die dazu orthogonale Komponente.<\/p>\n<p>**L\u00f6sung**:<\/p>\n<p>**Schritt 1**: Da $\\{\\mathbf{e}_1, \\mathbf{e}_2\\}$ eine Orthonormalbasis von $U$ ist, kann die Projektion direkt nach Formel (2.3) berechnet werden:<\/p>\n<p>$$<br \/>\n\\mathbf{u} = \\langle \\mathbf{v}, \\mathbf{e}_1 \\rangle \\mathbf{e}_1 + \\langle \\mathbf{v}, \\mathbf{e}_2 \\rangle \\mathbf{e}_2 = 3 \\cdot (1, 0, 0) + 4 \\cdot (0, 1, 0) = (3, 4, 0).<br \/>\n$$<\/p>\n<p>**Schritt 2**: Die orthogonale Komponente ist:<\/p>\n<p>$$<br \/>\n\\mathbf{w} = \\mathbf{v} - \\mathbf{u} = (3, 4, 5) - (3, 4, 0) = (0, 0, 5).<br \/>\n$$<\/p>\n<p>**Schritt 3**: \u00dcberpr\u00fcfung der Orthogonalit\u00e4t: $\\langle \\mathbf{u}, \\mathbf{w} \\rangle = 3 \\cdot 0 + 4 \\cdot 0 + 0 \\cdot 5 = 0$. Die Zerlegung ist korrekt.<\/p>\n<p>**Wichtige Beobachtung**: $\\mathbf{u} = (3, 4, 0)$ ist die Projektion von $\\mathbf{v}$ auf die $xy$-Ebene, und $\\mathbf{w} = (0, 0, 5)$ ist die $z$-Komponente. Die Zerlegung $\\mathbf{v} = \\mathbf{u} + \\mathbf{w}$ entspricht der Aufteilung des Vektors in einen horizontalen und einen vertikalen Anteil.<br \/>\n```<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 2.2 Gram-Schmidt-Verfahren \u2014 Vom $\\mathbb{R}^3$ zum Funktionenraum (Example 2.2 Gram-Schmidt Process \u2014 From $\\mathbb{R}^3$ to Function Space)<\/p>\n<p>Wende das Gram-Schmidt-Verfahren auf die Vektoren $\\mathbf{a}_1 = (1, 1, 1)$, $\\mathbf{a}_2 = (1, 2, 3)$ im $\\mathbb{R}^3$ an, um eine Orthonormalbasis zu konstruieren.<\/p>\n<p>**L\u00f6sung**:<\/p>\n<p>**Schritt 1**: Normalisiere $\\mathbf{a}_1$:<\/p>\n<p>$$<br \/>\n\\|\\mathbf{a}_1\\| = \\sqrt{1^2 + 1^2 + 1^2} = \\sqrt{3}, \\quad \\mathbf{q}_1 = \\frac{(1, 1, 1)}{\\sqrt{3}} = \\left(\\frac{1}{\\sqrt{3}}, \\frac{1}{\\sqrt{3}}, \\frac{1}{\\sqrt{3}}\\right).<br \/>\n$$<\/p>\n<p>**Schritt 2**: Entferne die Projektion von $\\mathbf{a}_2$ auf $\\mathbf{q}_1$:<\/p>\n<p>$$<br \/>\n\\langle \\mathbf{a}_2, \\mathbf{q}_1 \\rangle = 1 \\cdot \\frac{1}{\\sqrt{3}} + 2 \\cdot \\frac{1}{\\sqrt{3}} + 3 \\cdot \\frac{1}{\\sqrt{3}} = \\frac{6}{\\sqrt{3}} = 2\\sqrt{3}.<br \/>\n$$<\/p>\n<p>$$<br \/>\n\\mathbf{w}_2 = \\mathbf{a}_2 - \\langle \\mathbf{a}_2, \\mathbf{q}_1 \\rangle \\mathbf{q}_1 = (1, 2, 3) - 2\\sqrt{3} \\cdot \\left(\\frac{1}{\\sqrt{3}}, \\frac{1}{\\sqrt{3}}, \\frac{1}{\\sqrt{3}}\\right) = (1, 2, 3) - (2, 2, 2) = (-1, 0, 1).<br \/>\n$$<\/p>\n<p>**Schritt 3**: Normalisiere $\\mathbf{w}_2$:<\/p>\n<p>$$<br \/>\n\\|\\mathbf{w}_2\\| = \\sqrt{(-1)^2 + 0^2 + 1^2} = \\sqrt{2}, \\quad \\mathbf{q}_2 = \\left(-\\frac{1}{\\sqrt{2}}, 0, \\frac{1}{\\sqrt{2}}\\right).<br \/>\n$$<\/p>\n<p>**\u00dcberpr\u00fcfung**: $\\langle \\mathbf{q}_1, \\mathbf{q}_2 \\rangle = \\frac{1}{\\sqrt{3}} \\cdot \\left(-\\frac{1}{\\sqrt{2}}\\right) + \\frac{1}{\\sqrt{3}} \\cdot 0 + \\frac{1}{\\sqrt{3}} \\cdot \\frac{1}{\\sqrt{2}} = 0$. Die Orthonormalbasis ist korrekt.<\/p>\n<p>**Anwendung**: Die QR-Zerlegung(QR Decomposition) $A = QR$ ist eine Matrixformulierung des Gram-Schmidt-Verfahrens, wobei $Q$ orthogonale Spalten und $R$ eine obere Dreiecksmatrix ist. Die QR-Zerlegung wird h\u00e4ufig zur L\u00f6sung linearer Ausgleichsprobleme verwendet.<br \/>\n```<\/p>\n<p>### 2.4 Anwendungen in Technik und Spitzenforschung (Engineering and Cutting-Edge Applications)<\/p>\n<p>Die Hauptkomponentenanalyse(PCA: Principal Component Analysis) ist eine der wichtigsten Anwendungen der orthogonalen Zerlegung. PCA findet die Richtungen maximaler Varianz in den Daten durch orthogonale Zerlegung der Kovarianzmatrix:<\/p>\n<p>1. **Berechne die Kovarianzmatrix**: $C = \\frac{1}{n} \\sum_{i=1}^{n} (\\mathbf{x}_i - \\bar{\\mathbf{x}})(\\mathbf{x}_i - \\bar{\\mathbf{x}})^T$;<br \/>\n2. **Eigenwertzerlegung**: $C = Q \\Lambda Q^T$, wobei $Q$ orthogonale Eigenvektoren (Hauptkomponenten) und $\\Lambda$ die Eigenwerte (Varianzen) enth\u00e4lt;<br \/>\n3. **Dimensionsreduktion**: Projiziere die Daten auf die ersten $k$ Hauptkomponenten: $\\mathbf{y}_i = Q_k^T (\\mathbf{x}_i - \\bar{\\mathbf{x}})$.<\/p>\n<p>PCA wird in der Bildkompression (Eigenfaces), der Genexpressionsanalyse und der Finanzmodellierung eingesetzt. Sein Kern ist die orthogonale Zerlegung des Datenraums.<\/p>\n<p>---<\/p>\n<p>## Kapitel 3 Die Methode der kleinsten Quadrate \u2014 Optimale Approximation, wenn keine exakte L\u00f6sung existiert (Chapter 3 Least Squares \u2014 Optimal Approximation When No Exact Solution Exists)<\/p>\n<p>### 3.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>In der Praxis haben lineare Gleichungssysteme $A\\mathbf{x} = \\mathbf{b}$ oft keine exakte L\u00f6sung, weil $\\mathbf{b}$ nicht im Spaltenraum von $A$ liegt. Die Methode der kleinsten Quadrate(Least Squares Method) findet die beste N\u00e4herungsl\u00f6sung, indem sie $\\mathbf{b}$ orthogonal auf den Spaltenraum von $A$ projiziert$^{[5]}$.<\/p>\n<p>```ad-theorem<br \/>\ntitle: Satz 3.1 Normalgleichungen (Theorem 3.1 Normal Equations)<br \/>\nF\u00fcr ein \u00fcberbestimmtes lineares System $A\\mathbf{x} \\approx \\mathbf{b}$ ($A \\in \\mathbb{R}^{m \\times n}$, $m > n$) ist die Kleinste-Quadrate-L\u00f6sung $\\hat{\\mathbf{x}}$ gegeben durch die Normalgleichungen(Normal Equations):<\/p>\n<p>$$<br \/>\nA^T A \\hat{\\mathbf{x}} = A^T \\mathbf{b}.<br \/>\n\\tag{3.1}<br \/>\n$$<\/p>\n<p>Wenn $A$ vollen Spaltenrang hat, ist $A^T A$ invertierbar, und die eindeutige L\u00f6sung ist:<\/p>\n<p>$$<br \/>\n\\hat{\\mathbf{x}} = (A^T A)^{-1} A^T \\mathbf{b}.<br \/>\n\\tag{3.2}<br \/>\n$$<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Satz 3.2 Projektionsinterpretation der kleinsten Quadrate (Theorem 3.2 Projection Interpretation of Least Squares)<br \/>\nDie Kleinste-Quadrate-L\u00f6sung $\\hat{\\mathbf{x}}$ erf\u00fcllt:<\/p>\n<p>$$<br \/>\nA\\hat{\\mathbf{x}} = \\text{proj}_{\\text{col}(A)}(\\mathbf{b}) = P \\mathbf{b},<br \/>\n\\tag{3.3}<br \/>\n$$<\/p>\n<p>wobei $P = A(A^T A)^{-1} A^T$ die orthogonale Projektionsmatrix(Projection Matrix) auf den Spaltenraum $\\text{col}(A)$ ist. Der Residuenvektor $\\mathbf{r} = \\mathbf{b} - A\\hat{\\mathbf{x}}$ ist orthogonal zu $\\text{col}(A)$, d.h. $A^T \\mathbf{r} = \\mathbf{0}$.<\/p>\n<p>Die Projektionsmatrix $P$ hat die Eigenschaften $P^T = P$ (Symmetrie) und $P^2 = P$ (Idempotenz), die charakteristisch f\u00fcr orthogonale Projektionen sind.<br \/>\n```<\/p>\n<p>### 3.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)<\/p>\n<p>Die geometrische Interpretation der Methode der kleinsten Quadrate ist \u00e4u\u00dferst elegant: Der Beobachtungsvektor $\\mathbf{b}$ liegt im Allgemeinen nicht im Spaltenraum $\\text{col}(A)$ (dem \"Modellraum\"). Die Kleinste-Quadrate-L\u00f6sung $\\hat{\\mathbf{x}}$ ist der Punkt im Parameterraum, der die orthogonale Projektion von $\\mathbf{b}$ auf $\\text{col}(A)$ ergibt, d.h. $A\\hat{\\mathbf{x}} = \\text{proj}_{\\text{col}(A)}(\\mathbf{b})$. Der Residuenvektor $\\mathbf{r} = \\mathbf{b} - A\\hat{\\mathbf{x}}$ steht senkrecht auf $\\text{col}(A)$.<\/p>\n<p>Diese Projektion minimiert den quadratischen Fehler $\\|\\mathbf{b} - A\\mathbf{x}\\|^2$, weil die orthogonale Projektion die k\u00fcrzeste Entfernung von $\\mathbf{b}$ zum Unterraum $\\text{col}(A)$ darstellt.<\/p>\n<p>### 3.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 3.1 Lineare Regression \u2014 Manuelle Berechnung der Normalgleichungen (Example 3.1 Linear Regression \u2014 Manual Calculation of Normal Equations)<\/p>\n<p>Gegeben seien drei Datenpunkte: $(1, 1)$, $(2, 3)$, $(3, 2)$. Finde die Ausgleichsgerade $\\hat{y} = \\beta_0 + \\beta_1 x$ nach der Methode der kleinsten Quadrate.<\/p>\n<p>**L\u00f6sung**:<\/p>\n<p>**Schritt 1**: Stelle das \u00fcberbestimmte System $A\\mathbf{x} \\approx \\mathbf{b}$ auf:<\/p>\n<p>$$<br \/>\nA = \\begin{bmatrix} 1 & 1 \\\\ 1 & 2 \\\\ 1 & 3 \\end{bmatrix}, \\quad<br \/>\n\\mathbf{x} = \\begin{bmatrix} \\beta_0 \\\\ \\beta_1 \\end{bmatrix}, \\quad<br \/>\n\\mathbf{b} = \\begin{bmatrix} 1 \\\\ 3 \\\\ 2 \\end{bmatrix}.<br \/>\n$$<\/p>\n<p>**Schritt 2**: Berechne $A^T A$ und $A^T \\mathbf{b}$:<\/p>\n<p>$$<br \/>\nA^T A = \\begin{bmatrix} 1 & 1 & 1 \\\\ 1 & 2 & 3 \\end{bmatrix}<br \/>\n\\begin{bmatrix} 1 & 1 \\\\ 1 & 2 \\\\ 1 & 3 \\end{bmatrix}<br \/>\n= \\begin{bmatrix} 3 & 6 \\\\ 6 & 14 \\end{bmatrix},<br \/>\n$$<\/p>\n<p>$$<br \/>\nA^T \\mathbf{b} = \\begin{bmatrix} 1 & 1 & 1 \\\\ 1 & 2 & 3 \\end{bmatrix}<br \/>\n\\begin{bmatrix} 1 \\\\ 3 \\\\ 2 \\end{bmatrix}<br \/>\n= \\begin{bmatrix} 6 \\\\ 13 \\end{bmatrix}.<br \/>\n$$<\/p>\n<p>Normalgleichungen:<\/p>\n<p>$$<br \/>\n\\begin{bmatrix} 3 & 6 \\\\ 6 & 14 \\end{bmatrix} \\begin{bmatrix} \\beta_0 \\\\ \\beta_1 \\end{bmatrix} = \\begin{bmatrix} 6 \\\\ 13 \\end{bmatrix}.<br \/>\n$$<\/p>\n<p>Normalgleichungen:<\/p>\n<p>$$<br \/>\n\\begin{bmatrix} 3 & 6 \\\\ 6 & 14 \\end{bmatrix} \\begin{bmatrix} \\beta_0 \\\\ \\beta_1 \\end{bmatrix} = \\begin{bmatrix} 6 \\\\ 13 \\end{bmatrix}.<br \/>\n$$<\/p>\n<p>**Schritt 3**: L\u00f6se die Normalgleichungen. Aus der ersten Gleichung: $3\\beta_0 + 6\\beta_1 = 6 \\implies \\beta_0 = 2 - 2\\beta_1$. Einsetzen in die zweite Gleichung:<\/p>\n<p>$$<br \/>\n6(2 - 2\\beta_1) + 14\\beta_1 = 13 \\implies 12 - 12\\beta_1 + 14\\beta_1 = 13 \\implies 2\\beta_1 = 1 \\implies \\beta_1 = 0.5.<br \/>\n$$<\/p>\n<p>R\u00fccksubstitution: $\\beta_0 = 2 - 2 \\times 0.5 = 1$. Daher ist die Ausgleichsgerade:<\/p>\n<p>$$<br \/>\n\\hat{y} = 1 + 0.5x.<br \/>\n$$<\/p>\n<p>**Schritt 4**: \u00dcberpr\u00fcfe die Orthogonalit\u00e4t. Berechne die angepassten Werte $\\hat{\\mathbf{b}} = A\\hat{\\mathbf{x}}$ und die Residuen $\\mathbf{e}$:<\/p>\n<p>$$<br \/>\n\\hat{\\mathbf{b}} = \\begin{bmatrix} 1 + 0.5 \\times 1 \\\\ 1 + 0.5 \\times 2 \\\\ 1 + 0.5 \\times 3 \\end{bmatrix} = \\begin{bmatrix} 1.5 \\\\ 2 \\\\ 2.5 \\end{bmatrix}, \\quad<br \/>\n\\mathbf{e} = \\mathbf{b} - \\hat{\\mathbf{b}} = \\begin{bmatrix} 1 - 1.5 \\\\ 3 - 2 \\\\ 2 - 2.5 \\end{bmatrix} = \\begin{bmatrix} -0.5 \\\\ 1 \\\\ -0.5 \\end{bmatrix}.<br \/>\n$$<\/p>\n<p>\u00dcberpr\u00fcfe $A^T \\mathbf{e} = \\mathbf{0}$:<\/p>\n<p>$$<br \/>\nA^T \\mathbf{e} = \\begin{bmatrix} 1 & 1 & 1 \\\\ 1 & 2 & 3 \\end{bmatrix} \\begin{bmatrix} -0.5 \\\\ 1 \\\\ -0.5 \\end{bmatrix} = \\begin{bmatrix} -0.5 + 1 - 0.5 \\\\ -0.5 + 2 - 1.5 \\end{bmatrix} = \\begin{bmatrix} 0 \\\\ 0 \\end{bmatrix}.<br \/>\n$$<\/p>\n<p>Die Orthogonalit\u00e4tsbedingung ist erf\u00fcllt, was best\u00e4tigt, dass $\\hat{\\mathbf{b}}$ die orthogonale Projektion von $\\mathbf{b}$ auf $\\text{col}(A)$ ist.<br \/>\n```<\/p>\n<p>### 3.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)<\/p>\n<p>Die Methode der kleinsten Quadrate ist die Grundlage der **Regressionsanalyse(Regression Analysis)** in der Statistik$^{[5][25]}$. Abbildung 2 veranschaulicht die Geometrie des obigen Beispiels: Die schwarzen Punkte sind die urspr\u00fcnglichen Datenpunkte, die rote Linie ist die Kleinste-Quadrate-Anpassung, und die grauen gestrichelten Linien stellen die Residuen dar (d. h. den senkrechten Abstand von $\\mathbf{b}$ zu $\\text{col}(A)$).<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/Pictures\/02_least_squares_projection.png\"><\/p>\n<p>**Abbildung 2: Geometrische Veranschaulichung der Methode der kleinsten Quadrate.** Die schwarzen Punkte sind die Datenpunkte, die rote Linie ist die Anpassungsgerade. Der Residuenvektor $\\mathbf{e}$ steht senkrecht auf dem Spaltenraum $\\text{col}(A)$. Die numerische \u00dcberpr\u00fcfung der Orthogonalit\u00e4tsbedingung $A^T \\mathbf{e} = \\mathbf{0}$ ergibt $\\|A^T \\mathbf{e}\\|_2 \\approx 1.92 \\times 10^{-14}$ (berechnet mit <a href=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/main.py\" target=\"_blank\"  rel=\"nofollow\" >main.py<\/a>), die innerhalb der Gleitkommagenauigkeit Null ist.<\/p>\n<p>Die Methode der kleinsten Quadrate findet breite Anwendung in der Technik: der Messupdate-Schritt des Kalman-Filters, die Parametersch\u00e4tzung in der Systemidentifikation und das lineare Regressionsmodell im maschinellen Lernen \u2014 all dies l\u00e4uft im Kern auf die L\u00f6sung der Normalgleichungen (3.2) hinaus.<\/p>\n<p>---<\/p>\n<p>## Kapitel 4 Vom Endlichdimensionalen zum Unendlichdimensionalen \u2014 Funktionen als Vektoren (Chapter 4 From Finite Dimensions to Infinite Dimensions \u2014 Functions as Vectors)<\/p>\n<p>### 4.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>Die in den vorangegangenen Kapiteln diskutierten Innenprodukte waren auf den endlichdimensionalen euklidischen Raum $\\mathbb{R}^n$ beschr\u00e4nkt. Das Konzept des Innenprodukts l\u00e4sst sich jedoch auf nat\u00fcrliche Weise auf unendlichdimensionale Funktionenr\u00e4ume verallgemeinern. Diese Verallgemeinerung ist der Kern der Funktionalanalysis(Functional Analysis) und die Br\u00fccke, die lineare Algebra mit Signalverarbeitung und Quantenmechanik verbindet.<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 4.1 $L^2$-Innenprodukt (Definition 4.1 $L^2$ Inner Product)<br \/>\nSeien $f, g: [a, b] \\to \\mathbb{R}$ quadratisch integrierbare Funktionen, d. h. $\\int_a^b [f(x)]^2 dx < \\infty$. Definiere ihr Innenprodukt als\n\n$$\n\\langle f, g \\rangle = \\int_a^b f(x) g(x) \\, dx.\n\\tag{4.1}\n$$\n\nDie durch dieses Innenprodukt induzierte Norm ist\n\n$$\n\\|f\\| = \\sqrt{\\langle f, f \\rangle} = \\sqrt{\\int_a^b [f(x)]^2 \\, dx},\n\\tag{4.2}\n$$\n\ngenannt $L^2$-Norm, die physikalisch oft als die \"Energie\" des Signals interpretiert wird.\n```\n\n```ad-definition\ntitle: Definition 4.2 Hilbertraum (Definition 4.2 Hilbert Space)\nEin vollst\u00e4ndiger Innenproduktraum hei\u00dft **Hilbertraum(Hilbert Space)**$^{[6][8]}$. Konkret ist ein Hilbertraum $\\mathcal{H}$ ein Innenproduktraum, in dem jede Cauchy-Folge in $\\mathcal{H}$ konvergiert (d. h. der Raum ist vollst\u00e4ndig).\n\nDer endlichdimensionale Innenproduktraum $\\mathbb{R}^n$ ist ein Spezialfall des Hilbertraums. Beispiele f\u00fcr unendlichdimensionale Hilbertr\u00e4ume sind $L^2[a,b]$ (der Raum der quadratisch integrierbaren Funktionen) und $\\ell^2$ (der Raum der quadratisch summierbaren Folgen). Die Vollst\u00e4ndigkeit des Hilbertraums garantiert die Konvergenz von unendlichen Reihenentwicklungen wie der Fourier-Reihe.\n```\n\n```ad-theorem\ntitle: Satz 4.1 Cauchy-Schwarz-Ungleichung im $L^2$-Raum (Theorem 4.1 Cauchy-Schwarz Inequality in $L^2$ Space)\nF\u00fcr beliebige Funktionen $f, g$ in $L^2[a,b]$ gilt:\n\n$$\n\\left| \\int_a^b f(x) g(x) \\, dx \\right| \\leq \\sqrt{\\int_a^b [f(x)]^2 \\, dx} \\cdot \\sqrt{\\int_a^b [g(x)]^2 \\, dx}.\n\\tag{4.3}\n$$\n```\n\n### 4.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)\n\nDer Schl\u00fcssel zum Verst\u00e4ndnis von Funktionen als Vektoren liegt in der Idee der \"punktweisen Entsprechung\". Im $\\mathbb{R}^n$ entspricht die $i$-te Komponente $v_i$ eines Vektors $\\mathbf{v} = (v_1, \\dots, v_n)$ dem Wert auf der $i$-ten Koordinatenachse. Im Funktionenraum entspricht jedes $x \\in [a,b]$ einer unabh\u00e4ngigen \"Koordinatenachse\", und der Funktionswert $f(x)$ ist die Komponente auf dieser Achse. Daher ist eine Funktion $f$ im Wesentlichen ein Vektor mit \u00fcberabz\u00e4hlbar unendlich vielen Komponenten.\n\nZwei Funktionen sind orthogonal ($\\langle f, g \\rangle = 0$), wenn sie im $L^2$-Sinne \"keine Anteile voneinander enthalten\". Dieses Konzept hat eine tiefe physikalische Bedeutung in der Signalverarbeitung: Orthogonale Signale k\u00f6nnen im selben Kanal \u00fcbertragen werden, ohne sich gegenseitig zu st\u00f6ren.\n\n### 4.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)\n\n```ad-example\ntitle: Beispiel 4.1 Orthogonalit\u00e4t und Abstandsmessung im Funktionenraum (Example 4.1 Orthogonality and Distance Measurement in Function Space)\n\nAuf dem Intervall $[-1, 1]$ seien $f(x) = x$ und $g(x) = x^2$ gegeben. Bestimme, ob sie orthogonal sind, und berechne ihre jeweiligen Normen sowie den Abstand zwischen den Funktionen.\n\n**L\u00f6sung** (1) Berechne das Innenprodukt:\n\n$$\n\\langle f, g \\rangle = \\int_{-1}^{1} x \\cdot x^2 \\, dx = \\int_{-1}^{1} x^3 \\, dx = \\left[ \\frac{x^4}{4} \\right]_{-1}^{1} = \\frac{1}{4} - \\frac{1}{4} = 0.\n$$\n\nDaher ist $\\langle f, g \\rangle = 0$, d. h. $f$ und $g$ sind auf $[-1,1]$ orthogonal. Der Grund ist, dass $x^3$ eine ungerade Funktion ist und ihr Integral \u00fcber ein symmetrisches Intervall verschwindet.\n\n(2) Berechne die Normen:\n\n$$\n\\|f\\| = \\sqrt{\\int_{-1}^{1} x^2 \\, dx} = \\sqrt{\\left[ \\frac{x^3}{3} \\right]_{-1}^{1}} = \\sqrt{\\frac{2}{3}} \\approx 0.8165,\n$$\n\n$$\n\\|g\\| = \\sqrt{\\int_{-1}^{1} x^4 \\, dx} = \\sqrt{\\left[ \\frac{x^5}{5} \\right]_{-1}^{1}} = \\sqrt{\\frac{2}{5}} \\approx 0.6325.\n$$\n\n(3) Berechne den Abstand zwischen den Funktionen:\n\n$$\n\\|f - g\\|^2 = \\int_{-1}^{1} (x - x^2)^2 \\, dx = \\int_{-1}^{1} (x^2 - 2x^3 + x^4) \\, dx = \\frac{2}{3} + 0 + \\frac{2}{5} = \\frac{16}{15},\n$$\n\nalso $d(f, g) = \\|f - g\\| = \\sqrt{16\/15} \\approx 1.0328$.\n\nDieses Beispiel zeigt: Ungerade und gerade Funktionen sind auf symmetrischen Intervallen nat\u00fcrlicherweise orthogonal. Diese Eigenschaft ist in der Fourier-Analyse von entscheidender Bedeutung \u2014 sie garantiert die Orthogonalit\u00e4t zwischen Sinus- und Kosinusbasen.\n```\n\n### 4.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)\n\nDie direkteste Anwendung des Funktionen-Innenprodukts in der Technik ist das **angepasste Filter(Matched Filter)**. In Radar- und Kommunikationssystemen wird das Innenprodukt des Empfangssignals $r(t)$ mit der Sendeschablone $s(t)$\n\n$$\n\\langle r, s \\rangle = \\int_{-\\infty}^{\\infty} r(t) s(t) \\, dt\n$$\n\nverwendet, um zu erkennen, ob ein Ziel vorhanden ist. Wenn eine Zielreflexion im Echo vorhanden ist, steigt der Innenproduktwert signifikant an. Dies ist im Wesentlichen eine \"\u00c4hnlichkeitserkennung\" im Funktionenraum.\n\nDar\u00fcber hinaus besteht der Kern der **Kernmethode(Kernel Methods)**$^{[22]}$ darin, Datenpunkte in einen reproduzierenden Kernel-Hilbertraum (RKHS) abzubilden, in diesem unendlichdimensionalen Raum Innenprodukte zu berechnen und so implizit eine hochdimensionale Merkmalstransformation zu erreichen. Wir werden dies in Kapitel 12 vertiefen.\n\n---\n\n## Kapitel 5 Orthogonalit\u00e4t trigonometrischer Funktionen \u2014 Basisvektoren im Frequenzbereich (Chapter 5 Orthogonality of Trigonometric Functions \u2014 Basis Functions in the Frequency Domain)\n\n### 5.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)\n\nIm Hilbertraum $L^2[-\\pi, \\pi]$ bildet das System der trigonometrischen Funktionen eine wichtige orthogonale Basis. Betrachte die Funktionenmenge\n\n$$\n\\{1,\\ \\sin x,\\ \\cos x,\\ \\sin 2x,\\ \\cos 2x,\\ \\dots,\\ \\sin nx,\\ \\cos nx,\\ \\dots\\}.\n$$\n\n```ad-theorem\ntitle: Satz 5.1 Orthogonalit\u00e4t trigonometrischer Funktionen (Theorem 5.1 Orthogonality of Trigonometric Functions)\nAuf dem Intervall $[-\\pi, \\pi]$ erf\u00fcllt das System der trigonometrischen Funktionen die folgenden Orthogonalit\u00e4tsrelationen$^{[4]}$:\n\n$$\n\\int_{-\\pi}^{\\pi} \\sin(mx) \\cos(nx) \\, dx = 0, \\quad \\forall m, n,\n\\tag{5.1}\n$$\n\n$$\n\\int_{-\\pi}^{\\pi} \\sin(mx) \\sin(nx) \\, dx = 0, \\quad m \\neq n,\n\\tag{5.2}\n$$\n\n$$\n\\int_{-\\pi}^{\\pi} \\cos(mx) \\cos(nx) \\, dx = 0, \\quad m \\neq n.\n\\tag{5.3}\n$$\n\nDie Selbst-Innenprodukte bei gleicher Frequenz sind nicht null:\n\n$$\n\\int_{-\\pi}^{\\pi} \\sin^2(nx) \\, dx = \\pi, \\quad\n\\int_{-\\pi}^{\\pi} \\cos^2(nx) \\, dx = \\pi.\n\\tag{5.4}\n$$\n\n**Beweis** Diese Relationen k\u00f6nnen direkt aus den trigonometrischen Produkt-zu-Summe-Formeln abgeleitet werden. F\u00fcr (5.2) beispielsweise:\n\n$$\n\\sin(mx)\\sin(nx) = \\frac{1}{2}[\\cos((m-n)x) - \\cos((m+n)x)].\n$$\n\nWenn $m \\neq n$, sind die Integrale von $\\cos((m-n)x)$ und $\\cos((m+n)x)$ \u00fcber $[-\\pi, \\pi]$ beide null. $\\square$\n```\n\n### 5.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)\n\nDie geometrische Bedeutung der Orthogonalit\u00e4t trigonometrischer Funktionen ist: Sinus- und Kosinuswellen unterschiedlicher Frequenzen stehen im $L^2$-Raum senkrecht aufeinander. Das bedeutet, dass sie sich als \"Signale\" gegenseitig nicht st\u00f6ren \u2014 dies ist die mathematische Grundlage der Frequenzmultiplextechnik.\n\nIn Kommunikationssystemen k\u00f6nnen die Daten verschiedener Benutzer auf zueinander orthogonale Tr\u00e4ger moduliert und gleichzeitig \u00fcbertragen werden. Die Empf\u00e4ngerseite kann die einzelnen Signale durch Innenproduktoperationen trennen, selbst wenn sie im Zeitbereich vollst\u00e4ndig \u00fcberlappen. Dieses Prinzip steht im Zentrum der **Frequenzbereich(Frequency Domain)**$^{[16]}$-Analyse in der modernen drahtlosen Kommunikation.\n\n### 5.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)\n\n```ad-example\ntitle: Beispiel 5.1 Manuelle \u00dcberpr\u00fcfung der Orthogonalit\u00e4t trigonometrischer Funktionen (Example 5.1 Manual Verification of Trigonometric Orthogonality)\n\n\u00dcberpr\u00fcfe auf $[-\\pi, \\pi]$ die folgenden drei Innenprodukte.\n\n**Fall A: $\\langle \\sin(2x), \\cos(3x) \\rangle$**\n\n$$\n\\langle \\sin(2x), \\cos(3x) \\rangle = \\int_{-\\pi}^{\\pi} \\sin(2x)\\cos(3x) \\, dx.\n$$\n\nMit der Produkt-zu-Summe-Formel $\\sin\\alpha\\cos\\beta = \\frac{1}{2}[\\sin(\\alpha+\\beta) + \\sin(\\alpha-\\beta)]$:\n\n$$\n\\sin(2x)\\cos(3x) = \\frac{1}{2}[\\sin(5x) + \\sin(-x)] = \\frac{1}{2}[\\sin(5x) - \\sin(x)].\n$$\n\nDa $\\int_{-\\pi}^{\\pi} \\sin(kx) \\, dx = 0$ f\u00fcr jede ganze Zahl $k$ gilt, folgt:\n\n$$\n\\langle \\sin(2x), \\cos(3x) \\rangle = \\frac{1}{2} \\times 0 - \\frac{1}{2} \\times 0 = 0.\n$$\n\n**Fall B: $\\langle \\sin(2x), \\sin(3x) \\rangle$**\n\nMit $\\sin\\alpha\\sin\\beta = \\frac{1}{2}[\\cos(\\alpha-\\beta) - \\cos(\\alpha+\\beta)]$:\n\n$$\n\\sin(2x)\\sin(3x) = \\frac{1}{2}[\\cos(-x) - \\cos(5x)] = \\frac{1}{2}[\\cos(x) - \\cos(5x)].\n$$\n\nDa $\\int_{-\\pi}^{\\pi} \\cos(kx) \\, dx = 0$ f\u00fcr $k \\neq 0$ gilt, folgt:\n\n$$\n\\langle \\sin(2x), \\sin(3x) \\rangle = \\frac{1}{2} \\times 0 - \\frac{1}{2} \\times 0 = 0.\n$$\n\n**Fall C: $\\langle \\sin(2x), \\sin(2x) \\rangle$ (Selbst-Innenprodukt)**\n\nMit der Doppelwinkelformel $\\sin^2\\theta = (1 - \\cos 2\\theta)\/2$:\n\n$$\n\\langle \\sin(2x), \\sin(2x) \\rangle = \\int_{-\\pi}^{\\pi} \\frac{1 - \\cos(4x)}{2} \\, dx = \\frac{1}{2} \\cdot 2\\pi - 0 = \\pi.\n$$\n\nDieses Ergebnis zeigt, dass $\\|\\sin(2x)\\| = \\sqrt{\\pi}$, was der Grund daf\u00fcr ist, dass $\\pi$ im Nenner der Fourier-Koeffizienten erscheint.\n```\n\n### 5.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)\n\n**Orthogonales Frequenzmultiplex (OFDM)** ist die Kerntechnologie der modernen 4G\/5G-Mobilfunkkommunikation$^{[16]}$. Es teilt einen\u9ad8\u901fen Datenstrom in mehrere langsame Teilstr\u00f6me auf, die auf zueinander orthogonalen Untertr\u00e4gern parallel \u00fcbertragen werden. Aufgrund der Orthogonalit\u00e4t der Untertr\u00e4ger\n\n$$\n\\int_0^T \\sin(2\\pi f_k t) \\cdot \\sin(2\\pi f_l t) \\, dt = 0, \\quad k \\neq l,\n$$\n\nkann die Empf\u00e4ngerseite die Signale der einzelnen Untertr\u00e4ger durch Innenproduktoperationen perfekt trennen, selbst wenn sie sich im Spektrum stark \u00fcberlappen. Dies verbessert die spektrale Effizienz erheblich.\n\n---\n\n## Kapitel 6 Fourier-Reihe und Fourier-Transformation \u2014 Projektion von Funktionen auf trigonometrische Basen (Chapter 6 Fourier Series and Fourier Transform \u2014 Projection of Functions onto Trigonometric Bases)\n\n### 6.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)\n\nDie Orthogonalit\u00e4t des trigonometrischen Systems erm\u00f6glicht es, jede periodische Funktion als Linearkombination trigonometrischer Funktionen verschiedener Frequenzen zu zerlegen. Diese Zerlegung hei\u00dft **Fourier-Reihe(Fourier Series)**$^{[11]}$.\n\n```ad-theorem\ntitle: Satz 6.1 Fourier-Reihe (Theorem 6.1 Fourier Series)\nSei $f(t)$ eine quadratisch integrierbare Funktion mit Periode $2\\pi$. Dann lautet ihre Fourier-Reihenentwicklung:\n\n$$\nf(t) = \\frac{a_0}{2} + \\sum_{n=1}^{\\infty} [a_n \\cos(nt) + b_n \\sin(nt)],\n\\tag{6.1}\n$$\n\nwobei die Koeffizienten durch Innenprodukte gegeben sind:\n\n$$\na_0 = \\frac{1}{\\pi} \\int_{-\\pi}^{\\pi} f(t) \\, dt,\n\\tag{6.2}\n$$\n\n$$\na_n = \\frac{1}{\\pi} \\int_{-\\pi}^{\\pi} f(t) \\cos(nt) \\, dt = \\frac{\\langle f, \\cos(nt) \\rangle}{\\|\\cos(nt)\\|^2},\n\\tag{6.3}\n$$\n\n$$\nb_n = \\frac{1}{\\pi} \\int_{-\\pi}^{\\pi} f(t) \\sin(nt) \\, dt = \\frac{\\langle f, \\sin(nt) \\rangle}{\\|\\sin(nt)\\|^2}.\n\\tag{6.4}\n$$\n\nDie Gleichungen (6.3)-(6.4) offenbaren das Wesen der Fourier-Koeffizienten: Sie sind die Projektionskoeffizienten der Funktion $f$ auf die trigonometrischen Basen (Innenprodukt geteilt durch das Quadrat der Norm der Basis), v\u00f6llig analog zur Berechnung der Koordinaten eines endlichdimensionalen Vektors in einer Orthonormalbasis.\n\nWenn die Periode $T \\to \\infty$ geht, geht die Fourier-Reihe in die **Fourier-Transformation(Fourier Transform)**$^{[12]}$ \u00fcber:\n\n$$\nX(f) = \\int_{-\\infty}^{\\infty} x(t) e^{-j2\\pi ft} \\, dt = \\langle x(t), e^{j2\\pi ft} \\rangle.\n\\tag{6.5}\n$$\n\nDie Fourier-Transformation projiziert die Zeitbereichsfunktion $x(t)$ auf die komplexe Exponentialbasis $e^{j2\\pi ft}$ und ergibt die Frequenzbereichsdarstellung $X(f)$.\n```\n\n### 6.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)\n\nDas geometrische Wesen der Fourier-Transformation ist die \"Sonden\"-Idee: Komplexe Exponentialschwingungen verschiedener Frequenzen werden als Sonden verwendet, um das Innenprodukt mit dem zu analysierenden Signal zu berechnen. Wenn das Signal eine bestimmte Frequenzkomponente enth\u00e4lt, ist der Innenproduktwert gro\u00df (es entsteht ein Spektrumspitze); wenn nicht, ist der Innenproduktwert nahe null. Jede Spitze im Spektrum entspricht der Projektionsst\u00e4rke des Signals auf die Basis dieser Frequenz.\n\n### 6.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)\n\n```ad-example\ntitle: Beispiel 6.1 Fourier-Reihenentwicklung einer periodischen Rechteckschwingung (Example 6.1 Fourier Series Expansion of a Periodic Square Wave)\n\nGegeben sei eine Rechteckschwingung mit Periode $2\\pi$:\n\n$$\nf(t) = \\begin{cases}\n1, & 0 < t < \\pi, \\\\\n-1, & -\\pi < t < 0,\n\\end{cases}\n$$\n\nBestimme ihre Fourier-Reihenkoeffizienten.\n\n**L\u00f6sung** $f(t)$ ist eine ungerade Funktion, daher gilt $a_0 = a_n = 0$ (alle Kosinuskoeffizienten sind null). Es m\u00fcssen nur die $b_n$ berechnet werden.\n\n$$\nb_n = \\frac{1}{\\pi} \\int_{-\\pi}^{\\pi} f(t) \\sin(nt) \\, dt = \\frac{1}{\\pi} \\left( \\int_{-\\pi}^{0} (-\\sin(nt)) \\, dt + \\int_{0}^{\\pi} \\sin(nt) \\, dt \\right).\n$$\n\nBerechne den ersten Term: $\\int_{-\\pi}^{0} -\\sin(nt) \\, dt = \\left[ \\frac{\\cos(nt)}{n} \\right]_{-\\pi}^{0} = \\frac{1}{n} - \\frac{\\cos(-n\\pi)}{n} = \\frac{1 - (-1)^n}{n}$.\n\nBerechne den zweiten Term: $\\int_{0}^{\\pi} \\sin(nt) \\, dt = \\left[ -\\frac{\\cos(nt)}{n} \\right]_{0}^{\\pi} = -\\frac{\\cos(n\\pi)}{n} + \\frac{1}{n} = \\frac{1 - (-1)^n}{n}$.\n\nDaher:\n\n$$\nb_n = \\frac{1}{\\pi} \\cdot \\frac{2[1 - (-1)^n]}{n} = \\begin{cases}\n\\dfrac{4}{n\\pi}, & n \\text{ ungerade}, \\\\[6pt]\n0, & n \\text{ gerade}.\n\\end{cases}\n\\tag{6.6}\n$$\n\nDie Fourier-Reihenentwicklung der Rechteckschwingung lautet also:\n\n$$\nf(t) = \\frac{4}{\\pi} \\sum_{k=0}^{\\infty} \\frac{\\sin((2k+1)t)}{2k+1} = \\frac{4}{\\pi} \\left( \\sin t + \\frac{1}{3}\\sin 3t + \\frac{1}{5}\\sin 5t + \\cdots \\right).\n\\tag{6.7}\n$$\n\nNumerische \u00dcberpr\u00fcfung: F\u00fcr $t = \\pi\/2$ ergibt die N\u00e4herung mit den ersten 3 Termen:\n\n$$\nf(\\pi\/2) \\approx \\frac{4}{\\pi} \\left( 1 - \\frac{1}{3} + \\frac{1}{5} \\right) = \\frac{52}{15\\pi} \\approx 1.103,\n$$\n\nwas bereits nahe am wahren Wert $1$ liegt. Weitere Terme konvergieren gegen die Rechteckschwingung (das Gibbs-Ph\u00e4nomen erzeugt an den Sprungstellen einen \u00dcberschwinger von etwa $9\\%$).\n```\n\n### 6.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)\n\nAbbildung 3 zeigt eine typische Anwendung der Fourier-Transformation. Ein verrauschtes Signal $x(t)$, das drei Frequenzkomponenten bei 50 Hz, 120 Hz und 260 Hz enth\u00e4lt, erscheint im Zeitbereich chaotisch. Nach der Fourier-Transformation zeigt das Spektrum drei klare Spitzen bei den entsprechenden Frequenzen \u2014 dies sind die Projektionsst\u00e4rken des Signals auf die einzelnen Frequenzbasen.\n\n<img decoding=\"async\" src=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/Pictures\/03_fourier_decomposition.png\"><\/p>\n<p>**Abbildung 3: Frequenzbereichsprojektion der Fourier-Transformation.** Oben: Zeitbereichsverlauf des verrauschten Mehrtonsignals $x(t) = 1.2\\sin(2\\pi\\cdot 50t) + 0.7\\sin(2\\pi\\cdot 120t) + 0.4\\sin(2\\pi\\cdot 260t) + \\eta(t)$; unten: Amplitudenspektrum mit deutlichen Spitzen bei 50, 120 und 260 Hz. Diese Abbildung wurde mit <a href=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/main.py\" target=\"_blank\"  rel=\"nofollow\" >main.py<\/a> unter Verwendung von `np.fft.rfft` (diskrete Fourier-Transformation) erzeugt, die im Kern die Innenprodukte des abgetasteten Zeitbereichsvektors mit den komplexen Exponentialbasisvektoren berechnet.<\/p>\n<p>Die Fourier-Analyse findet in allen Bereichen der Technik Anwendung: MP3-Audiokompression reduziert die Datenmenge durch Verwerfen hochfrequenter Komponenten, die f\u00fcr das menschliche Ohr nicht h\u00f6rbar sind; JPEG-Bildkompression verwendet die diskrete Kosinustransformation (DCT)$^{[18]}$, um Bildbl\u00f6cke auf Frequenzbasen zu projizieren; die Frequenzbereichsdiagnose von EKG-Signalen nutzt Spektrummerkmale zur Identifikation pathologischer Muster.<\/p>\n<p>---<\/p>\n<p>## Kapitel 7 Vom Frequenzbereich zum komplexen Frequenzbereich \u2014 Laplace- und Z-Transformation (Chapter 7 From Frequency Domain to Complex Frequency Domain \u2014 Laplace and Z-Transforms)<\/p>\n<p>### 7.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>Die Fourier-Transformation setzt voraus, dass das Signal absolut integrierbar ist: $\\int_{-\\infty}^{\\infty} |f(t)|\\,dt < \\infty$. F\u00fcr exponentiell divergente Signale wie $f(t) = e^{2t}$ ($t \\geq 0$) w\u00e4chst die Energie mit $t$, und das Innenprodukt der Fourier-Transformation $\\langle f(t), e^{-j\\omega t} \\rangle$ konvergiert nicht. Um dieses Problem zu l\u00f6sen, muss die Basis von rein imagin\u00e4ren Exponenten $e^{-j\\omega t}$ auf komplexe Exponenten $e^{-st}$ mit einem D\u00e4mpfungsfaktor im Realteil verallgemeinert werden, wobei $s = \\sigma + j\\omega$.\n\n```ad-definition\ntitle: Definition 7.1 Laplace-Transformation (Definition 7.1 Laplace Transform)\nSei $f(t)$ eine auf $[0, \\infty)$ definierte Funktion. Ihre **Laplace-Transformation** ist definiert als$^{[14]}$:\n\n$$F(s) = \\mathcal{L}\\{f(t)\\} = \\int_0^{\\infty} f(t) e^{-st}\\,dt, \\quad s = \\sigma + j\\omega \\in \\mathbb{C} \\tag{7.1}$$\n\nWenn der Realteil $\\sigma$ von $s$ gro\u00df genug ist, kann der D\u00e4mpfungsfaktor $e^{-\\sigma t}$ die Divergenz von $f(t)$ unterdr\u00fccken, sodass das Integral konvergiert. Die Menge der $s$-Werte, f\u00fcr die (7.1) konvergiert, hei\u00dft **Konvergenzbereich(Region of Convergence, ROC)**.\n```\n\n```ad-definition\ntitle: Definition 7.2 Z-Transformation (Definition 7.2 Z-Transform)\nSei $x[n]$ eine auf $\\mathbb{Z}$ definierte diskrete Folge. Ihre **Z-Transformation** ist definiert als$^{[15]}$:\n\n$$X(z) = \\mathcal{Z}\\{x[n]\\} = \\sum_{n=-\\infty}^{\\infty} x[n] z^{-n}, \\quad z = re^{j\\omega} \\in \\mathbb{C} \\tag{7.2}$$\n\nDie Z-Transformation kann als das diskrete Gegenst\u00fcck der Laplace-Transformation betrachtet werden: Mit $z = e^{sT}$ ($T$ = Abtastperiode) entspricht der Einheitskreis $|z| = 1$ in der $z$-Ebene der imagin\u00e4ren Achse $s = j\\omega$ in der $s$-Ebene.\n\nAus der Innenproduktperspektive k\u00f6nnen sowohl die Laplace- als auch die Z-Transformation als Innenprodukte des Signals mit komplexen Exponentialbasisfunktionen verstanden werden:\n\n$$\\mathcal{L}\\{f(t)\\} = \\langle f(t), e^{st} \\rangle, \\quad \\mathcal{Z}\\{x[n]\\} = \\langle x[n], z^n \\rangle$$\n\nwobei die Basisfunktionen $e^{st}$ und $z^n$ zwei Freiheitsgrade besitzen \u2014 Amplitudend\u00e4mpfung (durch $\\sigma$ oder $r$) und Phasenrotation (durch $\\omega$) \u2014 und daher ausdrucksst\u00e4rker sind als die Basisfunktionen der Fourier-Transformation.\n```\n\n### 7.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)\n\nDie Basis $e^{-j\\omega t}$ der Fourier-Transformation ist ein rotierender Vektor auf dem Einheitskreis der komplexen Ebene mit konstantem Betrag 1. F\u00fcr ein divergentes Signal $e^{2t}$ w\u00e4chst der Integrand $|e^{2t} \\cdot e^{-j\\omega t}| = e^{2t}$ mit $t$, und das Integral konvergiert nie.\n\nDie Basis $e^{-(\\sigma + j\\omega)t} = e^{-\\sigma t} e^{-j\\omega t}$ der Laplace-Transformation f\u00fcgt einen \"D\u00e4mpfungsregler\" $\\sigma$ hinzu. Wenn $\\sigma > 2$, \u00fcbersteigt die D\u00e4mpfungsrate von $e^{-\\sigma t}$ die Divergenzrate von $e^{2t}$, und das Innenproduktintegral konvergiert. In der komplexen $s$-Ebene:<\/p>\n<p>- **Konvergenzbereich (ROC)**: Der Bereich der $s$-Werte, f\u00fcr den die Transformation konvergiert;<br \/>\n- **Polstelle(Pole)**: Ein Punkt, an dem der Nenner von $F(s)$ null wird und die Transformation gegen unendlich divergiert;<br \/>\n- **Nullstelle(Zero)**: Ein Punkt, an dem der Z\u00e4hler von $F(s)$ null wird und die Transformation verschwindet.<\/p>\n<p>Die Lage der Polstellen bestimmt direkt die Stabilit\u00e4t des Systems: Wenn alle Polstellen in der linken Halbebene ($\\text{Re}(s) < 0$) liegen, ist das System stabil; wenn eine Polstelle in der rechten Halbebene liegt, divergiert das System.\n\nDie geometrische Interpretation der Z-Transformation ist \u00e4hnlich: $z = re^{j\\omega}$, wobei $r$ die Amplitudenskalierung und $\\omega$ die Phasenrotation steuert. Der Konvergenzbereich ist ein Ring-\/Au\u00dfenbereich $|z| > R$ (f\u00fcr rechtsseitige Folgen) oder $|z| < R$ (f\u00fcr linksseitige Folgen). Ein diskretes System ist stabil, wenn alle Polstellen innerhalb des Einheitskreises liegen.\n\n### 7.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)\n\n```ad-example\ntitle: Beispiel 7.1 Laplace-Transformation einer divergenten Funktion \u2014 Polstellen- und Konvergenzbereichsanalyse (Example 7.1 Laplace Transform of a Divergent Function \u2014 Pole and ROC Analysis)\n\nGegeben sei die exponentiell divergente Funktion $f(t) = e^{2t}$ ($t \\geq 0$). Berechne ihre Laplace-Transformation und analysiere den Konvergenzbereich und die Polstellen.\n\n**L\u00f6sung**: Einsetzen in die Definition der Laplace-Transformation (7.1):\n\n$$F(s) = \\int_0^{\\infty} e^{2t} \\cdot e^{-st}\\,dt = \\int_0^{\\infty} e^{-(s-2)t}\\,dt$$\n\nSetze $a = s - 2 = (\\sigma - 2) + j\\omega$, dann:\n\n$$F(s) = \\int_0^{\\infty} e^{-at}\\,dt = \\left[-\\frac{1}{a}e^{-at}\\right]_{t=0}^{t=\\infty}$$\n\nF\u00fcr $t \\to \\infty$ gilt $e^{-at} \\to 0$ genau dann, wenn $\\text{Re}(a) > 0$, d. h. $\\text{Re}(s - 2) > 0$, also $\\sigma > 2$. Unter dieser Bedingung:<\/p>\n<p>$$F(s) = 0 - \\left(-\\frac{1}{a}\\right) = \\frac{1}{a} = \\frac{1}{s - 2}$$<\/p>\n<p>Daher:<\/p>\n<p>$$\\mathcal{L}\\{e^{2t}\\} = \\frac{1}{s - 2}, \\quad \\text{ROC: } \\text{Re}(s) > 2, \\quad \\text{Polstelle: } s = 2$$<\/p>\n<p>**Analyse**: Die Fourier-Transformation entspricht $\\sigma = 0$, und der Realteil von $s = j\\omega$ ist 0, was kleiner als 2 ist und daher nicht im Konvergenzbereich liegt \u2014 dies erkl\u00e4rt, warum die Fourier-Transformation von $e^{2t}$ nicht existiert. Die Laplace-Transformation f\u00fchrt durch die Einf\u00fchrung des Realteils $\\sigma$ einen zus\u00e4tzlichen Freiheitsgrad ein und verallgemeinert den Integrationsweg von der imagin\u00e4ren Achse auf die rechte Halbebene der komplexen Ebene, wodurch divergente Signale behandelt werden k\u00f6nnen.<br \/>\n```<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 7.2 Z-Transformation einer diskreten Folge \u2014 Konvergenzbereichs- und Stabilit\u00e4tsanalyse (Example 7.2 Z-Transform of a Discrete Sequence \u2014 ROC and Stability Analysis)<\/p>\n<p>Gegeben sei die diskrete Folge $x[n] = (0.5)^n u[n]$, wobei $u[n]$ die Einheitssprungfunktion ist (0 f\u00fcr $n < 0$, 1 f\u00fcr $n \\geq 0$). Berechne ihre Z-Transformation und analysiere den Konvergenzbereich und die Stabilit\u00e4t.\n\n**L\u00f6sung**: Einsetzen in die Definition der Z-Transformation (7.2):\n\n$$X(z) = \\sum_{n=0}^{\\infty} (0.5)^n z^{-n} = \\sum_{n=0}^{\\infty} (0.5 z^{-1})^n$$\n\nDies ist eine geometrische Reihe. Sie konvergiert f\u00fcr $|0.5 z^{-1}| < 1$, d. h. $|z| > 0.5$:<\/p>\n<p>$$X(z) = \\frac{1}{1 - 0.5z^{-1}} = \\frac{z}{z - 0.5}, \\quad \\text{ROC: } |z| > 0.5$$<\/p>\n<p>Der Konvergenzbereich ist der Au\u00dfenbereich eines Kreises mit Radius 0,5 um den Ursprung. Der Einheitskreis $|z| = 1$ liegt vollst\u00e4ndig im Konvergenzbereich, was bedeutet, dass die diskrete Zeit-Fourier-Transformation (DTFT, entsprechend $z = e^{j\\omega}$) dieser Folge existiert. Die Polstelle liegt bei $z = 0.5$, innerhalb des Einheitskreises, daher ist das System stabil.<br \/>\n```<\/p>\n<p>### 7.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)<\/p>\n<p>Die Laplace-Transformation ist das Fundament der Regelungstechnik. In r\u00fcckgekoppelten Regelungssystemen bestimmt die Lage der Polstellen der \u00dcbertragungsfunktion $H(s)$ direkt die Stabilit\u00e4t:<\/p>\n<p>- Alle Polstellen in der linken Halbebene ($\\text{Re}(s) < 0$): System stabil, Impulsantwort klingt exponentiell ab;\n- Eine Polstelle in der rechten Halbebene ($\\text{Re}(s) > 0$): System divergiert, Impulsantwort w\u00e4chst exponentiell;<br \/>\n- Polstellen auf der imagin\u00e4ren Achse ($\\text{Re}(s) = 0$): System grenzstabil, Impulsantwort oszilliert mit konstanter Amplitude.<\/p>\n<p>Die Z-Transformation ist der Kern der digitalen Signalverarbeitung. Der Frequenzgang digitaler Filter wird durch die Werte von $H(z)$ auf dem Einheitskreis bestimmt, und die Stabilit\u00e4t wird dadurch bestimmt, ob alle Polstellen innerhalb des Einheitskreises liegen. Der IIR-Filterentwurf besteht im Wesentlichen darin, Pol- und Nullstellen in der $z$-Ebene so zu platzieren, dass der gew\u00fcnschte Frequenzgang angen\u00e4hert wird.<\/p>\n<p>---<\/p>\n<p>## Kapitel 8 Das Wesen der Faltung \u2014 \"Gleitendes Innenprodukt\" (Chapter 8 The Essence of Convolution \u2014 \"Sliding Inner Product\")<\/p>\n<p>### 8.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>Die **Faltung(Convolution)** ist eine der zentralsten Operationen in der Signalverarbeitung, Regelungstechnik und im Deep Learning$^{[17]}$. Aus der Innenproduktperspektive ist das Wesen der Faltung eine **Folge von Innenprodukten \u00fcber ein gleitendes Fenster**.<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 8.1 Faltung (Definition 8.1 Convolution)<br \/>\nSeien $f, g: \\mathbb{R} \\to \\mathbb{R}$ zwei stetige Funktionen. Ihre **Faltung** ist definiert als:<\/p>\n<p>$$(f * g)(t) = \\int_{-\\infty}^{\\infty} f(\\tau) g(t - \\tau)\\,d\\tau \\tag{8.1}$$<\/p>\n<p>F\u00fcr diskrete Folgen $x, h: \\mathbb{Z} \\to \\mathbb{R}$ ist die **diskrete Faltung** definiert als:<\/p>\n<p>$$(x * h)[n] = \\sum_{k=-\\infty}^{\\infty} x[k]\\, h[n - k] \\tag{8.2}$$<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Proposition 8.1 Innenprodukt-Interpretation der Faltung (Proposition 8.1 Inner Product Interpretation of Convolution)<br \/>\nZu einem festen Zeitpunkt $t$ ist die Faltungsoperation $(f * g)(t)$ \u00e4quivalent zum Innenprodukt zwischen der Funktion $f(\\tau)$ und der gespiegelten, verschobenen Funktion $g(\\tau)$:<\/p>\n<p>$$(f * g)(t) = \\langle f(\\tau), g(t - \\tau) \\rangle = \\int f(\\tau) g(t - \\tau)\\,d\\tau \\tag{8.3}$$<\/p>\n<p>Die Spiegelungsoperation $g(\\tau) \\to g(-\\tau)$ stellt sicher, dass das System kausal ist \u2014 der aktuelle Ausgang h\u00e4ngt nur vom aktuellen und vergangenen Eingang ab.<br \/>\n```<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 8.2 Kreuzkorrelation (Definition 8.2 Cross-Correlation)<br \/>\nEine mit der Faltung eng verwandte Operation ist die **Kreuzkorrelation(Cross-Correlation)**:<\/p>\n<p>$$(f \\star g)(t) = \\int_{-\\infty}^{\\infty} f(\\tau) g(\\tau + t)\\,d\\tau \\tag{8.4}$$<\/p>\n<p>Die Kreuzkorrelation enth\u00e4lt keine Spiegelungsoperation und berechnet direkt das Innenprodukt von Signalen bei verschiedenen Verschiebungen. Sie wird h\u00e4ufig f\u00fcr die Template-Matching- und \u00c4hnlichkeitserkennung verwendet.<br \/>\n```<\/p>\n<p>### 8.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)<\/p>\n<p>Der geometrische Prozess der Faltung kann in vier Schritte unterteilt werden:<\/p>\n<p>1. **Spiegelung**: Die Kernfunktion $g(\\tau)$ wird zu $g(-\\tau)$ gespiegelt, um die Kausalit\u00e4t zu gew\u00e4hrleisten;<br \/>\n2. **Verschiebung**: Der gespiegelte Kern wird um $t$ verschoben, was $g(t - \\tau)$ ergibt;<br \/>\n3. **Multiplikation**: $f(\\tau)$ und $g(t - \\tau)$ werden punktweise multipliziert;<br \/>\n4. **Integration**: Das Produkt wird summiert (integriert), um den Innenproduktwert zu diesem Zeitpunkt zu erhalten.<\/p>\n<p>W\u00e4hrend sich $t$ \u00e4ndert, gleitet der Kern entlang der Zeitachse, und an jeder Position wird das Innenprodukt zwischen Signal und Kern berechnet. Das Faltungsergebnis $y(t)$ ist die Kurve der Innenproduktwerte \u00fcber die Gleitposition. Positionen mit gro\u00dfen Innenproduktwerten zeigen an, dass das lokale Signal dem Kern am \u00e4hnlichsten ist \u2014 dies ist das Prinzip des **angepassten Filters(Matched Filter)**.<\/p>\n<p>In der Bildverarbeitung gleitet ein zweidimensionaler Faltungskern (Kernel) \u00fcber das Bild, und an jeder Position wird das zweidimensionale Innenprodukt der $k \\times k$-Nachbarschaft mit dem Kern berechnet, was eine \"Antwortkarte\" (Feature Map) ergibt. Regionen mit hohen Antwortwerten zeigen an, dass das lokale Bildpatch am besten mit dem Kernmuster \u00fcbereinstimmt.<\/p>\n<p>### 8.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 8.1 Gleitendes Innenprodukt der diskreten Faltung \u2014 Punktweise Handrechnung (Example 8.1 Sliding Inner Product of Discrete Convolution \u2014 Pointwise Manual Calculation)<\/p>\n<p>Gegeben sei die Eingangsfolge $x[n] = [1, 2, 3]$ ($n = 0, 1, 2$) und der Faltungskern $h[n] = [0.5, 1, 0.5]$ ($n = 0, 1, 2$). Berechne die Faltung $y[n] = (x * h)[n]$.<\/p>\n<p>**L\u00f6sung**: Gem\u00e4\u00df der diskreten Faltungsformel (8.2) punktweise Berechnung:<\/p>\n<p>$n = 0$:<br \/>\n$$y[0] = \\sum_{k} x[k]h[0-k] = x[0]h[0] = 1 \\times 0.5 = 0.5$$<\/p>\n<p>$n = 1$:<br \/>\n$$y[1] = x[0]h[1] + x[1]h[0] = 1 \\times 1 + 2 \\times 0.5 = 2$$<\/p>\n<p>$n = 2$:<br \/>\n$$y[2] = x[0]h[2] + x[1]h[1] + x[2]h[0] = 1 \\times 0.5 + 2 \\times 1 + 3 \\times 0.5 = 4$$<\/p>\n<p>$n = 3$:<br \/>\n$$y[3] = x[1]h[2] + x[2]h[1] = 2 \\times 0.5 + 3 \\times 1 = 4$$<\/p>\n<p>$n = 4$:<br \/>\n$$y[4] = x[2]h[2] = 3 \\times 0.5 = 1.5$$<\/p>\n<p>Daher $y[n] = [0.5, 2, 4, 4, 1.5]$. Bei $n = 2, 3$ sind die Faltungswerte am gr\u00f6\u00dften (4), da die \u00dcberlappung zwischen der Eingangsfolge $[1, 2, 3]$ und dem gespiegelten Kern $[0.5, 1, 0.5]$ maximal ist und das Innenprodukt seinen Spitzenwert erreicht.<br \/>\n```<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 8.2 Sobel-Kantendetektion \u2014 Zweidimensionale Faltung als Innenprodukt-Template (Example 8.2 Sobel Edge Detection \u2014 2D Convolution as Inner Product Template)<\/p>\n<p>Der Sobel-Operator besteht aus zwei $3 \\times 3$-Faltungskernen zur Erkennung von Kanten in horizontaler bzw. vertikaler Richtung:<\/p>\n<p>$$S_x = \\begin{bmatrix} 1 & 0 & -1 \\\\ 2 & 0 & -2 \\\\ 1 & 0 & -1 \\end{bmatrix}, \\quad S_y = \\begin{bmatrix} 1 & 2 & 1 \\\\ 0 & 0 & 0 \\\\ -1 & -2 & -1 \\end{bmatrix}$$<\/p>\n<p>Gegeben sei ein $3 \\times 3$-Bildpatch (Grauwerte):<\/p>\n<p>$$I = \\begin{bmatrix} 10 & 20 & 30 \\\\ 10 & 20 & 30 \\\\ 10 & 20 & 30 \\end{bmatrix}$$<\/p>\n<p>Dieser Bildpatch zeigt einen horizontalen Helligkeitsgradienten (von links nach rechts heller werdend), w\u00e4hrend die Helligkeit in vertikaler Richtung gleichm\u00e4\u00dfig ist.<\/p>\n<p>**L\u00f6sung**: Berechne das zweidimensionale Innenprodukt des Sobel-X-Operators mit dem Bildpatch:<\/p>\n<p>$$G_x = \\sum_{i=1}^{3} \\sum_{j=1}^{3} S_x(i,j) \\cdot I(i,j)$$<\/p>\n<p>$$= (1 \\times 10) + (0 \\times 20) + (-1 \\times 30) + (2 \\times 10) + (0 \\times 20) + (-2 \\times 30) + (1 \\times 10) + (0 \\times 20) + (-1 \\times 30)$$<\/p>\n<p>$$= 10 + 0 - 30 + 20 + 0 - 60 + 10 + 0 - 30 = -80$$<\/p>\n<p>Berechne das zweidimensionale Innenprodukt des Sobel-Y-Operators:<\/p>\n<p>$$G_y = (1 \\times 10) + (2 \\times 20) + (1 \\times 30) + (0 \\times 10) + (0 \\times 20) + (0 \\times 30) + (-1 \\times 10) + (-2 \\times 20) + (-1 \\times 30)$$<\/p>\n<p>$$= 10 + 40 + 30 + 0 + 0 + 0 - 10 - 40 - 30 = 0$$<\/p>\n<p>Die Kantenst\u00e4rke betr\u00e4gt:<\/p>\n<p>$$\\|\\nabla I\\| = \\sqrt{G_x^2 + G_y^2} = \\sqrt{(-80)^2 + 0^2} = 80$$<\/p>\n<p>**Analyse**: $|G_x| = 80$ ist gro\u00df, was auf eine signifikante Helligkeits\u00e4nderung in horizontaler Richtung hinweist (vertikale Kante); $G_y = 0$ zeigt an, dass die Helligkeit in vertikaler Richtung gleichm\u00e4\u00dfig ist. Das Wesen der Sobel-Kantendetektion besteht darin, zwei orthogonale Faltungskerne (Innenprodukt-Templates) \u00fcber das Bild gleiten zu lassen, an jeder Pixel-Nachbarschaft das zweidimensionale Innenprodukt mit dem Kern zu berechnen \u2014 Positionen mit gro\u00dfer Innenprodukt-Amplitude sind die Kanten.<br \/>\n```<\/p>\n<p>### 8.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/Pictures\/04_convolution_matched_filter.png\"><\/p>\n<p>> **Abbildung 4: Gleitendes Innenprodukt und angepasstes Filter (Matched Filter)**. Die blaue Kurve zeigt die verrauschte Zufallsfolge $x[n]$, die rote Kurve die Faltungsantwort. Der Template-Impuls $h[n] = [0, 0.35, 1.0, 0.35, 0]$ gleitet entlang der Zeitachse, und an jeder Position wird $\\sum x[k]h[n-k]$ berechnet. An den orange markierten Stellen ($n \\approx 110, 265, 340$) erreicht der Faltungswert Spitzenwerte, was darauf hindeutet, dass die lokale Signalform an diesen Positionen am besten mit dem Template \u00fcbereinstimmt. Das Kernprinzip der modernen Radarsignalerfassung beruht auf diesem gleitenden Projektionsmechanismus.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/Pictures\/05_sobel_edge_detection.png\"><\/p>\n<p>> **Abbildung 5: Zweidimensionale Faltung zur Extraktion von Kantenmerkmalen (Sobel Edge Detection)**. Der Sobel-Operator besteht aus einem Paar orthogonaler $3 \\times 3$-Differential-Templates, die Helligkeitsgradienten in $x$- bzw. $y$-Richtung erkennen. Wenn das Template \u00fcber das Graustufenbild gleitet, heben sich positive und negative Projektionen in flachen Regionen gegenseitig auf (Innenprodukt nahe null), w\u00e4hrend an Kanten der Helligkeitssprung zu einer signifikanten Zunahme der Innenprodukt-Amplitude f\u00fchrt. Durch die Kombination der beiden orthogonalen Komponenten mittels $\\|\\nabla I\\| = \\sqrt{G_x^2 + G_y^2}$ k\u00f6nnen die Kanteninformationen der physischen Welt extrahiert werden. Dies ist die grundlegende Schicht der Merkmalsextraktion im Computer Vision.<\/p>\n<p>---<\/p>\n<p>## Kapitel 9 Diskrete Kosinustransformation und JPEG-Kompression (Chapter 9 Discrete Cosine Transform and JPEG Compression)<\/p>\n<p>### 9.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>Die **diskrete Kosinustransformation(Discrete Cosine Transform, DCT)** ist der Kernalgorithmus des JPEG-Bildkompressionsstandards$^{[18][19]}$. Aus der Innenproduktperspektive projiziert die DCT Bildbl\u00f6cke orthogonal auf eine Menge diskreter Kosinusbasisfunktionen und transformiert Pixelwerte im Ortsbereich in Frequenzbereichskoeffizienten.<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 9.1 Zweidimensionale DCT (Definition 9.1 2D DCT)<br \/>\nSei $f(x, y)$ ein $N \\times N$-Bildblock ($x, y = 0, 1, \\dots, N-1$). Seine zweidimensionale DCT ist definiert als:<\/p>\n<p>$$F(u, v) = \\frac{2}{N} C(u) C(v) \\sum_{x=0}^{N-1} \\sum_{y=0}^{N-1} f(x, y) \\cos\\left[\\frac{(2x+1)u\\pi}{2N}\\right] \\cos\\left[\\frac{(2y+1)v\\pi}{2N}\\right] \\tag{9.1}$$<\/p>\n<p>wobei $u, v = 0, 1, \\dots, N-1$ die Frequenzindizes sind und der Normierungsfaktor:<\/p>\n<p>$$C(k) = \\begin{cases} 1\/\\sqrt{2}, & k = 0 \\\\ 1, & k \\neq 0 \\end{cases}$$<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Proposition 9.1 DCT als orthogonale Projektion (Proposition 9.1 DCT as Orthogonal Projection)<br \/>\nDefiniere $N \\times N$ DCT-Basisfunktionen:<\/p>\n<p>$$B_{u,v}(x, y) = \\frac{2}{N} C(u) C(v) \\cos\\left[\\frac{(2x+1)u\\pi}{2N}\\right] \\cos\\left[\\frac{(2y+1)v\\pi}{2N}\\right]$$<\/p>\n<p>Dann bildet $\\{B_{u,v}\\}$ eine vollst\u00e4ndige Orthonormalbasis von $\\mathbb{R}^{N \\times N}$, die erf\u00fcllt:<\/p>\n<p>$$\\langle B_{u,v}, B_{u',v'} \\rangle = \\sum_{x=0}^{N-1} \\sum_{y=0}^{N-1} B_{u,v}(x, y) B_{u',v'}(x, y) = \\delta_{u,u'} \\delta_{v,v'}$$<\/p>\n<p>Die DCT-Koeffizienten $F(u, v)$ sind genau die Projektionen des Bildblocks $f$ auf die Basisfunktionen $B_{u,v}$:<\/p>\n<p>$$F(u, v) = \\langle f, B_{u,v} \\rangle = \\sum_{x=0}^{N-1} \\sum_{y=0}^{N-1} f(x, y) B_{u,v}(x, y) \\tag{9.2}$$<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Proposition 9.2 Energieverdichtung (Proposition 9.2 Energy Compaction)<br \/>\nBei nat\u00fcrlichen Bildern konzentriert sich die Energie der DCT-Koeffizienten haupts\u00e4chlich im niederfrequenten Bereich (kleine $u, v$), w\u00e4hrend die hochfrequenten Koeffizienten (gro\u00dfe $u, v$) gegen null gehen. JPEG-Kompression nutzt diese Eigenschaft, indem sie kleine hochfrequente Koeffizienten durch Quantisierung verwirft und so eine erhebliche Kompression bei gleichbleibender visueller Qualit\u00e4t erreicht.<br \/>\n```<\/p>\n<p>### 9.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)<\/p>\n<p>Ein $8 \\times 8$-Bildblock kann als Vektor in einem 64-dimensionalen Raum betrachtet werden. Die DCT-Basisfunktionen bilden eine vollst\u00e4ndige Orthonormalbasis dieses 64-dimensionalen Raums:<\/p>\n<p>- **$B_{0,0}$ (DC-Basis)**: Konstante Funktion, entspricht der durchschnittlichen Helligkeit des Bildblocks;<br \/>\n- **Niederfrequente Basen** (kleine $u, v$): Sanfte Verlaufsmuster, entsprechen der gro\u00dfskaligen Struktur des Bildes;<br \/>\n- **Hochfrequente Basen** (gro\u00dfe $u, v$): Dicht oszillierende Muster, entsprechen feinen Texturen und Rauschen des Bildes.<\/p>\n<p>Durch Projektion des Bildblockvektors auf diese 64 Basisrichtungen erh\u00e4lt man 64 DCT-Koeffizienten. Bei nat\u00fcrlichen Bildern ist die Projektionsenergie stark in den niederfrequenten Koeffizienten (oben links) konzentriert, w\u00e4hrend die hochfrequenten Koeffizienten (unten rechts) nahe null sind. Die JPEG-Kompression setzt kleine hochfrequente Koeffizienten durch Quantisierung auf null, sodass nur wenige niederfrequente Koeffizienten ben\u00f6tigt werden, um den urspr\u00fcnglichen Bildblock n\u00e4herungsweise zu rekonstruieren.<\/p>\n<p>### 9.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 9.1 Manuelle Berechnung der DCT-Projektionskoeffizienten eines $2 \\times 2$-Bildblocks (Example 9.1 Manual Calculation of DCT Projection Coefficients for a $2 \\times 2$ Image Block)<\/p>\n<p>Um das Projektionswesen der DCT zu veranschaulichen, betrachten wir einen winzigen Bildblock mit $N = 2$. Die $2 \\times 2$-DCT-Basismatrix ist:<\/p>\n<p>$$T = \\frac{1}{\\sqrt{2}} \\begin{bmatrix} 1 & 1 \\\\ 1 & -1 \\end{bmatrix}$$<\/p>\n<p>$T$ ist eine orthogonale Matrix, die $T^T T = I$ erf\u00fcllt. Gegeben sei der Graustufen-Bildblock:<\/p>\n<p>$$I = \\begin{bmatrix} 100 & 80 \\\\ 60 & 40 \\end{bmatrix}$$<\/p>\n<p>Die zweidimensionale DCT kann durch Matrixmultiplikation realisiert werden: $F = T \\cdot I \\cdot T^T$.<\/p>\n<p>**L\u00f6sung**:<\/p>\n<p>**Schritt 1**: Berechne $T \\cdot I$.<\/p>\n<p>$$T \\cdot I = \\frac{1}{\\sqrt{2}} \\begin{bmatrix} 1 & 1 \\\\ 1 & -1 \\end{bmatrix} \\begin{bmatrix} 100 & 80 \\\\ 60 & 40 \\end{bmatrix} = \\frac{1}{\\sqrt{2}} \\begin{bmatrix} 160 & 120 \\\\ 40 & 40 \\end{bmatrix}$$<\/p>\n<p>**Schritt 2**: Berechne $(T \\cdot I) \\cdot T^T$.<\/p>\n<p>$$F = \\frac{1}{\\sqrt{2}} \\begin{bmatrix} 160 & 120 \\\\ 40 & 40 \\end{bmatrix} \\cdot \\frac{1}{\\sqrt{2}} \\begin{bmatrix} 1 & 1 \\\\ 1 & -1 \\end{bmatrix} = \\frac{1}{2} \\begin{bmatrix} 160 & 120 \\\\ 40 & 40 \\end{bmatrix} \\begin{bmatrix} 1 & 1 \\\\ 1 & -1 \\end{bmatrix}$$<\/p>\n<p>$$= \\frac{1}{2} \\begin{bmatrix} 280 & 40 \\\\ 80 & 0 \\end{bmatrix} = \\begin{bmatrix} 140 & 20 \\\\ 40 & 0 \\end{bmatrix}$$<\/p>\n<p>**Schritt 3**: Interpretation der DCT-Koeffizienten.<\/p>\n<p>- $F(0,0) = 140$: DC-Koeffizient, entspricht der durchschnittlichen Helligkeit des Bildblocks. $(100+80+60+40)\/4 = 70$, multipliziert mit $N = 2$ ergibt 140.<br \/>\n- $F(0,1) = 20$: Horizontale hochfrequente Komponente, spiegelt die Helligkeitsunterschiede zwischen linken und rechten Pixeln wider.<br \/>\n- $F(1,0) = 40$: Vertikale hochfrequente Komponente, spiegelt die Helligkeitsunterschiede zwischen oberen und unteren Pixeln wider.<br \/>\n- $F(1,1) = 0$: Diagonale hochfrequente Komponente, null, was auf das Fehlen diagonaler Texturen hinweist.<\/p>\n<p>**Wichtige Beobachtung**: $F(1,1) = 0$, d. h. die Projektion auf die diagonale hochfrequente Basis ist null \u2014 diese Komponente kann vollst\u00e4ndig verworfen werden, ohne dass Informationen verloren gehen. Dies ist das Kernprinzip der JPEG-Kompression: Die meisten hochfrequenten DCT-Koeffizienten nat\u00fcrlicher Bilder sind nahe null und werden nach der Quantisierung zu null, wodurch eine erhebliche Kompression erreicht wird.<br \/>\n```<\/p>\n<p>### 9.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)<\/p>\n<p>Der JPEG-Kompressionsablauf ist wie folgt:<\/p>\n<p>1. **Blockbildung**: Das Bild wird in $8 \\times 8$-Bl\u00f6cke unterteilt;<br \/>\n2. **DCT-Transformation**: F\u00fcr jeden Block wird eine zweidimensionale DCT durchgef\u00fchrt, die 64 Frequenzbereichskoeffizienten ergibt;<br \/>\n3. **Quantisierung**: Die DCT-Koeffizienten werden durch eine Quantisierungsmatrix geteilt (mit gr\u00f6\u00dferen Quantisierungsschritten f\u00fcr hohe Frequenzen), wodurch kleine Koeffizienten auf null gesetzt werden;<br \/>\n4. **Entropiekodierung**: Die quantisierten Koeffizienten werden mit Huffman- oder arithmetischer Kodierung komprimiert.<\/p>\n<p>Auf der Decoderseite wird der Bildblock durch die inverse DCT-Transformation rekonstruiert. Da hochfrequente Komponenten, die f\u00fcr das menschliche Auge weniger sichtbar sind, verworfen werden, kann JPEG das Bild auf $1\/10$ oder weniger seiner urspr\u00fcnglichen Gr\u00f6\u00dfe komprimieren, w\u00e4hrend die visuelle Qualit\u00e4t erhalten bleibt.<\/p>\n<p>Die DCT wird auch in der Videokompression (MPEG, H.264\/AVC, HEVC), der Audiokompression (MDCT-Variante in MP3) sowie in der Signalverarbeitung zur Dekorrelation und Merkmalsextraktion eingesetzt.<\/p>\n<p>---<\/p>\n<p>## Kapitel 10 Wavelet-Transformation \u2014 Mehrskalen-Innenprodukt (Chapter 10 Wavelet Transform \u2014 Multi-Resolution Inner Product)<\/p>\n<p>### 10.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)<\/p>\n<p>Die Fourier-Transformation projiziert Signale auf unendlich ausgedehnte Sinuswellenbasen und liefert globale Frequenzinformationen, verliert aber die F\u00e4higkeit zur Zeitlokalisierung \u2014 aus dem Spektrum kann nicht abgelesen werden, wann eine bestimmte Frequenzkomponente auftritt. F\u00fcr nichtstation\u00e4re Signale wie Musik, seismische Wellen oder EKG-Signale ist diese \"Zeitblindheit\" ein grundlegender Mangel.<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 10.1 Kurzzeit-Fourier-Transformation (Definition 10.1 Short-Time Fourier Transform)<br \/>\nUm die fehlende Zeitlokalisierung zu kompensieren, f\u00fchrt die Kurzzeit-Fourier-Transformation (STFT) eine Fensterfunktion $w(t)$ ein:<\/p>\n<p>$$\\text{STFT}\\{f(t)\\}(\\tau, \\omega) = \\int_{-\\infty}^{\\infty} f(t) w(t - \\tau) e^{-j\\omega t}\\,dt$$<\/p>\n<p>Aber bei fester Fensterl\u00e4nge der STFT unterliegen die Zeitaufl\u00f6sung $\\Delta t$ und die Frequenzaufl\u00f6sung $\\Delta f$ der Heisenbergschen Unsch\u00e4rferelation$^{[16]}$:<\/p>\n<p>$$\\Delta t \\cdot \\Delta f \\geq \\frac{1}{4\\pi} \\tag{10.1}$$<br \/>\n```<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 10.2 Wavelet-Transformation (Definition 10.2 Wavelet Transform)<br \/>\nDie Wavelet-Transformation verwendet eine Familie von skalierbaren und verschiebbaren Basisfunktionen $\\psi_{a,b}(t)$, die den Konflikt zwischen Zeit- und Frequenzaufl\u00f6sung grundlegend l\u00f6st$^{[17]}$. Sei $\\psi(t)$ das **Mutterwavelet(Mother Wavelet)**, das $\\int \\psi(t)\\,dt = 0$ (Nullmittelwert-Bedingung) erf\u00fcllt. Dann ist die Familie der Wavelet-Basisfunktionen definiert als:<\/p>\n<p>$$\\psi_{a,b}(t) = \\frac{1}{\\sqrt{|a|}} \\psi\\left(\\frac{t - b}{a}\\right), \\quad a \\neq 0, \\; b \\in \\mathbb{R} \\tag{10.2}$$<\/p>\n<p>wobei $a$ der Skalenparameter (steuert die Streckung\/Stauchung, entspricht der Frequenz) und $b$ der Verschiebungsparameter (steuert die Position, entspricht der Zeit) ist. Wavelet-Basisfunktionen haben **kompakten Tr\u00e4ger(Compact Support)** \u2014 sie sind nur ineinem endlichen Intervall nicht null sind \u2014 und daher nat\u00fcrlicherweise \u00fcber die F\u00e4higkeit zur Zeitlokalisierung verf\u00fcgen.<br \/>\n```<\/p>\n<p>```ad-definition<br \/>\ntitle: Definition 10.3 Kontinuierliche Wavelet-Transformation (Definition 10.3 Continuous Wavelet Transform)<br \/>\nDie kontinuierliche Wavelet-Transformation (CWT) eines Signals $f(t)$ ist definiert als das Innenprodukt von $f$ mit der Wavelet-Basisfunktion:<\/p>\n<p>$$W_f(a, b) = \\langle f, \\psi_{a,b} \\rangle = \\int_{-\\infty}^{\\infty} f(t) \\cdot \\frac{1}{\\sqrt{|a|}} \\psi^*\\left(\\frac{t - b}{a}\\right) dt \\tag{10.3}$$<br \/>\n```<\/p>\n<p>```ad-theorem<br \/>\ntitle: Proposition 10.1 Mehrskalenanalyse (Proposition 10.1 Multi-Resolution Analysis)<br \/>\nDie Zeit-Frequenz-Aufl\u00f6sung der Wavelet-Transformation passt sich adaptiv mit der Skala $a$ an:<\/p>\n<p>- **Kleine Skala $a$** (hohe Frequenz): Das Wavelet wird gestaucht, hohe Zeitaufl\u00f6sung, niedrige Frequenzaufl\u00f6sung \u2014 geeignet f\u00fcr die Analyse transienter Signale;<br \/>\n- **Gro\u00dfe Skala $a$** (niedrige Frequenz): Das Wavelet wird gestreckt, hohe Frequenzaufl\u00f6sung, niedrige Zeitaufl\u00f6sung \u2014 geeignet f\u00fcr die Analyse langfristiger Trends.<\/p>\n<p>Diese **Mehrskalenanalyse(Multi-Resolution Analysis, MRA)**-Eigenschaft ist der zentrale Vorteil der Wavelet-Transformation gegen\u00fcber der Fourier-Transformation und der STFT.<br \/>\n```<\/p>\n<p>### 10.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)<\/p>\n<p>Der geometrische Prozess der Wavelet-Transformation kann als die Verwendung einer Reihe von \"Sonden\" unterschiedlicher Gr\u00f6\u00dfe verstanden werden, die entlang der Zeitachse gleiten:<\/p>\n<p>- **Gro\u00dfe Sonde (gro\u00dfe Skala $a$)**: Deckt einen breiten Zeitbereich ab, erfasst langfristige Trends des Signals (niedrige Frequenz), kann aber den genauen Zeitpunkt von \u00c4nderungen nicht lokalisieren;<br \/>\n- **Kleine Sonde (kleine Skala $a$)**: Deckt einen schmalen Zeitbereich ab, lokalisiert pr\u00e4zise Signal-Sprungstellen (hohe Frequenz), sieht aber nicht den Gesamttrend.<\/p>\n<p>An jeder Position $b$ wird das Innenprodukt $W_f(a, b)$ zwischen dem Signal $f(t)$ und der Sonde $\\psi_{a,b}(t)$ berechnet. Das Ergebnis bildet ein **Skalogramm(Scalogram)**, mit der Zeit $b$ auf der horizontalen Achse, der Skala $a$ (oder \u00e4quivalent der Frequenz) auf der vertikalen Achse und der Farbintensit\u00e4t, die die Innenproduktst\u00e4rke angibt.<\/p>\n<p>Vergleich mit der Fourier-Transformation: Die Fourier-Transformation verwendet unendlich lange Sinuswellen, um das gesamte Signal zu \"matchen\", und liefert ein globales Spektrum; die Wavelet-Transformation verwendet endliche Wavelets, um das Signal zu \"scannen\", und zeichnet an jeder Stelle die lokale \u00dcbereinstimmung auf, wobei sowohl Zeit- als auch Frequenzinformationen erhalten bleiben.<\/p>\n<p>### 10.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)<\/p>\n<p>```ad-example<br \/>\ntitle: Beispiel 10.1 Haar-Wavelet-Zerlegung \u2014 Manuelle Berechnung der ein- und zweistufigen Wavelet-Transformation (Example 10.1 Haar Wavelet Decomposition \u2014 Manual Calculation of One-Level and Two-Level Wavelet Transform)<\/p>\n<p>Das Haar-Wavelet ist das einfachste orthogonale Wavelet. Seine Skalierungsfunktion $\\phi(t)$ und Wavelet-Funktion $\\psi(t)$ sind definiert als:<\/p>\n<p>$$\\phi(t) = \\begin{cases} 1, & 0 \\leq t < 1 \\\\ 0, & \\text{sonst} \\end{cases}, \\quad \\psi(t) = \\begin{cases} 1, & 0 \\leq t < 0.5 \\\\ -1, & 0.5 \\leq t < 1 \\\\ 0, & \\text{sonst} \\end{cases}$$\n\nGegeben sei das diskrete Signal der L\u00e4nge 8:\n\n$$x = [4, 6, 10, 12, 8, 6, 5, 5]$$\n\nF\u00fchre manuell eine Haar-Wavelet-Zerlegung durch.\n\n**L\u00f6sung**:\n\n**Schritt 1: Einstufige Zerlegung \u2014 Berechnung der Approximationskoeffizienten.** Die Approximationskoeffizienten werden durch das Innenprodukt mit der Skalierungsfunktion erhalten, d. h. der Durchschnitt zweier benachbarter Punkte:\n\n$$a_1 = \\frac{4+6}{2} = 5, \\quad a_2 = \\frac{10+12}{2} = 11, \\quad a_3 = \\frac{8+6}{2} = 7, \\quad a_4 = \\frac{5+5}{2} = 5$$\n\nApproximationskoeffizienten-Vektor: $A^{(1)} = [5, 11, 7, 5]$\n\n**Schritt 2: Einstufige Zerlegung \u2014 Berechnung der Detailkoeffizienten.** Die Detailkoeffizienten werden durch das Innenprodukt mit der Wavelet-Funktion erhalten, d. h. die halbe Differenz zweier benachbarter Punkte:\n\n$$d_1 = \\frac{4-6}{2} = -1, \\quad d_2 = \\frac{10-12}{2} = -1, \\quad d_3 = \\frac{8-6}{2} = 1, \\quad d_4 = \\frac{5-5}{2} = 0$$\n\nDetailkoeffizienten-Vektor: $D^{(1)} = [-1, -1, 1, 0]$\n\n**Schritt 3: \u00dcberpr\u00fcfung der Rekonstruktion.** Aus $A^{(1)}$ und $D^{(1)}$ kann das urspr\u00fcngliche Signal perfekt rekonstruiert werden:\n\n$$x_1 = a_1 + d_1 = 5 + (-1) = 4, \\quad x_2 = a_1 - d_1 = 5 - (-1) = 6$$\n$$x_3 = a_2 + d_2 = 11 + (-1) = 10, \\quad x_4 = a_2 - d_2 = 11 - (-1) = 12$$\n$$x_5 = a_3 + d_3 = 7 + 1 = 8, \\quad x_6 = a_3 - d_3 = 7 - 1 = 6$$\n$$x_7 = a_4 + d_4 = 5 + 0 = 5, \\quad x_8 = a_4 - d_4 = 5 - 0 = 5$$\n\nDie Rekonstruktion ist vollst\u00e4ndig korrekt.\n\n**Schritt 4: Zweistufige Zerlegung.** F\u00fchre die Haar-Wavelet-Transformation mit den Approximationskoeffizienten $A^{(1)} = [5, 11, 7, 5]$ fort:\n\n$$a_1^{(2)} = \\frac{5+11}{2} = 8, \\quad a_2^{(2)} = \\frac{7+5}{2} = 6$$\n$$d_1^{(2)} = \\frac{5-11}{2} = -3, \\quad d_2^{(2)} = \\frac{7-5}{2} = 1$$\n\nZweistufige Approximation: $A^{(2)} = [8, 6]$, zweistufige Details: $D^{(2)} = [-3, 1]$\n\n**Wichtige Beobachtung**: Das urspr\u00fcngliche Signal ben\u00f6tigt 8 Zahlenwerte zur Speicherung. Nach der einstufigen Zerlegung sind $A^{(1)}$ (4 Werte) + $D^{(1)}$ (4 Werte) = 8 Werte, keine Kompression. Wenn jedoch Detailkoeffizienten mit kleinem Betrag (wie $d_4 = 0$) auf null gesetzt werden, m\u00fcssen nur 7 g\u00fcltige Werte gespeichert werden \u2014 das ist das Prinzip der Wavelet-Kompression. JPEG2000 basiert auf der Wavelet-Transformation (CDF 9\/7-Wavelet) und erzielt eine bessere Kompressionsleistung als JPEG (DCT) ohne Blockartefakte.\n```\n\n### 10.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)\n\nDie Wavelet-Analyse findet breite Anwendung in der Signalverarbeitung:\n\n- **JPEG2000-Bildkompression**: Verwendet das CDF 9\/7-Wavelet f\u00fcr mehrstufige Zerlegung, h\u00f6here Kompressionsrate als JPEGs DCT-Verfahren und keine Blockartefakte;\n- **EKG-Analyse**: Die Wavelet-Transformation kann QRS-Komplexe pr\u00e4zise lokalisieren und wird zur Erkennung von Herzrhythmusst\u00f6rungen eingesetzt;\n- **Seismische Signalverarbeitung**: Das Wavelet-Zeit-Frequenz-Spektrum kann gleichzeitig die Ankunftszeit und die Frequenzzusammensetzung seismischer Wellen aufdecken;\n- **Wavelet-Netze im Deep Learning**: Wavelet-Transformation als vorgelagerte Merkmalsextraktionsschicht in neuronalen Netzen zur Verarbeitung nichtstation\u00e4rer Signale.\n\n---\n\n## Kapitel 11 Selbstaufmerksamkeitsmechanismus \u2014 Die Innenprodukt-Engine der KI (Chapter 11 Self-Attention Mechanism \u2014 AI's Inner Product Engine)\n\n### 11.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)\n\nDie moderne k\u00fcnstliche Intelligenz, insbesondere gro\u00dfe Sprachmodelle (LLMs) wie GPT, BERT usw., basiert fast vollst\u00e4ndig auf Innenproduktberechnungen (Punktprodukten). Der Kern des Transformer-Architektur \u2014 der **Selbstaufmerksamkeitsmechanismus(Self-Attention)** \u2014 ist im Wesentlichen eine gro\u00df angelegte, parallele, lernbare Menge von Vektor-Innenproduktoperationen$^{[18]}$.\n\n```ad-definition\ntitle: Definition 11.1 Skaliertes Punktprodukt-Aufmerksamkeit (Definition 11.1 Scaled Dot-Product Attention)\nGegeben sei eine Eingabesequenz. Jeder Token an jeder Position wird linear in drei Vektoren projiziert: den Abfragevektor $Q$, den Schl\u00fcsselvektor $K$ und den Wertvektor $V$. Die Selbstaufmerksamkeitsausgabe ist definiert als:\n\n$$\\text{Attention}(Q, K, V) = \\text{softmax}\\left(\\frac{QK^T}{\\sqrt{d_k}}\\right) V \\tag{11.1}$$\n\nwobei $Q \\in \\mathbb{R}^{n \\times d_k}$, $K \\in \\mathbb{R}^{n \\times d_k}$, $V \\in \\mathbb{R}^{n \\times d_v}$, $n$ die Sequenzl\u00e4nge und $d_k$ die Dimension der Abfrage\/Schl\u00fcssel ist.\n```\n\n```ad-theorem\ntitle: Proposition 11.1 Aufmerksamkeitsgewichte als normalisierte Innenprodukte (Proposition 11.1 Attention Weights as Normalized Inner Products)\nDas $(i, j)$-te Element der Matrix $QK^T$ ist genau das Innenprodukt zwischen dem $i$-ten Abfragevektor und dem $j$-ten Schl\u00fcsselvektor:\n\n$$(QK^T)_{ij} = \\langle Q_i, K_j \\rangle = Q_i \\cdot K_j = \\sum_{k=1}^{d_k} Q_{i,k} \\cdot K_{j,k} \\tag{11.2}$$\n\nJe gr\u00f6\u00dfer dieser Innenproduktwert, desto h\u00f6her die Relevanz zwischen dem $i$-ten und dem $j$-ten Token. Der Skalierungsfaktor $1\/\\sqrt{d_k}$ verhindert, dass die Innenproduktwerte mit wachsender Dimension zu gro\u00df werden und der Softmax-Gradient verschwindet. Nach der Softmax-Normalisierung werden die Innenproduktwerte in Wahrscheinlichkeitsgewichte umgewandelt, die f\u00fcr die gewichtete Summation der Wertvektoren $V$ verwendet werden.\n\n**Multi-Head-Aufmerksamkeit** f\u00fchrt den obigen Prozess $h$-mal parallel aus ($h$ = Anzahl der Aufmerksamkeitsk\u00f6pfe), wobei jeder Kopf einen anderen Projektionsunterraum lernt:\n\n$$\\text{MultiHead}(Q, K, V) = \\text{Concat}(\\text{head}_1, \\dots, \\text{head}_h) W^O \\tag{11.3}$$\n\nwobei $\\text{head}_i = \\text{Attention}(Q W_i^Q, K W_i^K, V W_i^V)$.\n```\n\n### 11.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)\n\nDer Selbstaufmerksamkeitsmechanismus f\u00fchrt im hochdimensionalen Raum eine raffinierte \"Projektions-Abruf\"-Operation durch:\n\n1. **Abfragevektor $Q_i$**: Kodiert die Abfrageabsicht \"Wer ist mit mir verwandt?\";\n2. **Schl\u00fcsselvektor $K_j$**: Kodiert die Identifikationsinformation \"Wer bin ich, welche Merkmale habe ich?\";\n3. **Innenprodukt $\\langle Q_i, K_j \\rangle$**: Misst die \u00c4hnlichkeit zwischen Abfrage und Schl\u00fcssel im hochdimensionalen Raum (skalierte Version des Kosinus des Winkels zwischen Vektoren);\n4. **Softmax-Normalisierung**: Wandelt die \u00c4hnlichkeiten in eine Wahrscheinlichkeitsverteilung um, sodass das Modell sich auf die relevantesten Token konzentrieren kann;\n5. **Gewichtete Summation**: Extrahiert Kontextinformationen aus den Wertvektoren gem\u00e4\u00df den Aufmerksamkeitsgewichten.\n\nDas gesamte Transformer-Modell kann als eine riesige **differenzierbare Innenprodukt-Engine** betrachtet werden: Jede Schicht f\u00fchrt Innenproduktoperationen aus, und durch R\u00fcckpropagation werden die Projektionsmatrizen von $Q$, $K$, $V$ kontinuierlich angepasst, sodass die Innenproduktergebnisse die langreichweitigen Abh\u00e4ngigkeiten in den Daten genau erfassen k\u00f6nnen.\n\n### 11.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)\n\n```ad-example\ntitle: Beispiel 11.1 Manuelle Berechnung der Selbstaufmerksamkeit f\u00fcr 2 Token (Example 11.1 Manual Calculation of Self-Attention for 2 Tokens)\n\nBetrachte eine minimale Sequenz mit nur zwei Token: \"ich\" und \"liebe\". Nach Einbettung und linearer Projektion (mit $d_k = 3$):\n\n$$Q = \\begin{bmatrix} 1 & 0 & 1 \\\\ 0 & 1 & 1 \\end{bmatrix}, \\quad\nK = \\begin{bmatrix} 1 & 1 & 0 \\\\ 0 & 1 & 1 \\end{bmatrix}, \\quad\nV = \\begin{bmatrix} 1 & 0 \\\\ 0 & 1 \\end{bmatrix}$$\n\nDie erste Zeile entspricht \"ich\", die zweite Zeile \"liebe\".\n\n**L\u00f6sung**:\n\n**Schritt 1: Berechne $QK^T$ (alle Innenproduktpaare).**\n\n$$QK^T = \\begin{bmatrix} 1 & 0 & 1 \\\\ 0 & 1 & 1 \\end{bmatrix}\n\\begin{bmatrix} 1 & 0 \\\\ 1 & 1 \\\\ 0 & 1 \\end{bmatrix}$$\n\nElementweise Berechnung:\n- $(QK^T)_{11} = \\langle Q_1, K_1 \\rangle = 1 \\times 1 + 0 \\times 1 + 1 \\times 0 = 1$\n- $(QK^T)_{12} = \\langle Q_1, K_2 \\rangle = 1 \\times 0 + 0 \\times 1 + 1 \\times 1 = 1$\n- $(QK^T)_{21} = \\langle Q_2, K_1 \\rangle = 0 \\times 1 + 1 \\times 1 + 1 \\times 0 = 1$\n- $(QK^T)_{22} = \\langle Q_2, K_2 \\rangle = 0 \\times 0 + 1 \\times 1 + 1 \\times 1 = 2$\n\n$$QK^T = \\begin{bmatrix} 1 & 1 \\\\ 1 & 2 \\end{bmatrix}$$\n\n**Schritt 2: Skalierung (Division durch $\\sqrt{d_k} = \\sqrt{3} \\approx 1.732$).**\n\n$$\\frac{QK^T}{\\sqrt{3}} = \\begin{bmatrix} 0.577 & 0.577 \\\\ 0.577 & 1.155 \\end{bmatrix}$$\n\n**Schritt 3: Softmax-Normalisierung (zeilenweise).**\n\nErste Zeile $[0.577, 0.577]$:\n$$e^{0.577} \\approx 1.781, \\quad \\text{sum} = 3.562$$\n$$\\text{softmax}_{11} = \\frac{1.781}{3.562} = 0.5, \\quad \\text{softmax}_{12} = \\frac{1.781}{3.562} = 0.5$$\n\nZweite Zeile $[0.577, 1.155]$:\n$$e^{0.577} \\approx 1.781, \\quad e^{1.155} \\approx 3.174, \\quad \\text{sum} = 4.955$$\n$$\\text{softmax}_{21} = \\frac{1.781}{4.955} = 0.359, \\quad \\text{softmax}_{22} = \\frac{3.174}{4.955} = 0.641$$\n\nAufmerksamkeitsgewichtsmatrix:\n\n$$\\text{Weights} = \\begin{bmatrix} 0.5 & 0.5 \\\\ 0.359 & 0.641 \\end{bmatrix}$$\n\n**Schritt 4: Gewichtete Summation zur Ausgabe.**\n\n$$\\text{Output} = \\text{Weights} \\cdot V = \\begin{bmatrix} 0.5 & 0.5 \\\\ 0.359 & 0.641 \\end{bmatrix}\n\\begin{bmatrix} 1 & 0 \\\\ 0 & 1 \\end{bmatrix}$$\n\n- Neue Darstellung von \"ich\": $0.5 \\times [1, 0] + 0.5 \\times [0, 1] = [0.5, 0.5]$\n- Neue Darstellung von \"liebe\": $0.359 \\times [1, 0] + 0.641 \\times [0, 1] = [0.359, 0.641]$\n\n**Wichtige Beobachtung**:\n- \"ich\" verteilt seine Aufmerksamkeit gleichm\u00e4\u00dfig auf beide Token (je 0.5), da die Innenprodukte mit beiden gleich sind;\n- \"liebe\" achtet mehr auf sich selbst (0.641) als auf \"ich\" (0.359), da das Innenprodukt mit sich selbst (2) gr\u00f6\u00dfer ist als das mit \"ich\" (1);\n- Der Ausgabevektor ist eine gewichtete Kombination der Wertvektoren, wobei die Gewichte vollst\u00e4ndig durch die Innenprodukte bestimmt werden \u2014 dies ist der Kernmechanismus der \"kontextbewussten Darstellung durch Innenprodukte\".\n```\n\n### 11.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)\n\nDer Rechenaufwand des Selbstaufmerksamkeitsmechanismus w\u00e4chst mit $O(n^2)$ in der Sequenzl\u00e4nge $n$. F\u00fcr gro\u00dfe Modelle wie GPT-4 (mit Kontextl\u00e4ngen von bis zu 128K) sind pro Vorw\u00e4rtspass zig Billionen Innenproduktoperationen erforderlich. Zur Beschleunigung wurden verschiedene Optimierungstechniken entwickelt:\n\n- **Flash Attention**: Durch blockweise Berechnung und Speicheroptimierung wird der Speicherzugriff reduziert und die Aufmerksamkeitsberechnung um das 2\u20134-fache beschleunigt;\n- **Sparse Attention**: Berechnet nur Innenprodukte zwischen einer Teilmenge von Token-Paaren (z. B. lokales Fenster + globale Token) und reduziert die Komplexit\u00e4t auf $O(n \\log n)$;\n- **Multi-Query Attention (MQA)**: Mehrere Abfragek\u00f6pfe teilen sich denselben Satz von Schl\u00fcssel-Wert-Paaren, wodurch die KV-Cache-Gr\u00f6\u00dfe reduziert wird;\n- **Lineare Aufmerksamkeit**: Verwendet Kernel-Methoden zur Approximation der Softmax-Aufmerksamkeit und reduziert die Komplexit\u00e4t auf $O(n)$.\n\nDiese Optimierungen zielen im Wesentlichen darauf ab, die optimale Balance zwischen \"Reduzierung der Anzahl der Innenproduktberechnungen\" und \"Erhaltung der Modellausdrucksf\u00e4higkeit\" zu finden.\n\n---\n\n## Kapitel 12 Kernel-Methoden \u2014 Implizite hochdimensionale Innenprodukte (Chapter 12 Kernel Methods \u2014 Implicit High-Dimensional Inner Products)\n\n### 12.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)\n\nIn niedrigdimensionalen R\u00e4umen sind Daten oft linear nicht trennbar \u2014 zum Beispiel k\u00f6nnen konzentrische Kreisdaten in der zweidimensionalen Ebene nicht durch eine gerade Linie getrennt werden. Der traditionelle Ansatz besteht darin, manuell hochdimensionale Merkmale zu konstruieren (wie $x_1^2 + x_2^2$), aber das Merkmalsengineering ist extrem aufwendig. Der Kern der **Kernmethode(Kernel Method)** besteht darin: Nicht die Koordinaten im hochdimensionalen Raum explizit zu berechnen, sondern direkt das Innenprodukt im hochdimensionalen Raum zu berechnen$^{[22]}$. Dieser Trick hei\u00dft **Kernel-Trick(Kernel Trick)**.\n\n```ad-definition\ntitle: Definition 12.1 Kernfunktion (Definition 12.1 Kernel Function)\nSei $\\phi: \\mathcal{X} \\to \\mathcal{H}$ eine nichtlineare Abbildung vom Eingaberaum in einen hochdimensionalen (m\u00f6glicherweise unendlichdimensionalen) Hilbertraum. Die Kernfunktion $k: \\mathcal{X} \\times \\mathcal{X} \\to \\mathbb{R}$ ist definiert als:\n\n$$k(x, y) = \\langle \\phi(x), \\phi(y) \\rangle_{\\mathcal{H}} \\tag{12.1}$$\n\nDas Raffinierte an der Kernfunktion ist: Wir m\u00fcssen die genaue Form von $\\phi$ nicht kennen. Solange $k(x, y)$ die **Mercer-Bedingung** (symmetrisch und positiv semidefinit) erf\u00fcllt, entspricht sie einem Innenprodukt in einem reproduzierenden Kernel-Hilbertraum (RKHS).\n```\n\n```ad-definition\ntitle: Definition 12.2 H\u00e4ufige Kernfunktionen (Definition 12.2 Common Kernel Functions)\nZu den h\u00e4ufig verwendeten Kernfunktionen geh\u00f6ren:\n\n- **Linearer Kern**: $k(x, y) = x^T y$ (das Innenprodukt im urspr\u00fcnglichen Raum);\n- **Polynomialer Kern**: $k(x, y) = (x^T y + c)^d$ (entspricht einem $d$-dimensionalen polynomialen Merkmalsraum);\n- **Gau\u00dfscher Radialbasisfunktions-Kern (RBF)**: $k(x, y) = \\exp\\left(-\\frac{\\|x - y\\|^2}{2\\sigma^2}\\right)$ (entspricht einem unendlichdimensionalen Merkmalsraum);\n- **Sigmoid-Kern**: $k(x, y) = \\tanh(\\alpha x^T y + c)$.\n```\n\n```ad-definition\ntitle: Definition 12.3 Support Vector Machine (Definition 12.3 Support Vector Machine)\nDie **Support Vector Machine (SVM)** ist die klassischste Anwendung der Kernel-Methode$^{[23]}$. Die SVM sucht im Merkmalsraum nach der Hyperebene mit maximalem Abstand. Ihre Entscheidungsfunktion h\u00e4ngt nur von den Innenprodukten zwischen den St\u00fctzvektoren und dem zu klassifizierenden Sample ab:\n\n$$f(x) = \\text{sign}\\left(\\sum_{i=1}^{m} \\alpha_i y_i \\langle \\phi(x_i), \\phi(x) \\rangle + b\\right) = \\text{sign}\\left(\\sum_{i=1}^{m} \\alpha_i y_i k(x_i, x) + b\\right) \\tag{12.2}$$\n\nwobei $x_i$ die St\u00fctzvektoren, $y_i \\in \\{-1, +1\\}$ die Labels und $\\alpha_i$ die dualen Variablen sind.\n```\n\n### 12.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)\n\nDie geometrische Anschauung des Kernel-Tricks kann mit \"Falten-Entfalten\" verstanden werden:\n\n1. **Eingaberaum**: Datenpunkte sind chaotisch im niedrigdimensionalen Raum verteilt, lineare Klassifikatoren sind machtlos;\n2. **Implizite Abbildung $\\phi$**: Die Datenpunkte werden in einen hochdimensionalen Hilbertraum \"entfaltet\", urspr\u00fcnglich verwickelte Datenpunkte werden \"geradegezogen\";\n3. **Innenprodukt im hochdimensionalen Raum**: Die SVM sucht im hochdimensionalen Raum nach der Hyperebene mit maximalem Abstand \u2014 \u00e4quivalent zu einer nichtlinearen Entscheidungsgrenze im Eingaberaum;\n4. **Kernfunktion $k(x, y)$**: Gibt direkt den Innenproduktwert im hochdimensionalen Raum zur\u00fcck, als ob die Daten in den hochdimensionalen Raum abgebildet worden w\u00e4ren, aber der Rechenaufwand bleibt derselbe wie im niedrigdimensionalen Raum.\n\n**Wichtige Erkenntnis**: Die Taylor-Entwicklung des RBF-Kerns $\\exp(-\\gamma\\|x - y\\|^2)$ enth\u00e4lt polynomiale Merkmale aller Ordnungen, daher kann die RBF-Kernel-SVM theoretisch jede beliebig komplexe Entscheidungsgrenze approximieren.\n\n### 12.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)\n\n```ad-example\ntitle: Beispiel 12.1 Kernel-Trick f\u00fcr das zweidimensionale XOR-Problem \u2014 Manuelle Herleitung (Example 12.1 Kernel Trick for the 2D XOR Problem \u2014 Manual Derivation)\n\nXOR-Datensatz: $x_1 = (-1, -1)$ Label $-1$, $x_2 = (1, 1)$ Label $-1$, $x_3 = (-1, 1)$ Label $+1$, $x_4 = (1, -1)$ Label $+1$. Im zweidimensionalen Raum sind XOR-Daten linear nicht trennbar.\n\n**L\u00f6sung**:\n\n**Schritt 1: W\u00e4hle die Kernfunktion und finde die implizite Abbildung.** Nimm den polynomialen Kern $k(x, y) = (x^T y)^2$. Expandiere:\n\n$$(x^T y)^2 = (x_1 y_1 + x_2 y_2)^2 = x_1^2 y_1^2 + 2x_1 x_2 y_1 y_2 + x_2^2 y_2^2$$\n\n$$= \\langle (x_1^2, \\sqrt{2}x_1 x_2, x_2^2), (y_1^2, \\sqrt{2}y_1 y_2, y_2^2) \\rangle$$\n\nDaher ist die implizite Abbildung $\\phi(x) = (x_1^2, \\sqrt{2}x_1 x_2, x_2^2)$, die zweidimensionale Daten in den dreidimensionalen Raum abbildet.\n\n**Schritt 2: Berechne die Koordinaten der Datenpunkte im dreidimensionalen Raum.**\n\n$$\\phi(x_1) = \\phi(-1, -1) = (1, \\sqrt{2}, 1), \\quad \\phi(x_2) = \\phi(1, 1) = (1, \\sqrt{2}, 1)$$\n$$\\phi(x_3) = \\phi(-1, 1) = (1, -\\sqrt{2}, 1), \\quad \\phi(x_4) = \\phi(1, -1) = (1, -\\sqrt{2}, 1)$$\n\n**Schritt 3: \u00dcberpr\u00fcfe die lineare Trennbarkeit.** Im dreidimensionalen Raum liegen $x_1, x_2$ (Label $-1$) beide bei $(1, \\sqrt{2}, 1)$, $x_3, x_4$ (Label $+1$) beide bei $(1, -\\sqrt{2}, 1)$. Die beiden Klassen k\u00f6nnen durch die Ebene $z_2 = 0$ (d. h. $\\sqrt{2}x_1 x_2 = 0$) perfekt getrennt werden!\n\n**Schritt 4: \u00dcberpr\u00fcfe den Kernel-Trick.** Berechne $k(x_1, x_3) = (x_1^T x_3)^2$:\n\n$$x_1^T x_3 = (-1)(-1) + (-1)(1) = 0, \\quad k(x_1, x_3) = 0^2 = 0$$\n\nIm dreidimensionalen Raum: $\\langle \\phi(x_1), \\phi(x_3) \\rangle = 1 \\times 1 + \\sqrt{2} \\times (-\\sqrt{2}) + 1 \\times 1 = 0$\n\nBeide sind gleich, was die Korrektheit des Kernel-Tricks best\u00e4tigt.\n\n**Schritt 5: SVM-Entscheidung.** Im dreidimensionalen Raum ist die Hyperebene mit maximalem Abstand $z_2 = 0$, der Normalenvektor $w = (0, 1, 0)$, der Bias $b = 0$. Die St\u00fctzvektoren sind alle vier Punkte, $\\alpha_i = 1$.\n\nF\u00fcr den Testpunkt $x = (0.5, -0.5)$:\n\n$$k(x_1, x) = ((-1)(0.5) + (-1)(-0.5))^2 = 0, \\quad k(x_2, x) = ((1)(0.5) + (1)(-0.5))^2 = 0$$\n$$k(x_3, x) = ((-1)(0.5) + (1)(-0.5))^2 = 1, \\quad k(x_4, x) = ((1)(0.5) + (-1)(-0.5))^2 = 1$$\n\n$$f(x) = \\text{sign}(-0 - 0 + 1 + 1) = \\text{sign}(2) = +1$$\n\nVorhersage $+1$, korrekt.\n\n**Wichtige Beobachtung**: Wir haben $\\phi(x)$ nie explizit berechnet, sondern durch die Kernfunktion $k(x, y) = (x^T y)^2$ direkt das Innenprodukt im hochdimensionalen Raum erhalten \u2014 hochdimensionale Klassifikationsf\u00e4higkeit mit niedrigdimensionalem Rechenaufwand.\n```\n\n### 12.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)\n\nDie Anwendungen von Kernel-Methoden gehen weit \u00fcber SVM hinaus:\n\n- **Kernel-PCA**: F\u00fchrt PCA im kernabgebildeten hochdimensionalen Raum durch, f\u00fcr nichtlineare Dimensionsreduktion;\n- **Kernel-Ridge-Regression**: Verallgemeinert die lineare Ridge-Regression auf nichtlineare Regression;\n- **Kernel Mean Matching**: F\u00fcr Domain-Adaption und Transfer Learning;\n- **Gau\u00dfprozess (Gaussian Process)**: Verwendet die Kernfunktion als Kovarianzfunktion f\u00fcr Bayes'sche Optimierung und Regression;\n- **Neural Tangent Kernel (NTK)**: Verbindet unendlich breite neuronale Netze mit Kernel-Methoden und bietet ein theoretisches Analysewerkzeug f\u00fcr Deep Learning.\n\n---\n\n## Kapitel 13 Innenprodukte in der Quantenmechanik \u2014 Wahrscheinlichkeit als Projektion (Chapter 13 Inner Products in Quantum Mechanics \u2014 Probability as Projection)\n\n### 13.1 Theorie und rigorose Definitionen (Theory and Rigorous Definitions)\n\nDie Quantenmechanik treibt das Konzept des Innenprodukts auf die ultimative Ebene der physikalischen Welt. In der Quantenmechanik wird der Zustand eines Systems durch einen **Zustandsvektor(State Vector)** $|\\psi\\rangle$ in einem Hilbertraum $\\mathcal{H}$ beschrieben (Dirac-Notation)$^{[26]}$. Der Hilbertraum ist hier in der Regel ein unendlichdimensionaler komplexer Innenproduktraum.\n\n```ad-definition\ntitle: Definition 13.1 Zustandsvektor und Innenprodukt (Definition 13.1 State Vector and Inner Product)\nDer Zustandsvektor $|\\psi\\rangle \\in \\mathcal{H}$ enth\u00e4lt die gesamte Information des Quantensystems. Das Innenprodukt zweier Zust\u00e4nde $\\langle \\phi | \\psi \\rangle$ ist eine komplexe Zahl, deren Betragsquadrat die Messwahrscheinlichkeit ergibt.\n\n**Axiom 13.1 (Born'sche Regel)** Wenn sich das System im Zustand $|\\psi\\rangle$ befindet, ist die Wahrscheinlichkeit, bei der Messung der Observablen $\\hat{A}$ den Eigenwert $\\lambda_n$ zu erhalten$^{[21]}$:\n\n$$P(\\lambda_n) = |\\langle a_n | \\psi \\rangle|^2 \\tag{13.1}$$\n\nwobei $|a_n\\rangle$ der zu $\\lambda_n$ geh\u00f6rende Eigenzustand von $\\hat{A}$ ist. Nach der Messung kollabiert der Systemzustand zu $|a_n\\rangle$. Das Wesen der Born'schen Regel ist: **Wahrscheinlichkeit ist das Betragsquadrat der Projektion des Zustandsvektors auf die Messbasis**.\n```\n\n```ad-definition\ntitle: Definition 13.2 Observable und selbstadjungierte Operatoren (Definition 13.2 Observables and Self-Adjoint Operators)\nObservablen entsprechen selbstadjungierten Operatoren (Hermiteschen Operatoren) $\\hat{A}$ auf dem Hilbertraum, die $\\hat{A}^\\dagger = \\hat{A}$ erf\u00fcllen. Die Eigenwerte selbstadjungierter Operatoren sind reell, und die Eigenzust\u00e4nde bilden eine vollst\u00e4ndige Orthonormalbasis.\n```\n\n```ad-definition\ntitle: Definition 13.3 Schr\u00f6dinger-Gleichung (Definition 13.3 Schr\u00f6dinger Equation)\nDie Zeitentwicklung des Zustandsvektors wird durch die Schr\u00f6dinger-Gleichung beschrieben:\n\n$$i\\hbar \\frac{d}{dt} |\\psi(t)\\rangle = \\hat{H} |\\psi(t)\\rangle \\tag{13.2}$$\n\nwobei $\\hat{H}$ der Hamilton-Operator (Energieoperator) ist. Diese Gleichung ist im Wesentlichen eine unit\u00e4re Entwicklungsgleichung im unendlichdimensionalen Hilbertraum \u2014 eine innenprodukterhaltende Rotation.\n```\n\n### 13.2 Geometrie und r\u00e4umliche Anschauung (Geometry and Spatial Intuition)\n\nDie geometrische Vorstellung der Quantenmechanikhat tiefe Verbindungen zum klassischen Innenproduktraum:\n\n1. **Zustandsvektoren sind Einheitsvektoren**: Physikalisch wird gefordert, dass $|\\psi\\rangle$ normiert ist, d. h. $\\langle \\psi | \\psi \\rangle = 1$. Alle m\u00f6glichen Zustandsvektoren bilden die Einheitssph\u00e4re im komplexen Hilbertraum.\n\n2. **Messung ist orthogonale Projektion**: Eine Messung projiziert den Zustandsvektor $|\\psi\\rangle$ auf den Eigenunterraum. Die Projektionsl\u00e4nge $|\\langle a_n | \\psi \\rangle|$ bestimmt die Wahrscheinlichkeitsamplitude, deren Quadrat die Messwahrscheinlichkeit ergibt.\n\n3. **Orthogonale Zust\u00e4nde schlie\u00dfen sich aus**: Wenn $\\langle \\phi | \\psi \\rangle = 0$, dann sind die beiden Zust\u00e4nde orthogonal (sich gegenseitig ausschlie\u00dfend) \u2014 wenn sich das System im Zustand $|\\psi\\rangle$ befindet, ist die Wahrscheinlichkeit, $|\\phi\\rangle$ zu messen, null.\n\n4. **Verschr\u00e4nkte Zust\u00e4nde sind nicht separabel**: F\u00fcr ein zusammengesetztes System gilt: Wenn $|\\psi\\rangle_{AB} \\neq |\\phi\\rangle_A \\otimes |\\chi\\rangle_B$, dann sind die beiden Subsysteme verschr\u00e4nkt. Das mathematische Wesen der Verschr\u00e4nkung ist: Die Innenproduktstruktur der beiden Subsysteme kann nicht als direktes Produkt zerlegt werden.\n\n### 13.3 Ausf\u00fchrliches Beispiel mit L\u00f6sung (Worked Example)\n\n```ad-example\ntitle: Beispiel 13.1 Messwahrscheinlichkeit eines Spin-$1\/2$-Systems \u2014 Innenproduktberechnung (Example 13.1 Measurement Probability of a Spin-$1\/2$ System \u2014 Inner Product Calculation)\n\nBetrachte den Elektronenspin, dessen Zustand als Vektor in einem zweidimensionalen komplexen Hilbertraum dargestellt werden kann. Die Eigenzust\u00e4nde in $z$-Richtung:\n\n$$| \\uparrow_z \\rangle = \\begin{pmatrix} 1 \\\\ 0 \\end{pmatrix}, \\quad | \\downarrow_z \\rangle = \\begin{pmatrix} 0 \\\\ 1 \\end{pmatrix}$$\n\nDie Eigenzust\u00e4nde in $x$-Richtung:\n\n$$| \\uparrow_x \\rangle = \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ 1 \\end{pmatrix}, \\quad | \\downarrow_x \\rangle = \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ -1 \\end{pmatrix}$$\n\nDas Elektron befindet sich im Zustand $|\\psi\\rangle = \\frac{1}{\\sqrt{2}}| \\uparrow_z \\rangle + \\frac{1}{\\sqrt{2}}| \\downarrow_z \\rangle = \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ 1 \\end{pmatrix}$.\n\n**L\u00f6sung**:\n\n**Schritt 1: \u00dcberpr\u00fcfung der Normierung.**\n\n$$\\langle \\psi | \\psi \\rangle = \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 & 1 \\end{pmatrix} \\cdot \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ 1 \\end{pmatrix} = \\frac{1}{2}(1 + 1) = 1$$\n\nNormierung best\u00e4tigt.\n\n**Schritt 2: Wahrscheinlichkeit der Messung von $S_z$.**\n\n$$P(\\uparrow_z) = |\\langle \\uparrow_z | \\psi \\rangle|^2 = \\left| \\begin{pmatrix} 1 & 0 \\end{pmatrix} \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ 1 \\end{pmatrix} \\right|^2 = \\left| \\frac{1}{\\sqrt{2}} \\right|^2 = \\frac{1}{2}$$\n\n$$P(\\downarrow_z) = |\\langle \\downarrow_z | \\psi \\rangle|^2 = \\left| \\begin{pmatrix} 0 & 1 \\end{pmatrix} \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ 1 \\end{pmatrix} \\right|^2 = \\left| \\frac{1}{\\sqrt{2}} \\right|^2 = \\frac{1}{2}$$\n\nJe 50 %, wie erwartet.\n\n**Schritt 3: Wahrscheinlichkeit der Messung von $S_x$.**\n\n$$P(\\uparrow_x) = |\\langle \\uparrow_x | \\psi \\rangle|^2 = \\left| \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 & 1 \\end{pmatrix} \\cdot \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ 1 \\end{pmatrix} \\right|^2 = \\left| \\frac{1}{2}(1 + 1) \\right|^2 = 1$$\n\n$$P(\\downarrow_x) = |\\langle \\downarrow_x | \\psi \\rangle|^2 = \\left| \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 & -1 \\end{pmatrix} \\cdot \\frac{1}{\\sqrt{2}}\\begin{pmatrix} 1 \\\\ 1 \\end{pmatrix} \\right|^2 = \\left| \\frac{1}{2}(1 - 1) \\right|^2 = 0$$\n\n**Wichtige Beobachtung**: $|\\psi\\rangle = | \\uparrow_x \\rangle$, daher ergibt die Messung von $S_x$ zu 100 % $+\\hbar\/2$. Dies best\u00e4tigt die geometrische Bedeutung des Innenprodukts: Wenn der Zustandsvektor vollst\u00e4ndig ausgerichtet ist (Innenprodukt-Betrag 1), betr\u00e4gt die Wahrscheinlichkeit 100 %; bei Orthogonalit\u00e4t (Innenprodukt 0) betr\u00e4gt die Wahrscheinlichkeit 0.\n\n**Schritt 4: Zustandskollaps nach der Messung.** Angenommen, die Messung von $S_z$ ergibt $+\\hbar\/2$, dann kollabiert der Zustandsvektor:\n\n$$|\\psi\\rangle = \\frac{1}{\\sqrt{2}}| \\uparrow_z \\rangle + \\frac{1}{\\sqrt{2}}| \\downarrow_z \\rangle \\xrightarrow{\\text{Messung } S_z = +\\hbar\/2} |\\psi'\\rangle = | \\uparrow_z \\rangle$$\n\nEine erneute Messung von $S_z$ w\u00fcrde nun zu 100 % $+\\hbar\/2$ ergeben, aber die Messung von $S_x$ w\u00fcrde wieder eine 50\/50-Wahrscheinlichkeit liefern. Dies ist das Wesen der \"Messung ver\u00e4ndert den Zustand\" \u2014 eine orthogonale Projektionsoperation.\n```\n\n### 13.4 Ingenieurwissenschaftliche und zukunftsweisende Anwendungen (Engineering and Cutting-Edge Applications)\n\nDas Konzept des Quanten-Innenprodukts treibt revolution\u00e4re Technologien hervor:\n\n- **Quantencomputing**: Quantengatteroperationen sind im Wesentlichen unit\u00e4re Transformationen im Hilbertraum (innenprodukterhaltende Rotationen). Der Shor-Algorithmus und der Grover-Algorithmus nutzen Superposition und Interferenz (Phase des Innenprodukts) von Quantenzust\u00e4nden f\u00fcr exponentielle Beschleunigung;\n- **Quantenkryptographie**: Das BB84-Protokoll nutzt die Orthogonalit\u00e4t der Messbasen zur Erkennung von Lauschern \u2014 die Messung eines Lauschers kollabiert den Zustandsvektor, ver\u00e4ndert das Innenproduktergebnis und wird so von den legitimen Kommunikationspartnern entdeckt;\n- **Quantenteleportation**: Nutzt die Innenproduktstruktur von Bell-Zust\u00e4nden (maximal verschr\u00e4nkte Zust\u00e4nde) f\u00fcr die Fern\u00fcbertragung von Quanteninformation;\n- **Quanten-Maschinenlernen**: Quanten-Kernel-Methoden nutzen Quantenzustands-Innenprodukte zur effizienten Berechnung von Kernfunktionen in hochdimensionalen Hilbertr\u00e4umen und versprechen einen Quantenvorteil.\n\n---\n\n## Schlusskapitel Vereinheitlichte Wissenslandkarte und philosophische Sublimierung (Final Chapter Unified Knowledge Graph and Philosophical Sublimation)\n\n### Alles ist Projektion \u2014 Eine Innenprodukt-Landkarte durch alle Disziplinen (Everything Is a Projection \u2014 An Inner Product Map Across All Disciplines)\n\nR\u00fcckblickend auf das in dieser Arbeit aufgebaute Wissenssystem, vom zweidimensionalen Vektor-Punktprodukt bis zum Zustandsvektor-Innenprodukt im unendlichdimensionalen komplexen Hilbertraum, durchzieht das Konzept des Innenprodukts jeden Winkel der Mathematik, Physik, Technik und Informatik.\n\n**Kernlinie**: Das Innenprodukt $\\langle \\cdot, \\cdot \\rangle$ ist ein **\u00c4hnlichkeitsma\u00df(Similarity Measure)**. Unabh\u00e4ngig davon, ob die Objekte Vektoren, Funktionen, Signale, Bilder oder Quantenzust\u00e4nde sind, beantwortet das Innenprodukt dieselbe Frage \u2014 \"Wie \u00e4hnlich sind diese beiden Objekte?\"\n\n**Vereinheitlichte Wissenslandkarte (Unified Knowledge Graph)**:\n\n| Bereich | Konkrete Form des Innenprodukts | Geometrische Interpretation | Kernanwendung |\n|---------|-------------------------------|----------------------------|---------------|\n| Lineare Algebra | $\\langle x, y \\rangle = x^T y$ | Projektionsl\u00e4nge | Orthogonale Zerlegung, Kleinste Quadrate |\n| Funktionalanalysis | $\\langle f, g \\rangle = \\int fg$ | Wellenform-\u00c4hnlichkeit | Fourier-Reihe, Wavelet-Transformation |\n| Signalverarbeitung | $\\langle x, h \\rangle = \\sum x[n]h[n]$ | Angepasstes Filter | Faltung, Korrelationsdetektion |\n| Wahrscheinlichkeit\/Statistik | $\\text{Cov}(X,Y) = E[(X-\\mu_X)(Y-\\mu_Y)]$ | Korrelationsrichtung | PCA, Regressionsanalyse |\n| Maschinelles Lernen | $\\langle Q_i, K_j \\rangle$ | Aufmerksamkeitsgewicht | Transformer, Selbstaufmerksamkeit |\n| Bildverarbeitung | $\\langle I, K \\rangle$ | Merkmalsantwort | Faltungsnetzwerke, Kantendetektion |\n| Quantenmechanik | $\\langle \\phi \\mid \\psi \\rangle$ | Wahrscheinlichkeitsamplitude | Messung, Quantencomputing |\n| Regelungstechnik | $\\langle f, e^{-st} \\rangle$ | Komplexe Frequenzbereichsprojektion | Laplace-Transformation, Stabilit\u00e4tsanalyse |\n\n### Philosophische Sublimierung \u2014 Projektion als Erkenntnis (Philosophical Sublimation \u2014 Projection as Cognition)\n\nAus philosophischer Sicht ist \"Alles ist Projektion\" nicht nur eine mathematische Aussage, sondern eine Art, die Welt zu erkennen$^{[22]}$:\n\n1. **Erkenntnis ist Projektion**: Der Prozess, mit dem der Mensch die Welt erkennt, ist im Wesentlichen die Projektion komplexer Informationen der Au\u00dfenwelt auf begrenzte kognitive Basisfunktionen. Wir sehen nicht \"die reale Welt selbst\", sondern die Projektionskoeffizienten der realen Welt auf kognitive Basen.\n\n2. **Orthogonalit\u00e4t ist Unabh\u00e4ngigkeit**: Wenn zwei Konzepte orthogonal sind, bedeutet dies, dass sie sich gegenseitig nicht st\u00f6ren und nicht \u00fcberlappen. Die orthogonale Zerlegung ist die ultimative Waffe zur Vereinfachung komplexer Probleme \u2014 die Zerlegung komplexer Systeme in unabh\u00e4ngige, nicht miteinander korrelierte Module.\n\n3. **Projektion ist Entscheidung**: Die Methode der kleinsten Quadrate zeigt, dass die Projektion die optimale Wahl ist, wenn keine exakte L\u00f6sung existiert. Wenn eine perfekte L\u00f6sung nicht m\u00f6glich ist, ist die orthogonale Projektion auf den zul\u00e4ssigen Bereich die optimale Entscheidung.\n\n4. **Die Wahl der Basis bestimmt alles**: Fourier w\u00e4hlt Sinuswellen als Basis, Wavelets w\u00e4hlen kompakt getragene Funktionen als Basis, Transformer w\u00e4hlen lernbare Aufmerksamkeitsbasen \u2014 die Wahl der Basis bestimmt, welche Welt man sehen kann.\n\n### Abschlie\u00dfende Gedanken (Final Thoughts)\n\nDas Innenprodukt ist nicht nur eine mathematische Operation, sondern eine **Metasprache(Meta-Language)**, die das Mikroskopische und das Makroskopische, das Kontinuierliche und das Diskrete, das Deterministische und das Probabilistische verbindet. Vom Satz des Pythagoras bis zur Quantenverschr\u00e4nkung, von der Methode der kleinsten Quadrate bis zu gro\u00dfen Sprachmodellen \u2014 das Innenprodukt vereint in seiner einfachen und tiefgr\u00fcndigen Form alle Ecken des menschlichen Wissensgeb\u00e4udes.\n\n---\n\n## Anhang Code zur Erzeugung der Abbildungen in diesem Artikel (Appendix Code for Generating Figures in This Paper)\n\nAlle f\u00fcnf Abbildungen in diesem Artikel (Kosinus-\u00c4hnlichkeits-W\u00e4rmekarte, Kleinste-Quadrate-Projektion, Fourier-Zerlegung, Faltungs-Matched-Filter, Sobel-Kantendetektion) werden einheitlich von <a href=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/main.py\" target=\"_blank\"  rel=\"nofollow\" >main.py<\/a> erzeugt. Dieses Skript basiert auf dem wissenschaftlichen Rechen-\u00d6kosystem von Python (NumPy, SciPy, Matplotlib) und verwandelt die abstrakten mathematischen Konzepte des Artikels rund um das Thema \"Innenprodukt\" in intuitive visuelle Grafiken.<\/p>\n<p>Das Kern-Design des Skripts ist wie folgt:<\/p>\n<p>1. **Kosinus-\u00c4hnlichkeit**: Die Funktion `cosine_similarity()` berechnet das normalisierte Innenprodukt zwischen Worteinbettungsvektoren und erzeugt eine $5 \\times 5$-W\u00e4rmekartenmatrix. Diese Funktion implementiert die Definition der Kosinus-\u00c4hnlichkeit in Formel (1.5).<br \/>\n2. **Methode der kleinsten Quadrate**: Verwendet `np.linalg.lstsq` zur L\u00f6sung der Normalgleichungen $A^T A \\hat{x} = A^T b$ (Satz 3.1), was im Wesentlichen die orthogonale Projektion des Beobachtungsvektors auf den Modellraum darstellt.<br \/>\n3. **Fourier-Zerlegung**: Projiziert das Zeitbereichssignal durch FFT auf Frequenzbasen (Satz 6.1), wobei jede Spitze im Spektrum einem Innenproduktkoeffizienten einer Frequenzkomponente entspricht.<br \/>\n4. **Faltung und angepasstes Filter**: Betrachtet die Faltung als gleitende Innenproduktoperation (Definition 8.1) und verwendet das Template, um punktweise Innenprodukte mit dem Signal zu berechnen und Impulspositionen zu erkennen.<br \/>\n5. **Sobel-Kantendetektion**: F\u00fchrt das zweidimensionale Innenprodukt des Faltungskerns mit dem Bild durch (Beispiel 8.2) und berechnet die Gradientenst\u00e4rke an jedem Pixel.<\/p>\n<p>Hier ist der Kerncode-Ausschnitt zur Erzeugung der Kosinus-\u00c4hnlichkeits-W\u00e4rmekarte:<\/p>\n<pre><code class=\"language-python\">def cosine_similarity(vec_a: np.ndarray, vec_b: np.ndarray) -> float:\r\n    dot_product = float(np.dot(vec_a, vec_b))\r\n    norm_a = np.linalg.norm(vec_a)\r\n    norm_b = np.linalg.norm(vec_b)\r\n    return dot_product \/ (norm_a * norm_b)\r\n\r\ndef build_semantic_demo() -> tuple[list[str], dict[str, np.ndarray], np.ndarray]:\r\n    tokens = [\"king\", \"queen\", \"man\", \"woman\", \"apple\"]\r\n    embeddings = {\r\n        \"king\": np.array([0.92, 0.10, 0.78, 0.25, 0.60]),\r\n        \"queen\": np.array([0.90, 0.12, 0.80, 0.30, 0.63]),\r\n        \"man\": np.array([0.88, 0.18, 0.40, 0.22, 0.35]),\r\n        \"woman\": np.array([0.86, 0.22, 0.42, 0.28, 0.38]),\r\n        \"apple\": np.array([0.05, 0.95, 0.08, 0.87, 0.10]),\r\n    }\r\n    matrix = np.array(\r\n        [[cosine_similarity(embeddings[left], embeddings[right]) for right in tokens] for left in tokens]\r\n    )\r\n    return tokens, embeddings, matrix\r\n<\/code><\/pre>\n<p>Den vollst\u00e4ndigen Code finden Sie in <a href=\"https:\/\/r2.wuhanqing.cn\/MyWebsiteFiles\/1-%E6%96%87%E7%AB%A0\/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0\/%E4%BB%8E%E7%82%B9%E7%A7%AF%E5%88%B0%E5%86%85%E7%A7%AF%E7%A9%BA%E9%97%B4%EF%BC%9A%E8%97%8F%E5%9C%A8%E5%BE%AE%E7%A7%AF%E5%88%86%E3%80%81%E4%BF%A1%E5%8F%B7%E4%B8%8EAI%E8%83%8C%E5%90%8E%E7%9A%84%E5%90%8C%E4%B8%80%E5%A5%97%E8%AF%AD%E8%A8%80\/main.py\" target=\"_blank\"  rel=\"nofollow\" >main.py<\/a><\/p>\n<p>## Referenzen (References)<\/p>\n<p>[1] Wikipedia contributors. (2026, April 28). Dot product. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:42, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Dot_product&amp;oldid=1351567929\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Dot_product&oldid=1351567929<\/a>.<\/p>\n<p>[2] Wikipedia contributors. (2025, November 3). Orthogonal complement. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:43, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Orthogonal_complement&amp;oldid=1320174088\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Orthogonal_complement&oldid=1320174088<\/a>.<\/p>\n<p>[3] Wikipedia contributors. (2025, July 7). Orthogonalization. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:44, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Orthogonalization&amp;oldid=1299273509\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Orthogonalization&oldid=1299273509<\/a>.<\/p>\n<p>[4] Wikipedia contributors. (2025, September 1). Orthogonal functions. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:46, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Orthogonal_functions&amp;oldid=1308940353\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Orthogonal_functions&oldid=1308940353<\/a>.<\/p>\n<p>[5] Wikipedia contributors. (2026, March 13). Least squares. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:46, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Least_squares&amp;oldid=1343263636\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Least_squares&oldid=1343263636<\/a>.<\/p>\n<p>[6] Wikipedia contributors. (2026, May 23). Hilbert space. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:47, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Hilbert_space&amp;oldid=1355759876\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Hilbert_space&oldid=1355759876<\/a>.<\/p>\n<p>[7] \u5377\u79ef\u3001\u5185\u79ef\u3001\u4e92\u76f8\u5173\u6982\u5ff5. CSDN\u535a\u5ba2, 2024. <a href=\"https:\/\/blog.csdn.net\/qq_31073871\/article\/details\/146475191\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/blog.csdn.net\/qq_31073871\/article\/details\/146475191<\/a>.<\/p>\n<p>[8] Wikipedia contributors. (2026, February 27). Inner product space. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:51, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Inner_product_space&amp;oldid=1340828148\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Inner_product_space&oldid=1340828148<\/a>.<\/p>\n<p>[9] \u5185\u79ef\u548c\u5916\u79ef[G\/OL]. OI Wiki, 2025. <a href=\"https:\/\/oi-wiki.org\/math\/linear-algebra\/product\/\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/oi-wiki.org\/math\/linear-algebra\/product\/<\/a>.<\/p>\n<p>[10] \u7ef4\u57fa\u767e\u79d1\u7f16\u8005. \u5185\u79ef[G\/OL]. \u7ef4\u57fa\u767e\u79d1, 2025(20250703)[2025-07-03]. <a href=\"https:\/\/zh.wikipedia.org\/w\/index.php?title=%E5%86%85%E7%A7%AF&amp;oldid=88045564\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/zh.wikipedia.org\/w\/index.php?title=%E5%86%85%E7%A7%AF&oldid=88045564<\/a>.<\/p>\n<p>[11] Wikipedia contributors. (2026, April 24). Fourier series. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:55, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Fourier_series&amp;oldid=1350934101\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Fourier_series&oldid=1350934101<\/a>.<\/p>\n<p>[12] Wikipedia contributors. (2026, May 20). Fourier transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:55, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Fourier_transform&amp;oldid=1355147665\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Fourier_transform&oldid=1355147665<\/a>.<\/p>\n<p>[13] Wikipedia contributors. (2026, May 17). Cosine similarity. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:56, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Cosine_similarity&amp;oldid=1354643579\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Cosine_similarity&oldid=1354643579<\/a>.<\/p>\n<p>[14] Wikipedia contributors. (2026, May 11). Laplace transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:56, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Laplace_transform&amp;oldid=1353668445\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Laplace_transform&oldid=1353668445<\/a>.<\/p>\n<p>[15] Wikipedia contributors. (2026, May 8). Z-transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Z-transform&amp;oldid=1353129057\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Z-transform&oldid=1353129057<\/a>.<\/p>\n<p>[16] Wikipedia contributors. (2025, June 1). Frequency domain. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Frequency_domain&amp;oldid=1293464779\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Frequency_domain&oldid=1293464779<\/a>.<\/p>\n<p>[17] Wikipedia contributors. (2026, May 20). Convolution. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:57, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Convolution&amp;oldid=1355143781\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Convolution&oldid=1355143781<\/a>.<\/p>\n<p>[18] Wikipedia contributors. (2026, April 25). Discrete cosine transform. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Discrete_cosine_transform&amp;oldid=1350947997\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Discrete_cosine_transform&oldid=1350947997<\/a>.<\/p>\n<p>[19] Wikipedia contributors. (2026, May 19). JPEG. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=JPEG&amp;oldid=1355030069\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=JPEG&oldid=1355030069<\/a>.<\/p>\n<p>[20] Wikipedia contributors. (2026, April 29). Wavelet. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:58, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Wavelet&amp;oldid=1351640900\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Wavelet&oldid=1351640900<\/a>.<\/p>\n<p>[21] Wikipedia contributors. (2026, March 22). Word embedding. In _Wikipedia, The Free Encyclopedia_. Retrieved 11:59, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Word_embedding&amp;oldid=1344811356\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Word_embedding&oldid=1344811356<\/a>.<\/p>\n<p>[22] Wikipedia contributors. (2025, November 24). Kernel method. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Kernel_method&amp;oldid=1323912764\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Kernel_method&oldid=1323912764<\/a>.<\/p>\n<p>[23] Wikipedia contributors. (2026, April 19). Support vector machine. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Support_vector_machine&amp;oldid=1350010737\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Support_vector_machine&oldid=1350010737<\/a>.<\/p>\n<p>[24] Wikipedia contributors. (2026, May 23). Cluster analysis. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:00, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Cluster_analysis&amp;oldid=1355672094\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Cluster_analysis&oldid=1355672094<\/a>.<\/p>\n<p>[25] Wikipedia contributors. (2026, April 8). Regression analysis. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Regression_analysis&amp;oldid=1347668389\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Regression_analysis&oldid=1347668389<\/a>.<\/p>\n<p>[26] Wikipedia contributors. (2026, May 22). Quantum mechanics. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Quantum_mechanics&amp;oldid=1355584024\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Quantum_mechanics&oldid=1355584024<\/a>.<\/p>\n<p>[27] Wikipedia contributors. (2026, May 20). Uncertainty principle. In _Wikipedia, The Free Encyclopedia_. Retrieved 12:01, May 24, 2026, from <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Uncertainty_principle&amp;oldid=1355179215\" target=\"_blank\" rel=\"nofollow noopener\">https:\/\/en.wikipedia.org\/w\/index.php?title=Uncertainty_principle&oldid=1355179215<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"Vom Punktprodukt zum Innenproduktraum: Die vereinheitlichte Sprache hinter linearer Algebra, Signalverarbeitung und KI (From Dot Product to Inner Product Space: The Unified Language Behind Linear Algebra, Signals, and AI)\r\n\r\nZusammenfassung (Abstract)\r\n\r\nDas **Innenprodukt(Inner Product)** ist eine fundamentale algebraische Struktur, die sich durch lineare Algebra, Funktionalanalysis, Signalverarbeitung, maschinelles Lernen und Quantenmechanik zieht. Diese Arbeit behandelt das Innenprodukt als einziges Thema, beginnend mit dem Punktprodukt(Dot Product) im endlichdimensionalen euklidischen Raum, und f\u00fchrt nacheinander die Axiome des Innenproduktraums, die orthogonale Zerlegung(Orthogonal Decomposition), die Kleinste-Quadrate-Projektion(Least-Squares Projection), den Hilbertraum(Hilbert S...","protected":false},"author":1,"featured_media":415,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"emotion":"","emotion_color":"","title_style":"","license":"","footnotes":""},"categories":[22,89],"tags":[],"class_list":["post-597","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-artikel","category-lineare-algebra"],"_links":{"self":[{"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/posts\/597","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/comments?post=597"}],"version-history":[{"count":2,"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/posts\/597\/revisions"}],"predecessor-version":[{"id":603,"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/posts\/597\/revisions\/603"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/media\/415"}],"wp:attachment":[{"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/media?parent=597"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/categories?post=597"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wuhanqing.cn\/wordpress\/wp-json\/wp\/v2\/tags?post=597"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}