把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

對稱矩陣是沿對角線對稱的矩陣。它是一個自伴運算元（self-adjoint operator）（

把矩陣看作是一個運算元並研究其性質確實是一件大事

）。雖然我們不能直接從對稱性中讀出幾何屬性，但我們可以從對稱矩陣的特徵向量中找到最直觀的解釋，這將使我們對對稱矩陣有更深入的瞭解。

常見的例子是單位矩陣。一個重要的例子是：

對稱矩陣的一個例子

然而，雖然定義簡單如斯，但卻意義非凡。在這篇文章中，我們將看一看它們的重要屬性，直觀地解釋它們，並介紹其應用。

厄米特矩陣（The Hermitian matrix）是對稱矩陣的

復擴充套件

，這意味著在厄米特矩陣中，所有元素都滿足：

厄米特矩陣的共軛轉置與自身相同。因此，它具有對稱矩陣所具有的所有性質。

厄米特矩陣的一個例子

在這篇文章中，我主要討論的是實數情況，即對稱矩陣，以使分析變得簡單一些，同時在資料科學中，我們遇到的也大都是實矩陣，因為我們要處理現實世界的問題。

對稱矩陣的最重要的性質

本節將介紹對稱矩陣的三個最重要的性質。它們涉及這些矩陣的

特徵值

和

特徵向量

的行為，

這是區別對稱矩陣和非對稱矩陣的基本特徵

。

性質1. 對稱矩陣有實數特徵值

這可以很容易地用代數法證明（正式的、直接的證明，而不是歸納法、矛盾法等）。首先，快速回顧一下特徵值和特徵向量。

矩陣A的特徵向量是，在A作用於它之後，方向不變的向量。方向沒有改變，但向量大小可以改變。

實數特徵值給我們提供了線性變換中的拉伸或縮放資訊，不像複數特徵值，它沒有 “大小”。

向量被縮放的比例是特徵值，我們用λ表示。因此我們有：

式1。1

證明是相當容易的，但有一些重要的線性代數知識，所以我們還是要一步一步地來。

1。1透過x的共軛轉置xᴴ得到：

式1。2

需要注意的是，λ是一個標量，這意味著涉及λ的乘法是可交換的。因此，我們可以把它移到xᴴ（x的轉置，上標H可能不顯示）的左邊：

式1。3

xᴴx是一個

歐幾里得範數

（ Euclidean norm），其定義如下：

公式1。4

在二維歐幾里得空間中，它是一個座標為（x_1，。。。，x_n）的向量的長度。然後我們可以把公式1。3寫成：

公式1。5

由於共軛轉置（運算元H）與普通轉置（運算元T）的原理相同，我們可以利用xᴴA=（Ax）ᴴ的特性。

公式1。6

（Ax）ᴴ等於什麼？這裡我們將再次使用Ax = λx的關係，但這次（Ax）ᴴ將留給λ的複共軛，在λ上加一橫表示共軛。

式1。7

我們在式1。3中見過xᴴx，代歐幾里得範數後得到：

式1。8

這導致了λ和它的複共軛相等：

式1。9

只有在一種情況下，式1。9才有效，即λ是實數。這樣一來，我們就完成了證明。

性質2. 特徵值所對應的特徵向量是正交的

這個證明也是一個直接的形式證明，但很簡單。首先我們需要清楚目標，即：

式1。10

考慮一個對稱矩陣A，x_1和x_2是A的特徵向量，對應於不同的特徵向量（我們需要這個條件的原因將在稍後解釋）。根據特徵值和對稱矩陣的定義，我們可以得到以下公式：

式1。11和式1。12

現在我們需要證明式1。10。讓我們試著把x_1和x_2放在一起-。在左邊用（Ax₁）ᵀ乘以x₁ᵀ：

式1。13

在式1。13中，除了對稱矩陣的特性外，還用到了另外兩個事實。

矩陣乘法符合結合律（可以用結合律運算）

矩陣-標量乘法是可交換的（可以自由移動標量）。

然後，由於點積是可交換的，這意味著x₁ᵀx₂和x₂ᵀx₁是等價的，所以我們有：

式1。14

其中x_1∙x_2表示點積。如果λ_1≠λ_，那麼x_1∙x_1=0，這意味著這兩個特徵向量是正交的。如果λ_1 = λ_2，則有兩個不同的特徵向量對應於同一個特徵值。由於特徵向量在（A-λI）的

零空間

（表示為N（A-λI）），當一個特徵向量對應於多個特徵向量時，N（A-λI）的維數大於1。在這種情況下，

我們對這些特徵向量有無限多的選擇，我們總是可以選擇它們是正交的。

顯然，有些情況下，實數矩陣有複數特徵值。這發生在旋轉矩陣上。為什麼會這樣呢？假設Q是一個旋轉矩陣。我們知道，特徵向量在被Q作用後不會改變方向。但如果Q是一個旋轉矩陣，如果x是一個非零向量，

x怎麼可能不改變方向呢？結論是，特徵向量必須是複數（好好想一想吧）。

二維空間中的旋轉矩陣R（θ）如下所示：

旋轉矩陣

R（θ）將一個向量逆時針旋轉一個角度θ，它是一個具有複數特徵值和特徵向量的實矩陣。

性質3. 對稱矩陣總是可對角化的（譜定理）

這也與對稱矩陣的其他兩個特性有關。這個定理的名字可能讓人困惑。事實上，一個矩陣的所有特徵值的集合被稱為

譜（ spectrum）

。另外，我們可以這樣想。

特徵值-特徵向量對

告訴我們，在給定的線性變換之後，一個向量在哪個方向上被扭曲。

如下圖所示，經過變換後，在v_1的方向上，圖形被拉伸了很多，但在v_2的方向上卻沒有很大的拉伸。

一個可對角線化的矩陣意味著存在一個對角線矩陣D（對角線以外的所有元素都是零），使得

P-¹AP=D

，其中P是一個可逆矩陣。我們也可以說，如果一個矩陣可以寫成

A=PDP-¹

的形式，那麼該矩陣就是可對角的。

分解通常不是唯一的，但只有D中對角線上的元素的排列和P中特徵向量的標量乘法才是唯一的。另外我們需要注意的是，無論矩陣是否對稱，

對角線化都等同於找到特徵向量和特徵值。然而，對於非對稱矩陣，D不一定是正交矩陣。

這兩個定義是等價的，但可以有不同的解釋（這種分解使得求矩陣的冪非常方便）。第二個定義，

A=PDP-¹

，告訴我們A如何被分解，與此同時，第一個定義，

P-¹AP=D

，是告訴我們A可以被對角化。它告訴我們，有可能將標準基（由單位矩陣給出）與特徵向量對齊（align）。這是由特徵向量的正交性決定的，這在性質2中顯示。

這個 “將標準基與特徵向量對齊 ”聽起來非常抽象。我們需要思考這個問題：矩陣變換對單位基做了什麼？

由基α = 組成的矩陣將一個向量

從標準基變換到由基α構成的座標系，我們用Aα表示這個矩陣。因此，在對角化的過程中（P-¹AP=D），P將一個向量從標準基送入特徵向量，A對其進行縮放，然後P⁻¹將該向量送回標準基。從向量的角度來看，座標系與標準基對齊。

這種對齊方式如圖1。16所示，本例中使用的矩陣為：

式1。17

其中V是一個列向量長度為1的矩陣，每一個都對應於對角線矩陣中的特徵值。至於計算，我們可以讓Matlab中的

eig

來完成。

這個性質直接遵循

譜定理（ spectral theorem）：

如果A是厄米特矩陣，存在一個由A的特徵向量組成的V的正態基，每個特徵向量都是實數。

該定理直接指出了將一個對稱矩陣對角化的方法。為了直接證明這個性質，我們可以使用矩陣大小（維度）的歸納法。。

正定性

這些性質什麼時候有用？甚至在正式研究矩陣之前，它們已經被用於解決線性方程組很長時間了。把矩陣看成是運運算元，線性方程的資訊就儲存在這些運運算元中，矩陣可以用來研究函式的行為。

除了對稱性之外，矩陣還可以有一個更好的性質就是

正定性

。如果一個對稱矩陣是正定的，它的所有特徵值都是正的。如果它的所有特徵值都是非負的，那麼它就是一個半正定矩陣。對於一個正定矩陣，很明顯要求它是對稱的，因為性質1，因為只有當一個數字是實數時，問它是正數還是負數或有多大才有意義。

特徵值、特徵向量和函式行為

這方面的一個很好的應用是

海賽矩陣（Hessian matrix）

，我們將以此為例來證明使用矩陣來分析函式行為。當我們試圖找到一個區域性極值時，發現海賽矩陣是正定的將非常有用。海賽矩陣是一個由實數函式的二階偏微分組成的矩陣。形式上，海賽矩陣被定義為：

我們稱H（x）為f的海賽矩陣，它是一個n乘n的矩陣。它與以下內容相同：

這對函式的行為有什麼影響？我們來看看一個超級簡單的例子。考慮一下函式：

海賽矩陣的計算方法如下：

式2。3

由於它是一個對角矩陣，並且

跡

（對角線上的元素之和）等於特徵向量之和，我們可以立即看到其中一個特徵值是2，另一個是-2。它們對應於特徵向量v₁ = ［1， 0］ᵀ和v₂ = ［0， 1］ᵀ。這個矩陣是對稱的，但不是正定的。因此，在整個ℝ²上沒有區域性極值，我們只能在x=0，y=0點上找到一個鞍點。這意味著在特徵值為正的v_1方向上，函式增加，而在特徵值為負的v_2方向上，函式減少。該函式的影象如下所示：