對稱矩陣是沿對角線對稱的矩陣。它是一個自伴運算元(self-adjoint operator)(
把矩陣看作是一個運算元並研究其性質確實是一件大事
)。雖然我們不能直接從對稱性中讀出幾何屬性,但我們可以從對稱矩陣的特徵向量中找到最直觀的解釋,這將使我們對對稱矩陣有更深入的瞭解。
常見的例子是單位矩陣。一個重要的例子是:
對稱矩陣的一個例子
然而,雖然定義簡單如斯,但卻意義非凡。在這篇文章中,我們將看一看它們的重要屬性,直觀地解釋它們,並介紹其應用。
厄米特矩陣(The Hermitian matrix)是對稱矩陣的
復擴充套件
,這意味著在厄米特矩陣中,所有元素都滿足:
厄米特矩陣的共軛轉置與自身相同。因此,它具有對稱矩陣所具有的所有性質。
厄米特矩陣的一個例子
在這篇文章中,我主要討論的是實數情況,即對稱矩陣,以使分析變得簡單一些,同時在資料科學中,我們遇到的也大都是實矩陣,因為我們要處理現實世界的問題。
對稱矩陣的最重要的性質
本節將介紹對稱矩陣的三個最重要的性質。它們涉及這些矩陣的
特徵值
和
特徵向量
的行為,
這是區別對稱矩陣和非對稱矩陣的基本特徵
。
性質1. 對稱矩陣有實數特徵值
這可以很容易地用代數法證明(正式的、直接的證明,而不是歸納法、矛盾法等)。首先,快速回顧一下特徵值和特徵向量。
矩陣A的特徵向量是,在A作用於它之後,方向不變的向量。方向沒有改變,但向量大小可以改變。
實數特徵值給我們提供了線性變換中的拉伸或縮放資訊,不像複數特徵值,它沒有 “大小”。
向量被縮放的比例是特徵值,我們用λ表示。因此我們有:
式1。1
證明是相當容易的,但有一些重要的線性代數知識,所以我們還是要一步一步地來。
1。1透過x的共軛轉置xᴴ得到:
式1。2
需要注意的是,λ是一個標量,這意味著涉及λ的乘法是可交換的。因此,我們可以把它移到xᴴ(x的轉置,上標H可能不顯示)的左邊:
式1。3
xᴴx是一個
歐幾里得範數
( Euclidean norm),其定義如下:
公式1。4
在二維歐幾里得空間中,它是一個座標為(x_1,。。。,x_n)的向量的長度。然後我們可以把公式1。3寫成:
公式1。5
由於共軛轉置(運算元H)與普通轉置(運算元T)的原理相同,我們可以利用xᴴA=(Ax)ᴴ的特性。
公式1。6
(Ax)ᴴ等於什麼?這裡我們將再次使用Ax = λx的關係,但這次(Ax)ᴴ將留給λ的複共軛,在λ上加一橫表示共軛。
式1。7
我們在式1。3中見過xᴴx,代歐幾里得範數後得到:
式1。8
這導致了λ和它的複共軛相等:
式1。9
只有在一種情況下,式1。9才有效,即λ是實數。這樣一來,我們就完成了證明。
性質2. 特徵值所對應的特徵向量是正交的
這個證明也是一個直接的形式證明,但很簡單。首先我們需要清楚目標,即:
式1。10
考慮一個對稱矩陣A,x_1和x_2是A的特徵向量,對應於不同的特徵向量(我們需要這個條件的原因將在稍後解釋)。根據特徵值和對稱矩陣的定義,我們可以得到以下公式:
式1。11和式1。12
現在我們需要證明式1。10。讓我們試著把x_1和x_2放在一起-。在左邊用 (Ax₁)ᵀ乘以x₁ᵀ:
式1。13
在式1。13中,除了對稱矩陣的特性外,還用到了另外兩個事實。
矩陣乘法符合結合律(可以用結合律運算)
矩陣-標量乘法是可交換的(可以自由移動標量)。
然後,由於點積是可交換的,這意味著x₁ᵀx₂和x₂ᵀx₁是等價的,所以我們有:
式1。14
其中x_1∙x_2表示點積。如果λ_1≠λ_,那麼x_1∙x_1=0,這意味著這兩個特徵向量是正交的。如果λ_1 = λ_2,則有兩個不同的特徵向量對應於同一個特徵值。由於特徵向量在(A-λI)的
零空間
(表示為N(A-λI)),當一個特徵向量對應於多個特徵向量時,N(A-λI)的維數大於1。在這種情況下,
我們對這些特徵向量有無限多的選擇,我們總是可以選擇它們是正交的。
顯然,有些情況下,實數矩陣有複數特徵值。這發生在旋轉矩陣上。為什麼會這樣呢?假設Q是一個旋轉矩陣。我們知道,特徵向量在被Q作用後不會改變方向。但如果Q是一個旋轉矩陣,如果x是一個非零向量,
x怎麼可能不改變方向呢?結論是,特徵向量必須是複數(好好想一想吧)。
二維空間中的旋轉矩陣R(θ)如下所示:
旋轉矩陣
R(θ)將一個向量逆時針旋轉一個角度θ,它是一個具有複數特徵值和特徵向量的實矩陣。
性質3. 對稱矩陣總是可對角化的(譜定理)
這也與對稱矩陣的其他兩個特性有關。這個定理的名字可能讓人困惑。事實上,一個矩陣的所有特徵值的集合被稱為
譜( spectrum)
。另外,我們可以這樣想。
特徵值-特徵向量對
告訴我們,在給定的線性變換之後,一個向量在哪個方向上被扭曲。
如下圖所示,經過變換後,在v_1的方向上,圖形被拉伸了很多,但在v_2的方向上卻沒有很大的拉伸。
一個可對角線化的矩陣意味著存在一個對角線矩陣D(對角線以外的所有元素都是零),使得
P-¹AP=D
,其中P是一個可逆矩陣。我們也可以說,如果一個矩陣可以寫成
A=PDP-¹
的形式,那麼該矩陣就是可對角的。
分解通常不是唯一的,但只有D中對角線上的元素的排列和P中特徵向量的標量乘法才是唯一的。另外我們需要注意的是,無論矩陣是否對稱,
對角線化都等同於找到特徵向量和特徵值。然而,對於非對稱矩陣,D不一定是正交矩陣。
這兩個定義是等價的,但可以有不同的解釋(這種分解使得求矩陣的冪非常方便)。第二個定義,
A=PDP-¹
,告訴我們A如何被分解,與此同時,第一個定義,
P-¹AP=D
,是告訴我們A可以被對角化。它告訴我們,有可能將標準基(由單位矩陣給出)與特徵向量對齊(align)。這是由特徵向量的正交性決定的,這在性質2中顯示。
這個 “將標準基與特徵向量對齊 ”聽起來非常抽象。我們需要思考這個問題:矩陣變換對單位基做了什麼?
由基α = 組成的矩陣將一個向量
x
從標準基變換到由基α構成的座標系,我們用Aα表示這個矩陣。因此,在對角化的過程中(P-¹AP=D),P將一個向量從標準基送入特徵向量,A對其進行縮放,然後P⁻¹將該向量送回標準基。從向量的角度來看,座標系與標準基對齊。
這種對齊方式如圖1。16所示,本例中使用的矩陣為:
式1。17
其中V是一個列向量長度為1的矩陣,每一個都對應於對角線矩陣中的特徵值。至於計算,我們可以讓Matlab中的
eig
來完成。
這個性質直接遵循
譜定理( spectral theorem):
如果A是厄米特矩陣,存在一個由A的特徵向量組成的V的正態基,每個特徵向量都是實數。
該定理直接指出了將一個對稱矩陣對角化的方法。為了直接證明這個性質,我們可以使用矩陣大小(維度)的歸納法。。
正定性
這些性質什麼時候有用?甚至在正式研究矩陣之前,它們已經被用於解決線性方程組很長時間了。把矩陣看成是運運算元,線性方程的資訊就儲存在這些運運算元中,矩陣可以用來研究函式的行為。
除了對稱性之外,矩陣還可以有一個更好的性質就是
正定性
。如果一個對稱矩陣是正定的,它的所有特徵值都是正的。如果它的所有特徵值都是非負的,那麼它就是一個半正定矩陣。對於一個正定矩陣,很明顯要求它是對稱的,因為性質1,因為只有當一個數字是實數時,問它是正數還是負數或有多大才有意義。
特徵值、特徵向量和函式行為
這方面的一個很好的應用是
海賽矩陣(Hessian matrix)
,我們將以此為例來證明使用矩陣來分析函式行為。當我們試圖找到一個區域性極值時,發現海賽矩陣是正定的將非常有用。海賽矩陣是一個由實數函式的二階偏微分組成的矩陣。形式上,海賽矩陣被定義為:
我們稱H(x)為f的海賽矩陣,它是一個n乘n的矩陣。它與以下內容相同:
這對函式的行為有什麼影響?我們來看看一個超級簡單的例子。考慮一下函式:
海賽矩陣的計算方法如下:
式2。3
由於它是一個對角矩陣,並且
跡
(對角線上的元素之和)等於特徵向量之和,我們可以立即看到其中一個特徵值是2,另一個是-2。 它們對應於特徵向量v₁ = [1, 0]ᵀ和v₂ = [0, 1]ᵀ。這個矩陣是對稱的,但不是正定的。因此,在整個ℝ²上沒有區域性極值,我們只能在x=0,y=0點上找到一個鞍點。這意味著在特徵值為正的v_1方向上,函式增加,而在特徵值為負的v_2方向上,函式減少。該函式的影象如下所示:
現在我們改變符號,將函式改為:
特徵向量保持不變,但所有的特徵向量都變成了正數。這意味著,在v_1的方向和v_2的方向上,函式都在增長。因此,可以找到區域性最小值在x=0,y=0處,f(x,y)=0,這也是全域性最小值。該圖為:
總結
矩陣在許多領域都有廣泛的應用。在處理矩陣時,經常會遇到正定義性、特徵向量、特徵值、對稱矩陣等概念。在這篇文章中,介紹了對稱(厄米特)矩陣的三個最重要的性質,它們與矩陣的特徵向量和特徵值有關。
這些性質是以幾何學方式解釋的,但也包括一些代數證明。
最後,介紹了一個使用矩陣來分析函式行為的例子。