把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

對稱矩陣是沿對角線對稱的矩陣。它是一個自伴運算元(self-adjoint operator)(

把矩陣看作是一個運算元並研究其性質確實是一件大事

)。雖然我們不能直接從對稱性中讀出幾何屬性,但我們可以從對稱矩陣的特徵向量中找到最直觀的解釋,這將使我們對對稱矩陣有更深入的瞭解。

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

常見的例子是單位矩陣。一個重要的例子是:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

對稱矩陣的一個例子

然而,雖然定義簡單如斯,但卻意義非凡。在這篇文章中,我們將看一看它們的重要屬性,直觀地解釋它們,並介紹其應用。

厄米特矩陣(The Hermitian matrix)是對稱矩陣的

復擴充套件

,這意味著在厄米特矩陣中,所有元素都滿足:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

厄米特矩陣的共軛轉置與自身相同。因此,它具有對稱矩陣所具有的所有性質。

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

厄米特矩陣的一個例子

在這篇文章中,我主要討論的是實數情況,即對稱矩陣,以使分析變得簡單一些,同時在資料科學中,我們遇到的也大都是實矩陣,因為我們要處理現實世界的問題。

對稱矩陣的最重要的性質

本節將介紹對稱矩陣的三個最重要的性質。它們涉及這些矩陣的

特徵值

特徵向量

的行為,

這是區別對稱矩陣和非對稱矩陣的基本特徵

性質1. 對稱矩陣有實數特徵值

這可以很容易地用代數法證明(正式的、直接的證明,而不是歸納法、矛盾法等)。首先,快速回顧一下特徵值和特徵向量。

矩陣A的特徵向量是,在A作用於它之後,方向不變的向量。方向沒有改變,但向量大小可以改變。

實數特徵值給我們提供了線性變換中的拉伸或縮放資訊,不像複數特徵值,它沒有 “大小”。

向量被縮放的比例是特徵值,我們用λ表示。因此我們有:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。1

證明是相當容易的,但有一些重要的線性代數知識,所以我們還是要一步一步地來。

1。1透過x的共軛轉置xᴴ得到:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。2

需要注意的是,λ是一個標量,這意味著涉及λ的乘法是可交換的。因此,我們可以把它移到xᴴ(x的轉置,上標H可能不顯示)的左邊:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。3

xᴴx是一個

歐幾里得範數

( Euclidean norm),其定義如下:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

公式1。4

在二維歐幾里得空間中,它是一個座標為(x_1,。。。,x_n)的向量的長度。然後我們可以把公式1。3寫成:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

公式1。5

由於共軛轉置(運算元H)與普通轉置(運算元T)的原理相同,我們可以利用xᴴA=(Ax)ᴴ的特性。

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

公式1。6

(Ax)ᴴ等於什麼?這裡我們將再次使用Ax = λx的關係,但這次(Ax)ᴴ將留給λ的複共軛,在λ上加一橫表示共軛。

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。7

我們在式1。3中見過xᴴx,代歐幾里得範數後得到:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。8

這導致了λ和它的複共軛相等:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。9

只有在一種情況下,式1。9才有效,即λ是實數。這樣一來,我們就完成了證明。

性質2. 特徵值所對應的特徵向量是正交的

這個證明也是一個直接的形式證明,但很簡單。首先我們需要清楚目標,即:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。10

考慮一個對稱矩陣A,x_1和x_2是A的特徵向量,對應於不同的特徵向量(我們需要這個條件的原因將在稍後解釋)。根據特徵值和對稱矩陣的定義,我們可以得到以下公式:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。11和式1。12

現在我們需要證明式1。10。讓我們試著把x_1和x_2放在一起-。在左邊用 (Ax₁)ᵀ乘以x₁ᵀ:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。13

在式1。13中,除了對稱矩陣的特性外,還用到了另外兩個事實。

矩陣乘法符合結合律(可以用結合律運算)

矩陣-標量乘法是可交換的(可以自由移動標量)。

然後,由於點積是可交換的,這意味著x₁ᵀx₂和x₂ᵀx₁是等價的,所以我們有:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。14

其中x_1∙x_2表示點積。如果λ_1≠λ_,那麼x_1∙x_1=0,這意味著這兩個特徵向量是正交的。如果λ_1 = λ_2,則有兩個不同的特徵向量對應於同一個特徵值。由於特徵向量在(A-λI)的

零空間

(表示為N(A-λI)),當一個特徵向量對應於多個特徵向量時,N(A-λI)的維數大於1。在這種情況下,

我們對這些特徵向量有無限多的選擇,我們總是可以選擇它們是正交的。

顯然,有些情況下,實數矩陣有複數特徵值。這發生在旋轉矩陣上。為什麼會這樣呢?假設Q是一個旋轉矩陣。我們知道,特徵向量在被Q作用後不會改變方向。但如果Q是一個旋轉矩陣,如果x是一個非零向量,

x怎麼可能不改變方向呢?結論是,特徵向量必須是複數(好好想一想吧)。

二維空間中的旋轉矩陣R(θ)如下所示:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

旋轉矩陣

R(θ)將一個向量逆時針旋轉一個角度θ,它是一個具有複數特徵值和特徵向量的實矩陣。

性質3. 對稱矩陣總是可對角化的(譜定理)

這也與對稱矩陣的其他兩個特性有關。這個定理的名字可能讓人困惑。事實上,一個矩陣的所有特徵值的集合被稱為

譜( spectrum)

。另外,我們可以這樣想。

特徵值-特徵向量對

告訴我們,在給定的線性變換之後,一個向量在哪個方向上被扭曲。

如下圖所示,經過變換後,在v_1的方向上,圖形被拉伸了很多,但在v_2的方向上卻沒有很大的拉伸。

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

一個可對角線化的矩陣意味著存在一個對角線矩陣D(對角線以外的所有元素都是零),使得

P-¹AP=D

,其中P是一個可逆矩陣。我們也可以說,如果一個矩陣可以寫成

A=PDP-¹

的形式,那麼該矩陣就是可對角的。

分解通常不是唯一的,但只有D中對角線上的元素的排列和P中特徵向量的標量乘法才是唯一的。另外我們需要注意的是,無論矩陣是否對稱,

對角線化都等同於找到特徵向量和特徵值。然而,對於非對稱矩陣,D不一定是正交矩陣。

這兩個定義是等價的,但可以有不同的解釋(這種分解使得求矩陣的冪非常方便)。第二個定義,

A=PDP-¹

,告訴我們A如何被分解,與此同時,第一個定義,

P-¹AP=D

,是告訴我們A可以被對角化。它告訴我們,有可能將標準基(由單位矩陣給出)與特徵向量對齊(align)。這是由特徵向量的正交性決定的,這在性質2中顯示。

這個 “將標準基與特徵向量對齊 ”聽起來非常抽象。我們需要思考這個問題:矩陣變換對單位基做了什麼?

由基α = 組成的矩陣將一個向量

x

從標準基變換到由基α構成的座標系,我們用Aα表示這個矩陣。因此,在對角化的過程中(P-¹AP=D),P將一個向量從標準基送入特徵向量,A對其進行縮放,然後P⁻¹將該向量送回標準基。從向量的角度來看,座標系與標準基對齊。

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

這種對齊方式如圖1。16所示,本例中使用的矩陣為:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式1。17

其中V是一個列向量長度為1的矩陣,每一個都對應於對角線矩陣中的特徵值。至於計算,我們可以讓Matlab中的

eig

來完成。

這個性質直接遵循

譜定理( spectral theorem):

如果A是厄米特矩陣,存在一個由A的特徵向量組成的V的正態基,每個特徵向量都是實數。

該定理直接指出了將一個對稱矩陣對角化的方法。為了直接證明這個性質,我們可以使用矩陣大小(維度)的歸納法。。

正定性

這些性質什麼時候有用?甚至在正式研究矩陣之前,它們已經被用於解決線性方程組很長時間了。把矩陣看成是運運算元,線性方程的資訊就儲存在這些運運算元中,矩陣可以用來研究函式的行為。

除了對稱性之外,矩陣還可以有一個更好的性質就是

正定性

。如果一個對稱矩陣是正定的,它的所有特徵值都是正的。如果它的所有特徵值都是非負的,那麼它就是一個半正定矩陣。對於一個正定矩陣,很明顯要求它是對稱的,因為性質1,因為只有當一個數字是實數時,問它是正數還是負數或有多大才有意義。

特徵值、特徵向量和函式行為

這方面的一個很好的應用是

海賽矩陣(Hessian matrix)

,我們將以此為例來證明使用矩陣來分析函式行為。當我們試圖找到一個區域性極值時,發現海賽矩陣是正定的將非常有用。海賽矩陣是一個由實數函式的二階偏微分組成的矩陣。形式上,海賽矩陣被定義為:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

我們稱H(x)為f的海賽矩陣,它是一個n乘n的矩陣。它與以下內容相同:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

這對函式的行為有什麼影響?我們來看看一個超級簡單的例子。考慮一下函式:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

海賽矩陣的計算方法如下:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

式2。3

由於它是一個對角矩陣,並且

(對角線上的元素之和)等於特徵向量之和,我們可以立即看到其中一個特徵值是2,另一個是-2。 它們對應於特徵向量v₁ = [1, 0]ᵀ和v₂ = [0, 1]ᵀ。這個矩陣是對稱的,但不是正定的。因此,在整個ℝ²上沒有區域性極值,我們只能在x=0,y=0點上找到一個鞍點。這意味著在特徵值為正的v_1方向上,函式增加,而在特徵值為負的v_2方向上,函式減少。該函式的影象如下所示:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

現在我們改變符號,將函式改為:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

特徵向量保持不變,但所有的特徵向量都變成了正數。這意味著,在v_1的方向和v_2的方向上,函式都在增長。因此,可以找到區域性最小值在x=0,y=0處,f(x,y)=0,這也是全域性最小值。該圖為:

把矩陣看作一個運算元—從幾何角度解釋對稱矩陣的三個最重要性質

總結

矩陣在許多領域都有廣泛的應用。在處理矩陣時,經常會遇到正定義性、特徵向量、特徵值、對稱矩陣等概念。在這篇文章中,介紹了對稱(厄米特)矩陣的三個最重要的性質,它們與矩陣的特徵向量和特徵值有關。

這些性質是以幾何學方式解釋的,但也包括一些代數證明。

最後,介紹了一個使用矩陣來分析函式行為的例子。