基於多模態資料來源構建低維引數化三維人臉表示模型，的盧深視聯合中科大出品

AI科技評論報道

編輯 | 陳大鑫

隨著人臉識別技術的廣泛落地，為了提高識別的準確率，針對人臉重建的技術也在不斷迭代升級，重建精度越來越高。

然而，透過目前普通的低維引數化模型雖然降低了建模的難度，但是構建低維引數化模型的方法不具有普適性，而針對不同人種進行模型訓練又要耗費極大的精力和成本。

基於此，本文介紹

的盧深視

聯合

中國科技大學

的研究者們共同提出的一種基於多種不同資料來源來構建低維引數化三維人臉表示模型的方法。相比已有的引數化模型，可以得到更高精度的人臉幾何形狀。

目前該論文發表於影象處理領域頂級期刊IEEE Transactions On ImageProcessing（簡稱TIP）。

論文連結：https：//arxiv。org/pdf/1808。05323。pdf

現狀：普通低維引數化模型難以做到普適性

相較於剛性物體，人臉幾何細節相當複雜，因而要對眼睛、鼻子、嘴唇等進行高精度幾何細節建模，需要包含較多頂點的網格模型。然而，越多的頂點就會導致建模難度越大，例如五千個頂點就包含了一萬五千個自由度。

為了降低難度，通常採用的方法是提取採集好的三維人臉幾何形狀資料集主成分，建立三維人臉幾何形狀的低維引數化模型，將一萬多個自由度降低到了一百多個。給定任意三維人臉形狀，即可透過這個低維引數化模型的一百多個係數逼近，進行建模，極大地降低了幾何建模的難度。

目前，大多數三維人臉建模方法都基於類似的低維引數化模型，構建此低維引數化模型的方法將直接影響後續的幾何建模精度。

例如，基於歐美三維人臉資料庫構建的低維引數化模型就不太適用於東亞人臉。構建適合於中國人的低維引數化三維人臉模型，最直接的方式是採集不同性別、年齡、民族等的一百個人的面部資訊，並採用高精度掃描器得到每個人的每個表情的高精度幾何模型。但是該方式所需要投入的精力與成本較高。

這就引出文章關注的問題：

如何針對應用快速構建一個合適的低維引數化三維人臉模型。

解決辦法：基於多模態資料來源構建低維引數化模型

為了解決以上問題，的盧深視與中國科學技術大學的研究者們共同提出一種基於多種不同資料來源來構建低維引數化三維人臉表示模型的方法。

具體來說，透過採集到的少量高精度三維人臉幾何形狀，用iPhone X採集到的多人、任意表情的RGB-D序列，以及大量公開的彩色影象一起作為輸入物件。

以已有的低維引數化模型為基礎，採用神經網路方法對已有模型進行最佳化，以更好地擬合所輸入的掃描資料、RGB-D資料、彩色資料。

將該模型訓練好之後，再給定測試圖片。

影片演示

可以看出，相比已有的引數化模型，採用本文方法所訓練得到的模型可以更好地擬合，因而得到更高精度的人臉幾何形狀。

具體演算法流程如下：

圖1：論文提出的方法流程示意圖

透過這一方法，我們所訓練得到的模型可以支援圖片、RGB-D影象，以及掃描模型作為輸入，都可以得到較好的重建結果。

圖2：圖片、RGB-D影象，以及掃描模型作為輸入的重建結果

不僅如此，採用本文所訓練得到的方法，相比已有的引數化模型來說，重建精度更高，以下為幾種輸入方式的重建結果對比。

圖3：基於RGB-D輸入的重建結果對比

圖4：基於人臉資料庫圖片輸入的重建結果對比

圖5：基於RGB方法的重建結果對比

可以看出，透過該方法可以提升低維引數化模型構建精度，相較於原有低維引數化模型，多模態資料輸入都可得到重建精度更高的結果。

更多方法細節可以閱讀原論文。

基於多種不同資料來源來構建低維引數化三維人臉表示模型的方法所輸出的更高精度三維重建結果，勢必會提升三維機器視覺技術迭代、技術應用落地的效率，真正迎來三維視覺世界。

目前，三維機器視覺主要應用在邊檢安防等高安全等級需求的場景，而隨著三維技術的提升，高安全性、高準確性、高性價比等優勢，將革新現有的人機互動體驗。且伴隨著5G、新基建的不斷深入，更多利民場景下三維視覺技術也將大展拳腳，讓人工智慧實現真正的普惠。

由於微信公眾號試行亂序推送，您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道，請將“AI科技評論”設為星標賬號，以及常點文末右下角的“在看”。

別眨眼網