SSHFD:IBM提出的單階段人體跌倒檢測網路

重磅乾貨,第一時間送達

這篇文章是由IBM研究院發表的有關於老人跌倒識別的文章。整體網路比較複雜,程式碼也沒有開源,就不精讀了,水一水瞭解個大概就行了吧。

論文地址:

http://xxx.itp.ac.cn/pdf/2004.00797v2

跌倒可能會對老年人造成致命的後果,尤其是當跌倒的人由於意識喪失或受到其他傷害而無法尋求幫助時。自動跌倒檢測系統可透過迅速的跌倒警報來提供幫助,並最大程度地減少家中老人獨自在家中摔倒時的恐懼感。由於場景變化,不同的攝像機視角不同,遮擋和背景雜亂之類的挑戰,現有的基於視覺的跌倒檢測系統缺乏對未知環境的通用性。在本文中,探索了克服上述挑戰的方法,並提出了

一種Single Shot 人體跌倒檢測器(SSHFD)

,這是一種基於深度學習的框架,可從單個影象中進行自動跌倒檢測。這是主要是透過兩項關鍵創新來實現的:首先,

提出了基於人類姿勢的跌倒表示法,該跌倒表示法不影響外觀特徵;

其次,提出了

用於3d姿勢估計和跌倒識別的神經網路模型

,這些模型可以克服被身體部位遮擋的人體關節,從而完成更準確的估計與識別。在公開的跌倒資料集上進行的實驗表明,本文的框架成功地將從合成數據中學到的3d姿態估計和跌倒識別知識遷移到了真實世界資料中,展示了其在真實場景中準確檢測跌倒的綜合能力。

簡介

對於獨居在家的老人來說,跌倒是最關鍵的危險之一,可能會造成嚴重的傷害,並且因為害怕再次跌倒而限制了正常的活動。自動跌倒檢測系統可以在危險的情況下及時發出警報,還可以自動收集和報告跌倒事件,用於分析跌倒的原因,從而提高行動不便和受人監護的人的生活質量。

基於視覺的系統為跌倒檢測提供了低成本的解決方案。它們不會對人體健康造成感官上的副作用,也不會像使用可穿戴裝置的系統那樣影響老年人的日常活動。在典型的跌倒檢測方法中,從視覺資料中檢測出人的行為,並學習特徵來區分跌倒和其他活動。現有的方法大多利用從影片資料中提取的基於物理外觀的特徵來表示跌倒。然而,基於外觀的特徵在實際環境中的泛化性較差,因為外觀特徵的變化較大,不同的攝像機視角不同並且背景雜亂。此外,由於大規模公共跌倒資料集的不可用性,大多數現有的跌倒檢測器都是使用模擬環境或使用受限資料集(由於隱私問題不能公開共享)進行訓練和評估的。因此,

這些方法並沒有表現出在未見過的真實世界環境中進行跌倒檢測的泛化能力。

在本文中,探索了克服上述挑戰的方法,並提出了一個深度學習框架,稱為 “Single Shot Human Fall Detector(SSHFD)”,用於在未知的真實世界環境中進行精確的跌倒檢測。本文的主要貢獻如下。

1、提出一種基於人體姿態的跌倒表示法,該表示法與場景中人物的外觀特徵、背景、光照條件和空間位置無關。實驗表明,在基於2D姿態和3D姿態的跌倒表示上訓練的神經網路模型能夠成功地推廣到了未知的現實環境中進行跌倒識別。

2、提出了3D姿態估計和跌倒識別的神經網路模型,該模型對部分遮擋具有魯棒性。實驗表明,本文的模型成功地從被遮擋的身體部位恢復了關節資訊,並從不完整的輸入資料中準確識別了跌倒姿態。

3、在公開的跌倒資料集上評估了本文的演算法模型,其中證明了僅使用合成數據進行訓練時,本文的框架顯示了對未知的真實世界資料的跌倒識別的出色泛化能力。

與現有的方法相比,本文的工作不同之處在於:首先,本文的框架

學習的是基於姿態的跌倒特徵,對外觀特徵是不變的。

這使得框架能夠成功地將從純合成數據中學習到的跌倒識別知識轉移到具有未知背景和不同人類角色的真實世界資料中。本文的框架

結合了2D和3D姿態知識,使得框架能夠成功地處理2D姿態的模糊性

(在不同的攝像機視角下),而不需要多個攝像機設定或深度感測器技術。最後,

3D姿態估計和跌倒識別的神經網路模型對姿態資料中的缺失資訊具有彈性

。這使得框架能夠準確地從人的姿勢中分辨出跌倒和不跌倒的情況。

本文方法:SSHFD

SSHFD:IBM提出的單階段人體跌倒檢測網路

圖1:Single Shot Human Fall Detector(SSHFD)概述。給定場景的單個RGB影象(A),SSHFD生成 human proposals(B),將其輸入到堆疊的 Hourglass網路(C)中以進行2D姿態預測。接下來,將預測的2D姿態(D)送入神經網路(E)進行3D姿態預測(F)。最後,將2D姿態和3D姿態資訊輸入到神經網路(G)中以進行跌倒識別(H)。我們的模型集成了“Occluded Joints Resilience ”(OJR)模組,這些模組使模型對於姿勢資料中丟失的資訊具有魯棒性。

1、The Proposed Fall Representation

本文的跌倒表示是

基於二維影象空間和三維笛卡爾空間

的關節位置。透過將關節估計值(在場景影象中預測)轉換為224×224尺寸的固定參考影象來歸一化二維姿勢,如圖1-D所示。然後將歸一化後的2D姿態用於預測笛卡爾空間中的關節位置,如圖1-F所示。三維預測相對於髖關節進行歸一化處理。

2、The Proposed 2d Pose Estimation (Fig. 1)

2D姿態估算器由兩個主要模組組成:i)

human detector

,它從輸入影象生成人體候選邊界框(human  bounding  box  proposals);ii)

堆疊的沙漏(SH,Stacked Hourglas)網路

,它預測2D人體關節的位置,以及他們相應的置信度分數。

3、The Proposed 3D Pose Estimation (Fig. 1-E)

損失函式為:

其中L3d代表MSE損失。圖1-E顯示了基於《A simple yet effective baseline for 3d human pose estimation》架構的3d姿態估計模型“ 3d PoseNet”的結構。它以將2維姿態轉換為1024維特徵的線性全連線層開始。接下來,有五個線性層f1-f5,每個層具有4096維,然後是批處理歸一化BN層,一個ReLU啟用函式單元和一個drop-out模組。最後一個層3D線性全連線層產生3K維輸出。網路中定義了兩個殘差連線,這些殘差連線將較低層的資訊組合到較高層,並提高了模型的泛化效能。

4、 The Proposed Fall Recognition (Fig. 1-G)

SSHFD:IBM提出的單階段人體跌倒檢測網路

交叉熵損失函式:

The Proposed Occluded Joints Resilience(OJR)

訓練在RGB影象上的姿勢估計器不可避免地會因影象不完美、遮擋、背景雜亂和不正確的標籤值等因素而導致關節預測錯誤,由於網路模型中三維姿態網路和FallNet模型依賴於SH網路的輸出,二維姿勢預測的錯誤會影響三維姿勢估計和跌倒識別的質量。為了克服這一挑戰,提出了一種名為 “Occluded Joints Resilience(OJR) ”的方法,該方法增加了模型對姿勢資料不完整資訊的魯棒性。為了實現這一目標,OJR方法建立了一個遮擋影象Mi,並使用它將原始姿態資料轉化為遮擋姿態資料。

其中Ji =(xi,yi)表示身體關節的二進位制變數,也就是第k個關節的可見性。在訓練過程中,OJR方法會生成豐富的獨特的遮擋影象庫,這些影象會因訓練樣本而異,從而提高了網路對各種被遮擋情況的適應性。

實驗與結果

SSHFD:IBM提出的單階段人體跌倒檢測網路

SSHFD:IBM提出的單階段人體跌倒檢測網路

SSHFD:IBM提出的單階段人體跌倒檢測網路

更多細節可參考論文原文。

下載1:OpenCV-Contrib擴充套件模組中文版教程

下載2:Python視覺實戰專案52講

下載3:OpenCV實戰專案20講

交流群