機器學習中的資料級聯

機器學習中的資料級聯

機器學習中的資料級聯

釋出人:Google Research 研究員 Nithya Sambasivan

資料是機器學習 (ML) 的基本要素,會影響機器學習系統的效能、公平性、穩健性和可擴充套件性。矛盾的是,構建機器學習模型的工作通常是優先順序較高的,但與資料本身相關的工作卻通常是優先順序最低的。資料方面的工作可能需要多個角色(例如資料收集者、標註者以及機器學習開發者)且通常需要多個團隊(例如資料庫、法務或授權團隊),才能為資料基礎架構提供支援,這就會增加所有資料相關專案的複雜性。因此,注重實現技術對人們實用性和可用性的人機互動 (Human-Computer Interaction,HCI) 領域,可在與資料相關的工作未得到優先處理時,對確定潛在問題以及評估對模型的影響兩方面提供幫助。

在 2021 年發表於 ACM CHI 會議的論文

《所有人都想從事模型工作而非資料工作:高風險 AI 中的資料級聯》

(Everyone wants to do the model work, not the data work: Data Cascades in High-Stakes AI)

中,我們研究並驗證了會隨時間推移導致技術負債的資料問題所產生的下游影響(定義為“資料級聯,Data Cascades”)。具體而言,我們透過全球機器學習各重要領域(例如癌症檢測、山體滑坡檢測、信貸分配)內的機器學習從業者在資料方面的實踐和麵臨的挑戰,闡釋了資料級聯現象;機器學習不僅推動了這些領域的進步,還有機會透過解決資料級聯方面的問題來改進這些領域。在我們所知的工作中,這項工作率先對適用於實際專案的機器學習中的資料級聯進行了規範、測量和探討。我們還進一步探討了,如果大家轉變觀念,將機器學習資料視為高優先順序工作,能夠帶來什麼機遇,如為機器學習資料工作和相關工作者提供獎勵、認可機器學習資料研究中的科學經驗論、擴大資料流水線的公開範圍以及改進全球的資料平等性。

所有人都想從事模型工作而非資料工作:高風險 AI 中的資料級聯

https://research。google/pubs/pub49953/

機器學習中的資料級聯

機器學習中的資料級聯

資料級聯的起源

我們觀察到,資料級聯通常源自機器學習系統生命週期早期的資料定義和收集階段。此外,在診斷和表現形式方面,級聯通常具有複雜性和不透明性,因此往往沒有明確的指標、工具或度量單位來檢測和測量這種現象帶來的影響。正因如此,與資料相關的小障礙可能會演變為更大的問題,甚至成為更復雜的挑戰,從而對模型的開發和部署方式造成影響。資料級聯帶來的挑戰包括:工作者需要在開發流程末期執行成本高昂的系統級變更,或者資料問題會導致模型錯誤預測,進而造成使用者信任度降低。但令人欣慰的是,我們發現可以透過在機器學習開發流程的早期中進行干預來避免此類資料級聯。

機器學習中的資料級聯

不同顏色的箭頭表示不同型別的資料級聯,它們通常在上游產生,在機器學習開發流程中混合,再在下游顯現

機器學習中的資料級聯

機器學習中的資料級聯

資料級聯示例

將在無噪聲資料集中訓練的模型部署到通常較為嘈雜的實際環境中是造成資料級聯最為常見的一個原因。例如,模型

偏移

即為一種常見的資料級聯型別,這是一種常在目標變數與獨立變數產生偏離時出現的情況,並最終會導致模型準確性降低。在模型與新的數字環境(包括空氣質量檢測、海洋檢測、超聲掃描等高風險領域)緊密互動時,由於沒有預先存在的和(或)精心設計的資料集,所以常常會出現偏移。此類偏移可能會進一步帶來降低模型效能的多種因素(例如與硬體、環境和人類知識相關的因素)。例如,為了確保模型效能良好,工作者通常會在受控的內部環境中收集資料。但是,在資源受限的新數字環境的實時系統中,更常見的是收集到帶有指紋、陰影、灰塵、光照強度不一致和筆跡劃痕等的資料,這會影響模型效能。在其他情況下,風雨天氣等環境因素可能會意外地導致部署中的影象感測器偏移,繼而導致出現級聯。正如一位受訪模型開發者所言,即便是小小的一滴油或水都會影響可能用於訓練癌症檢測的資料,從而影響模型效能。偏移產生的原因往往是實際環境中的噪聲,所以這些偏移也需要較長時間(長達 2-3 年)才會顯現,而且幾乎總是顯現在生產階段。

當機器學習從業者在其專業知識較為有限的領域中執行資料管理任務時,便可能會產生另一種常見的資料級聯型別。例如在處理識別偷獵地點或者在收集水下探索資料這種型別的資料時,就需要憑藉生物科學、社會科學方面的專業知識,並結合周圍環境來處理。不過,我們研究中的部分開發者表示,當他們不得不採取一系列超出其領域專業知識(例如捨棄資料、更正相關值、合併資料或重啟資料收集)時,便會出現導致限制模型效能的資料級聯。透過依靠技術專業知識而非領域專業知識的做法(例如與資料相關的操作領域專家合作),似乎可抵消這些級聯。

此論文中觀察到的其他兩種級聯是資料收集者、機器學習開發者和其他合作伙伴之間相互衝突的激勵制度及整理做法造成的,例如其中一種級聯是由資料集文件記錄不佳所導致。儘管與資料相關的工作需要多個團隊之間仔細協調,但在各利益相關方在工作優先順序和工作流方面未達成一致的情況下,這項工作會變得非常困難。

機器學習中的資料級聯

機器學習中的資料級聯

如何應對資料級聯

應對資料級聯需要在機器學習研究和實踐中採用多方配合的系統性方法:

開發並溝通機器學習系統可採用的

資料的優度 (goodness)

概念,類似於我們對模型

擬合優度

的看法。這包括開發標準化指標,並經常使用這些指標來對資料各方面進行衡量,例如現象保真度(即資料準確、全面地表現出現象的程度)以及有效性(即資料對其所捕獲的現象相關因素的解釋程度),類似於我們開發用於衡量模型效能的良好指標(如 F1-scores)的方式。

創新激勵制度,以此來認可與資料相關的工作,例如在會議中鼓勵工作者發表與資料相關的經驗,對資料集維護工作進行獎勵,或對員工在企業中的資料相關工作(如資料收集、加標籤、清理或維護)進行獎勵。

資料工作通常需要在多個角色和團隊中進行協調,但目前協調非常受限(部分而非全部受限,其原因是上文所述因素)。我們的研究著眼於在資料收集者、領域專家和機器學習開發者之間促進更強的協作、更高的透明度和更公平的利益分配的價值,尤其是在依賴於收集或標記冷門資料集的機器學習系統中。

最後,我們跨多個國家/地區的研究表明,在收入越低的國家/地區,資料稀缺的情況越為明顯。在這些國家/地區,機器學習開發者還面臨定義和手動挑選新資料集等額外問題,使得連開始開發機器學習系統都成為難題。要應對當前全球資料不均衡 (inequality) 的問題,那麼建立開放式資料集資源庫、制定資料政策、培養政策制定者和民間社團在機器學習方面的能力就尤為重要。

機器學習中的資料級聯

機器學習中的資料級聯

結論

在此研究中,我們針對機器學習系統中的資料級聯提供了經驗證據,並正式提出這一概念。我們希望能讓相關工作者意識到對高質量資料進行激勵所帶來的潛在價值。我們也希望為 HCI 提出雖尚未全面探究,但十分重要的新研究議題。經過對資料級聯的研究,我們在面向機器學習開發者和設計師的修訂版《

PAIR 指導手冊

》中提出了適用於資料收集和評估的指南;這些指南均有證據支援,屬業內頂尖水平

PAIR 指導手冊

https://pair。withgoogle。com/guidebook/

機器學習中的資料級聯

機器學習中的資料級聯

致謝

本文由 Shivani Kapania、Hannah Highfill、Diana Akrong、Praveen Paritosh 和 Lora Aroyo 協作撰寫。衷心感謝我們的研究參與者以及 Sures Kumar Thoddu Srinivasan、Jose M。 Faleiro、Kristen Olson、Biswajeet Malik、Siddhant Agarwal、Manish Gupta、Aneidi Udo-Obong、Divy Thakkar、Di Dang 和 Solomon Awosupin。

轉載自:谷歌開發者原創文章