學習大資料必備的5大核心技術,你知道幾個?第二個我們都學過

“資料科學家走在通往無所不知的路上,走到盡頭才發現,自己一無所知。”-Will Cukierski,Head of Competitions & Data Scientist at Kaggle

由於大資料技術涉及內容太龐雜,大資料應用領域廣泛,而且各領域和方向採用的關鍵技術差異性也會較大,小編從大資料的核心技術來給大家做參謀。

首先,學習大資料要搞清楚的問題就是各核心技術之間是什麼樣的邏輯關係:

(1)機器學習(machine learning):機器學習是大資料處理承上啟下的關鍵技術,機器學習往上是深度學習、人工智慧,機器學習往下是資料探勘和統計學習。

(2)資料探勘(data mining),資料探勘可以說是機器學習的一個超集,是一個較為寬泛的概念,類似於採礦,要從大量礦石裡面挖出寶石,從海量資料裡面挖掘有價值有規律的資訊同理。

(3)人工智慧(artifical intelligence),AI和大資料是相互促進的關係,一方面,AI基礎理論技術的發展為大資料機器學習和資料探勘提供了更豐富的模型和演算法,如近幾年的深度學習一系列技術(強化學習、對抗學習等)和方法;另一方面,大資料為AI的發展提供了新的動力和燃料,資料規模大了之後,傳統機器學習演算法面臨挑戰,要做並行化、要加速要改進。

(4)其它大資料處理基礎技術,如下圖,大資料基礎技術包括計算機科學相關如程式設計、雲計算、分散式計算、系統架構設計等方向,還有機器學習的理論基礎、商業分析與理解、資料管理等技術。

學習大資料必備的5大核心技術,你知道幾個?第二個我們都學過

上圖是資料科學的5個技術維度,基本涵蓋了資料科學的關鍵支撐技術體系,從資料管理、計算機科學基礎理論技術、資料分析、商業理解決策與設計幾個方面進行了資料科學相關技術的梳理,其中計算機科學基礎理論方法與資料分析兩個板塊的學習內容是最多的,也是最重要的。