大資料對於現有行業會有哪些影響?深入分析面向大資料的資料科學

資料科學是什麼?從事資料科學研究的學者試圖把資料當成一個“自然體(data nature)”來研究,提出所謂“

資料界(datauniverse)

“的概念(復旦大學)。

但脫離各個領域的“物理世界”,作為客觀事物間接存在形式的“資料界”究竟有什麼共性問題還不清楚。

大資料對於現有行業會有哪些影響?深入分析面向大資料的資料科學

有學者認為資料科學是介於哲學與自然科學之間的

超自然科學

(澳門大學趙偉)。

提煉“資料界”的共性科學問題還需要一段時間的實踐積累。至少未來5-10年內需要多花精力解決大資料帶來的技術挑戰問題。透過分層次的不斷抽象,

大資料的共性科學

問題才會逐步清晰明朗,先做白盒研究再做黑盒研究。

資料科學是數學(統計、代數、拓撲等)、計算機科學、基礎科學和各種應用科學融合的科學,類似錢學森先生提出的“大成智慧學”必集大成,才能得智慧。

大資料對於現有行業會有哪些影響?深入分析面向大資料的資料科學

那麼發展大資料的驅動力是什麼呢?

1 促進經濟發展

大資料成為熱潮的主要推動力來自網路服務公司。各地政府做大資料規劃的主要指標是增加多少GDP。

但大資料如同蜜蜂一樣,其主要價值是傳播花粉,自己產生的蜂蜜的價值並不大。

狹義的大資料產業2013年只有186億美元產值(Wikibon),但廣義的大資料產業幾乎覆蓋所有產業,麥肯錫公司預測,開放資料在教育保健等7個行業可釋放3。2-5。4萬億美元的經濟價值。

2 促進社會公平正義

開發政府大資料的價值,大資料時代的國家治理。經濟系統類似人的血液系統,資訊系統類似人的神經系統,不必用左手證明右手的重要性。

3 促進科學研究(主要是基礎科學)發展

認識客觀世界的新工具類似望遠鏡和顯微鏡)科學研究的第四正規化,資料科學的形成,計算機科學的新領域。

大資料對於現有行業會有哪些影響?深入分析面向大資料的資料科學

門捷列夫週期表為化學成為一門科學奠定了基礎。現在生物領域有基因組學,材料、化學、製藥、生理、病理、幹細胞領域都在研究“基因組”,也有人在討論人類語言的“基因組”。這些基因組都是構成整體的基本元素。

發現這些“基因組”都需要採用計算機對海量的資料進行分析,導致各個領域都出現XX資訊學。

從上世紀70年代開始,

圍繞計算複雜性形成了以演算法研究為中心的的計算機科學

隨著計算機科學與其他學科的交叉融合計算機科學的研究重點將逐步轉移到以研究各種基因組學為重點的資料科學。現在到了發現新的門捷列夫週期表的時候了。

大資料對於現有行業會有哪些影響?深入分析面向大資料的資料科學

計算理論的新研究方向

傳統的計算複雜性理論是研究當問題規模變大時,計算量如何變化,以小問題預測大問題。

而大資料問題一開始就給你全部資料需要反過來思考如何找到縮小規模的資料,而問題的基本屬性沒有大的變化。

如果說傳統的計算複雜性是度量外向組合爆炸(scaleup)的複雜程度,那麼大資料問題的計算理論應該是度量內向“壓縮”的困難程度。

如果當資料規模擴大時,反映資料間相互關係的網路結構保持很好的相似性,則是一個容易解決的大資料問題;反之,如果網路結構變得面目全非,則是一個難以解決的大資料問題。

大資料對於現有行業會有哪些影響?深入分析面向大資料的資料科學

培養“π型人才"

越來越多的研究人員開始在資料的科學中摸索,資料驅動型的發現將成為一種常態。遊刃有餘地應付大量資料集很快會成為傳統科學領域的必備技能,所有科學都在迅速變成“資料科學”。

其他領域的科學家幾天才能完成的資料處理,有經驗的計算機科技人員可能幾分鐘就能搞定。

在各領域培養熟悉資料分析的科研人才使之有兩條分屬於不同領域的雙腿支撐他們前進。

大資料對於現有行業會有哪些影響?深入分析面向大資料的資料科學

針對大資料時代各領域科研工作的新挑戰,高等教育學校計算機系需要面對全校調整和新增有關資料採集、整理、分析的新課程。