大資料是如何構建我們真實世界的

大資料是什麼？我們為什麼要關心？

你已經在別人的資料庫裡添加了你的新資料，那個資料會針對你推送廣告或你將來可能會做什麼進行預測，無論你接到工作面試或是進監獄都取決於其他人收集的關於你的資料。所以你應該花5分鐘學習一下，大資料如何運轉並在我們的周圍構建怎樣的世界，順便說一下，假如你現在停止閱讀該文章也會產生新的資料，也許會使你個人資料衝動性提高0。7個百分點，意味著5年時間裡，一些招聘演算法會拒絕你做一名航天宇航員。

接下來我來聊聊大資料，資料不是什麼新鮮事物，僅是可轉移形式的資訊，約3萬年前，中歐的一個山洞裡，有人在狼脛骨裡，以5個一組刻了57個劃痕，和現在計數的方法一樣，那就是資料。我不知道他們計算什麼以及為什麼計算，但無論它是什麼，我們至少知道有57個，那是所知關於資料最古老的例子。稱其為“數字”是因為你可以用你的手指頭來數，在冰川時代，這一定是一場資訊科技革命。

大資料有多大？如果要我給你個數字，它會增長變化很快，當你閱讀結束時資料就會更新。十年前，谷歌每天產生2萬兆兆位元組的資料，去年，美國零售商沃爾瑪每小時從客戶身上收集2500兆兆位元組資料。

大資料編成縮略詞，用DATA表示資料。

D是“規模”。如果用術語的話，也可以是“多樣的”或“不同的”，透過合併來自不同來源的不同型別的資料，可以得到一個多維度圖片。例如：神經系統科學家保羅馬修教授利用從大腦掃描到患者的全部資料感到興奮，但是那都只能稱作“大量的資料”，而大資料是當輸入資料時，大腦會與患者醫療記錄、住處和該地天氣記錄等具體個人資訊一起掃描，從而判斷出他們病症症的發展過程。

A指的是自動化。資料執行的方式是自動收集，每次我們在電腦上或用銀行卡，或僅僅移動一下手機等操作（資料都會被收集）。事實上，幾乎我們做任何事都會產生其他人可用的資料，你的手機、車、手環等，多數時候我們注意不到資料的收集。

T是時間。因為資料是在真實的時間裡被收集，這些模式可以被提前用來預測未來，像火車高峰期是什麼時候，我們需要多少電，疾病傳播多快這類的事情。

A是人工智慧。並非真的像人類的智力一般，但人工智慧電腦程式使用機器，學習一樣的技術找到資料圖案，而你也不需要給出每一步的指令，你只需要告訴它從a排到b，就能從貓的圖片到狗的圖片，或從好的求職者到較差的求職者排序。人們正利用大資料做很多令人興奮的事，追蹤昆蟲來抵禦像瘧疾和寨卡一樣的疾病，在飛機發動機發生故障前提前預測，找到新的顆粒或新的抗生素。

當同樣的技術應用到人類身上，事情會變得棘手，比如用大資料預測一些人再犯罪機率，能因此宣判他們有罪嗎？當然，它透過整合不同資料資源，建立多維度輪廓，幫助西方政治家瞭解選舉人，這也在當年奧巴馬成功選舉時應用過的。但若說奧巴馬只因為大資料才贏的嗎？我認為只是提供了一些投票者想要的東西，大資料只是幫助他得到關鍵投票人的票數，政治與資訊的內容有關，卻非傳遞它們的平臺。