大資料的發展帶給我們哪些思考?

一.抓住機會

大學期間,我利用課餘時間報過很多社會上的培訓,比如管理,創業,技術等等,也結交了很多年輕的創業者,有的朋友甚至剛剛要步入大學校園。

在我工作幾年以後,偶爾翻開朋友圈,發現有極少數的創業朋友能真正堅持下來,實現了經濟的獨立。

而大部分的朋友,由於缺乏正確的指引,東打一槍,西打一槍,在外人看來充滿了創業者的激情,但是創業的專案最終都難以實現商業價值。

不積跬步無以至千里,可是如果方向錯了,再多努力似乎也沒有用。

阿里巴巴有句話說“方向對了,路就不怕遠”,雷軍也說過“不要用你戰術上的勤奮,掩蓋你戰略上的懶惰”。

這兩句話都啟發我們,要找好方向、發現趨勢,不要為了努力而努力,要為了目標和價值而努力。

而王興則更加直言不諱:“很多人為了放棄思考,什麼事情都幹得出來”。

說了那麼多,我們回頭看看Hadoop的發展歷程。

從2004年Google發表論文,到2008年Hadoop成為Apache的開源專案,歷時4年。當時世界上那麼多搜尋引擎公司似乎都對這件事熟視無睹,Yahoo、百度、搜狐(搜狐曾經是一家搜尋引擎公司),都任由這個機會流失。只有 Doug Cutting 把握住機會,做出了Hadoop,開創了大資料行業,甚至引領了一個時代。

所以,我們能從Hadoop中學到的第一個經驗就是識別趨勢、把握機會。

有的時候,我們不需要多麼天才的思考力,也不需要超越眾人去預見未來,我們只需要當機會到來的時候,能夠敏感地意識到機會,全力以赴付出你的才智和努力,就可以脫穎而出了。

二.主從架構

我們可以發現Hadoop幾個主要技術的架構設計都有相似性,它們都是一主多從的架構方案:

HDFS,一個NameNode,多個DataNode;

MapReduce,一個JobTracker,

多個TaskTracker;

Yarn,一個ResourceManager,

多個NodeManager。

事實上,很多其他大資料技術都是這樣的架構方案:

Storm,一個Nimbus,多個Supervisor;

Spark,一個Master,多個Slave。

大資料因為要對資料和計算任務進行統一管理,所以和網際網路線上應用不同,需要一個全域性管理者。而線上應用因為每個使用者請求都是獨立的,而且為了高效能和便於叢集伸縮,會盡量避免有全域性管理者。

所以我們從Hadoop中可以學到大資料領域的一個架構模式,也就是集中管理,分佈儲存與計算。利用這種架構方案,我們同樣可以搭建一個我們自己的分散式應用。

三.要做技術的主人

最後我希望我們新時代所有的大資料開發者,我們使用Hadoop等大資料技術之前,一定要要先了解它們、學習它們的思想、掌握它們的技巧,而不是當別人交給我們的需求時候我們才去查詢資料。

我們一定要要做工具的主人,而不是工具的奴隸,不能每天被工具的各種問題牽著走。

雖然現在的大資料專案都建立於Hadoop,Spark等大資料技術之上,但我們最終的目標是要超越這些技術,打造適合自己業務場景的大資料解決方案。