大資料和雲計算。

大資料與雲計算的區別

我們聊起“大資料”和“雲計算”時,常常把這兩個名詞概念混淆,覺得就是一個詞。又或者知道這兩者是有區別的,卻又不知從何說起。今天,我和大家一起聊一聊“大資料”和“雲計算”的聯絡與區別。

一、大資料

大資料的定義

1、大資料的定義

著名的麥肯錫全球研究所給出的定義是:一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。

研究機構Gartner給出的定義是“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力來適應海量、高增長率和多樣化的資訊資產。

大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。

大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換而言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,透過“加工”實現資料的“增值”。

大資料三大層面來了解

2、三個層面來了解大資料:

其次,想要系統的認知大資料,必須要全面而細緻的分解它,著手從三個層面來展開:

(1)第一層面:理論

理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裡從大資料的特徵定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入解析大資料的珍貴所在;洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。

(2)第二層面:技術

技術是大資料價值體現的手段和前進的基石。大資料從採集、處理、儲存到形成結果的整個過程,都伴隨著雲計算、分散式處理技術、儲存技術和感知技術的發展。(這裡我們下文再系統說)

(3)第三層面:實踐

從總統競選到奧斯卡頒獎、從web安全到災難預測都離不開大資料的參與,大資料在企業商業智慧、公共服務和市場營銷三個領域擁有巨大的應用潛力和商機。正如那句俗語所言:“當你手上有一把錘子的時候,看所有的東西都是釘子。”

3、大資料的應用領域

綜合來看,未來幾年大資料在商業智慧、政府服務和市場營銷三個領域的應用非常值得看好,大多數大資料案例和預算將發生在這三個領域。

商業智慧處理流程

(1)商業智慧

商業智慧(Business Intelligence,簡稱:BI),又稱商業智慧或商務智慧,指用現代資料倉庫技術、線上分析處理技術、資料探勘和資料展現技術進行資料分析以實現商業價值。

過去幾十年,分析師們都依賴來自Hyperion、Microstrategy和Cognos的BI產品分析海量資料並生成報告。資料倉庫和BI工具能夠很好地回答類似這樣的問題:“某某人本季度的銷售業績是多少?”(基於結構化資料),但如果涉及決策和規劃方面的問題,由於不能快速處理非結構化資料,傳統的BI會非常吃力和昂貴。 大多數傳統BI工具都受到以下兩個方面的侷限:

首先,它們都是“預設-抓取”工具,由分析師預先確定收集什麼資料用於分析。

其次,它們都專注於報告“已知的未知”(Known unknowns),也就是我們知道問題是什麼,然後去找答案。(而大資料會給出一些未知的未知,也就是你沒有想到的一些問題的結果) 傳統BI工具主要用於企業運營,側重於成本控制和計劃執行報告。

而大資料技術最主要的功能/應用是ETL(Extract、Transform、Load)。將近80%的Hadoop應用都與ETL有關,例如在匯入Vertica這樣的分析資料庫之前對日誌檔案或感測器資料的處理。

今天計算和儲存硬體變得非常便宜,配合大量的開源大資料工具,人們可以非常“奢侈”地先抓取大量資料再考慮分析命題。可以說,低廉的計算資源正在改變我們使用資料的方式。 此外,處理效能的大幅提高(例如記憶體計算)使得實時互動分析更加容易實現,而“實時”和“預測”將BI帶到了一個新的境界——未知的未知。這也是大資料分析與傳統BI之間最大的區別。 未來幾年,隨著企業間的兼併和新產品的不斷推出,傳統的BI工具將與大資料分析並存。

公共服務關係

(2)公共服務

大資料另外一個重大的應用領域是社會和政府。如今,資料探勘已經能夠預測疾病暴發、理解交通模型並改善教育。

今天,城市正面臨預算超支、基礎設施難題以及從農村和郊區湧入的大量人口。這些都是非常緊迫的問題,而城市,也正是大資料計劃的絕佳實驗室。以紐約這樣的大都市為例,政府公共資料公開化、以及市民生活的高度數字化(購物、交通、醫療等)等都是大資料分析的理想物件。

客觀的市政資料,是消除爭端,維繫社會穩定的最佳紐帶。當然,前提是讓公民能夠訪問這些資料同時,保護好公民的隱私性和資料的安全性。蘋果的Siri和谷歌的Google Now都具備成為個人化助理的潛力。當然,我們還需要更多的產品和技術讓資料分析結果更容易被公眾理解和接受(資料視覺化)。此外,IBM的Watson以及Wolfram Alpha這樣的人工智慧技術在實現與使用者的互動上可作參考。

伴隨著各國政務的數字化程序,以及政務資料的透明化,公民將能準確瞭解政府的運作效率。這是不可逆轉的歷史潮流,同時也是大資料最具潛力的應用領域之一。

市場營銷

(3)市場營銷

大資料的第三大應用領域是市場營銷。具體來說,有利於促進消費者與企業之間的關係。(賣得更多、更快、更有效率) 今天,最大的資料系統是web分析、廣告最佳化等。今天的數字化營銷與傳統營銷最大的區別就是個性化和精準定位。

如今,企業與客戶之間的接觸點也發生了翻天覆地的變化,從過去的電話和郵件地址,發展到網頁、社交媒體賬戶等等。在這些五花八門的渠道里跟蹤客戶,粉絲和流量變現的年代,每一次閱讀、轉發對企業來說,都是一種推廣行為,間接也可能促成企業產品交易。

雲計算

二、雲計算

1、雲計算的定義

美國國家標準與技術研究院(NIST)定義:雲計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網路訪問, 進入可配置的計算資源共享池(資源包括網路、伺服器、儲存、應用軟體、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的互動。

雲計算(cloudcomputing)是基於網際網路的相關服務的增加、使用和交付模式,通常涉及透過網際網路來提供動態易擴充套件且經常是虛擬化的資源。

雲計算特點

2、雲計算特點

雲計算是透過使計算分佈在大量的分散式計算機上,而非本地計算機或遠端伺服器中,企業資料中心的執行將與網際網路更相似。這使得企業能夠將資源切換到需要的應用上,根據需求訪問計算機和儲存系統。

好比是從古老的單臺發電機模式轉向了電廠集中供電的模式。它意味著計算能力也可以作為一種商品進行流通,就像煤氣、水電一樣,取用方便,費用低廉。最大的不同在於,它是透過網際網路進行傳輸的。

被普遍接受的雲計算特點如下:

(1) 超大規模

“雲”具有相當的規模,Google雲計算已經擁有100多萬臺伺服器, Amazon、IBM、微軟、Yahoo等的“雲”均擁有幾十萬臺伺服器。企業私有云一般擁有數百上千臺伺服器。“雲”能賦予使用者前所未有的計算能力。

(2) 虛擬化

雲計算支援使用者在任意位置、使用各種終端獲取應用服務。所請求的資源來自“雲”,而不是固定的有形的實體。應用在“雲”中某處執行,但實際上使用者無需瞭解、也不用擔心應用執行的具體位置。只需要一臺筆記本或者一個手機,就可以透過網路服務來實現我們需要的一切,甚至包括超級計算這樣的任務。

(3) 高可靠性

“雲”使用了資料多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性,使用雲計算比使用本地計算機可靠。

(4) 通用性

雲計算不針對特定的應用,在“雲”的支撐下可以構造出千變萬化的應用,同一個“雲”可以同時支撐不同的應用執行。

(5) 高可擴充套件性

“雲”的規模可以動態伸縮,滿足應用和使用者規模增長的需要。

(6) 按需服務

“雲”是一個龐大的資源池,你按需購買;雲可以像自來水,電,煤氣那樣計費。

(7) 極其廉價

由於“雲”的特殊容錯措施可以採用極其廉價的節點來構成雲,“雲”的自動化集中式管理使大量企業無需負擔日益高昂的資料中心管理成本,“雲”的通用性使資源的利用率較之傳統系統大幅提升,因此使用者可以充分享受“雲”的低成本優勢,經常只要花費幾百美元、幾天時間就能完成以前需要數萬美元、數月時間才能完成的任務。

雲計算可以徹底改變人們未來的生活,但同時也要重視環境問題,這樣才能真正為人類進步做貢獻,而不是簡單的技術提升。

(8) 潛在的危險性

雲計算服務除了提供計算服務外,還必然提供了儲存服務。但是雲計算服務當前壟斷在私人機構(企業)手中,而他們僅僅能夠提供商業信用。對於政府機構、商業機構(特別像銀行這樣持有敏感資料的商業機構)對於選擇雲計算服務應保持足夠的警惕。一旦商業使用者大規模使用私人機構提供的雲計算服務,無論其技術優勢有多強,都不可避免地讓這些私人機構以“資料(資訊)”的重要性挾制整個社會。對於資訊社會而言,“資訊”是至關重要的。另一方面,雲計算中的資料對於資料所有者以外的其他使用者雲計算使用者是保密的,但是對於提供雲計算的商業機構而言確實毫無秘密可言。所有這些潛在的危險,是商業機構和政府機構選擇雲計算服務、特別是國外機構提供的雲計算服務時,不得不考慮的一個重要前提。

大資料VS雲計算

三、大資料和雲計算的聯絡與區別

1、從定義上看

從二者的定義範圍來看,大資料要比雲計算更加廣泛。大資料這一概念從2011年誕生以來,中國從積極推動兩化融合到深度融合,再者,各地紛紛建設大資料產業園可以看出,我國極其看重此次大資料發展契機。大資料是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力來適應海量、高增長率和多樣化的資訊資產。大資料這個強大的資料庫擁有三層架構體系,包括資料儲存、處理與分析。簡而言之,資料需要透過儲存層先儲存下來,之後根據要求建立資料模型體系,進行分析產生相應價值。這其中缺少不了雲計算所提供的中間資料處理層強大的平行計算和分散式計算能力。

簡單來說:雲計算是硬體資源的虛擬化,而大資料是海量資料的高效處理。雖然從這個解釋來看也不是完全貼切,但是卻可以幫助對這兩個名字不太明白的人很快理解其區別。當然,如果解釋更形象一點的話,雲計算相當於我們的計算機和作業系統,將大量的硬體資源虛擬化後在進行分配使用。

可以說,大資料相當於海量資料的“資料庫”,通觀大資料領域的發展我們也可以看出,當前的大資料發展一直在向著近似於傳統資料庫體驗的方向發展,一句話就是,傳統資料庫給大資料的發展提供了足夠大的空間。

大資料的總體架構包括三層:資料儲存,資料處理和資料分析。資料先要透過儲存層儲存下來,然後根據資料需求和目標來建立相應的資料模型和資料分析指標體系對資料進行分析產生價值。而中間的時效性又透過中間資料處理層提供的強大的平行計算和分散式計算能力來完成。三者相互配合,這讓大資料產生最終價值。

2、從技術上看

從技術上看,大資料與雲計算的關係就像一枚硬幣的正反面一樣密不可分。

(1)分散式架構

大資料必然無法用單臺的計算機進行處理,必須採用分散式計算架構。分散式架構是分散式計算技術的應用和工具,目前成熟的技術包括J2EE, CORBA和。NET(DCOM),對於分散式計算技術的架構,不能絕對地說哪一個更好,只能說哪一個更合適。針對不同的軟體專案需求,具體分析才是明智的選擇。它的特色在於對海量資料的挖掘,但它必須依託雲計算的分散式處理、分散式資料庫、雲端儲存和虛擬化技術。

雲計算在網際網路領域應用系統的構建:客戶群體是不確定的、系統規模不確定、系統投資不固定、業務應用有很清晰的並行分割特徵、資料倉庫系統的構建、資料倉庫規模可估算、資料倉庫的系統投資與業務分析的價值和回報相關、商業智慧應用屬於整體應用、Saas模式構建資料倉庫系統。

(2)Hadoop-分散式檔案系統

大資料管理,分散式進行檔案系統,如Hadoop、Mapreduce資料分割與訪問執行;

Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)檔案系統中的資料。

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的資料提供了儲存,則MapReduce為海量的資料提供了計算。

同時SQL支援,以Hive+HADOOP為代表的SQL介面支援,在大資料技術上用雲計算構建下一代資料倉庫成為熱門話題。

3、從系統需求來看

從系統需求來看,大資料的架構對系統提出了新的挑戰:

(1)晶片整合度更高。隨著整合度更高的最大規模積體電路(SLSI)技術的出現,使計算機朝著微型化和巨型化兩個方向發展。要求一個標準機箱限度完成特定任務;

(2)配置更合理、速度更快。儲存、控制器、I/O通道、記憶體、CPU、網路均衡設計,建立資料倉庫,滿足客戶對高密度機架式伺服器的需求針對資料倉庫訪問更優設計,比傳統類似平臺高出一個數量級以上;

(3)整體能耗更低。面對同等計算任務,可以提高運算效能,同時佔地面積保持不變的情況下,減少能源消耗和空間需求;

(4)系統更加穩定可靠。能夠消除各種單點故障環節,統一部件/器件的品質和標準;

(5)管理維護費用低。資料倉庫可以實現集中管理,這樣維護費用可以控制在一個可控範圍,從而管理維護費用降到最低。

(6)可規劃和預見的系統擴容、升級路線圖。對系統擴容/升級路線可以做出階段性的預測,實時可規劃,從而更好的運營整個系統。

雲計算環境作為大資料處理平臺

4、雲計算環境作為大資料處理平臺

(1)雲計算環境中基本計算單元的分化

企業雲計算平臺上雖然有多個平行計算的CPU,但並沒有創造出具有超強資料處理能力的超級CPU,因此雲計算平臺需要具有並行運算能力的軟體系統。同時,當所有使用者的資料全部放在雲端時,雖然儲存容量可以很方便地擴充,但面對大量使用者同時發起的海量資料處理請求,簡單的資料處理邏輯已經無法滿足需要。所以大資料涵蓋的資料範圍和其所具有的資料執行能力更加最佳化。

大資料和雲計算的未來趨勢

四、大資料和雲計算的未來趨勢

整體來看,未來的趨勢是雲計算作為計算資源的底層,支撐著上層的大資料處理,而大資料的發展趨勢是,實時互動式的查詢效率和分析能力將越來越明顯。市場也會對大資料和雲計算提出更高的技術需求,迫使大資料和雲計算實現技術上的改進和創新和應對市場需求,所以未來他們應該始終會是相輔相成、不斷髮展的狀態。