一個簡單的例子,告訴你資料庫和大資料的關係

一個簡單的例子,告訴你資料庫和大資料的關係

大資料的出現 , 必將顛覆傳統的資料管理方式。在資料來源、資料處理方式和資料思維等方面都會對其帶來革命性的變化。對於資料庫研究人員和從業人員而言 , 必須清楚的是 , 從資料庫 (DB) 到大資料 (BD), 看似只是一個簡單的技術演進 , 但細細考究不難發現兩者有著本質上的差別。

如果要用簡單的方式來比較傳統的資料庫和大資料的區別的話, 我們認為“ 池塘捕魚” 和“ 大海捕魚: 是個很好的類比。” 池塘捕魚“ 代表著傳統資料庫時代的資料管理方式, 而 ” 大海捕魚“ 則對應著大資料時代的資料管理方式,” 魚“ 是待處理的資料。” 捕魚“ 環境條件的變化導致了” 捕魚“ 方式的根本性差異。這些差異主要體現在如下幾個方面:

一個簡單的例子,告訴你資料庫和大資料的關係

1.資料規模

”池塘“和”大海“最容易發現的區別就是規模。”池塘“規模相對較小, 即便是先前認為比較大的“池塘”,譬如 VLDB(Very Large Database),和”大海“XLDB(Extremely Large Database)相比仍舊偏小。”池塘“的處理物件通常以 MB 為基本單位,而”大海“則 常常以GB,甚至是 TB、PB 為基本處理單位。

2.資料型別

過去的”池塘“中,資料的種類單一,往往僅僅有一種或少數幾種,這 些資料又以結構化資料為主。而在”大海“中,資料的種類繁多,數以千計,而這些資料又 包含著結構化、半結構化以及非結構化的資料,並且半結構化和非結構化資料所佔份額越來越大。

一個簡單的例子,告訴你資料庫和大資料的關係

3.模式(Schema)和資料的關係

傳統的資料庫都是先有模式,然後才會產生資料。這 就好比是先選好合適的”池塘“,然後才會向其中投放適合在該”池塘“環境生長的”魚“。 而大資料時代很多情況下難以預先確定模式,模式只有在資料出現之後才能確定,且模式隨 著資料量的增長處於不斷的演變之中。這就好比先有少量的魚類,隨著時間推移,魚的種類 和數量都在不斷的增長。魚的變化會使大海的成分和環境處於不斷的變化之中。

4.處理物件

在”池塘“中捕魚,”魚“僅僅是其捕撈物件。而在”大海“中,”魚“ 除了是捕撈物件之外,還可以透過某些”魚“的存在來判斷其他種類的”魚“是否存在。也 就是說傳統資料庫中資料僅作為處理物件。而在大資料時代,要將資料作為一種資源來輔助 解決其他諸多領域的問題。

一個簡單的例子,告訴你資料庫和大資料的關係

5.處理工具

捕撈”池塘“中的”魚“,一種漁網或少數幾種基本就可以應對,也就是 所謂的 One Size Fits All。但是在”大海“中,不可能存在一種漁網能夠捕獲所有的魚類,也 就是說 No Size Fits All。