大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

01。什麼是大資料?

資料是對客觀事實進行記錄的一種符號,可以是數字、文字,也可以是圖片、音訊、影片。

大資料是指無法在一定時間範圍內用常規軟體進行捕捉、管理和資料的資料集合。

大資料具有“5V”特點,即資料量大、資料多樣性、價值密度低、增長速度快、資料質量低。

大資料時代強調資料的全部,而不是區域性的樣本資料。由於大資料的價值密度低,我們要接受這種模糊和不精確性。透過對資料的研究,發現以前不曾發現的聯絡,而不是像小資料時代,先透過假設,然後再用資料來驗證。也就是說,在大資料時代,對相關性的重視程度要強於因果性。

02。什麼是結構化和非結構化資料?

結構化資料

是適合用二維表格展現的資料。每一行是一條記錄,每一列是不同的欄位。

以電商網站為例,使用者資訊就可以用結構化資料來儲存。每位使用者就是一條記錄,而每位使用者又有姓名、性別、地址、手機、郵箱等欄位,這樣就形成了一個二維表格。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

非結構化資料

不適合用二維表格來展現,比如文件、圖片、音訊、影片等。非結構化資料的格式多樣,難以標準化和理解,因此在儲存、檢索、利用上都需要更加有效的方法和技術。

03。什麼是資料庫?

資料庫從字面意思來看就是儲存資料的地方,但資料的儲存不是雜亂無章的,而是按照一定的規則來儲存的,具有可共享和便於管理的特點。資料庫被視為電子化的檔案櫃。使用者可以對資料庫中的資料進行增、刪、改、查等操作。

資料庫可分為關係型資料庫、非關係型資料庫、資料倉庫等型別。

04。什麼是關係型資料庫?

關係型資料庫是指使用關係模型來組織資料的資料庫。

關係模型可以簡單理解為二維表格模型,以行和列的形式儲存資料,因此適合儲存結構化資料。關係型資料庫就是由多個二維表格及其之間的關係組成的資料庫。

常見的關係型資料庫有MySQL、SQL Server、PostgreSQL、Oracle等。

以電商網站為例,除了使用者資訊之外,還要記錄產品資訊和訂單資訊。為簡化起見,每個訂單隻包含一種產品。產品包括名稱、價格、圖片、介紹等欄位,訂單包括所屬使用者、相關產品、訂購數量、訂單價格、下單時間等欄位。一個使用者擁有一個或多個訂單,而一個產品也會屬於一個或多個訂單,這樣就建立了使用者、訂單和產品之間的關係。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

05。什麼是非關係型資料庫?

相對關係型資料庫而言,非關係型資料庫拋棄了固定的二維表格結構,儲存機制靈活,比如鍵值對、文件、圖形等格式都可以進行儲存。

常見的非關係型資料庫有Redis、MongoDB、Cassandra等。

效能是非關係型資料庫最大的優勢。由於關係型資料庫中的關係模型會佔用掉90%的硬體資源及計算時間,對於有大量不需要關係功能的資料處理,非關係型資料庫的效能是非常高的。

另一方面,正是由於缺少資料表之間的關係,非關係型資料庫很難在多個表之間做非常複雜的資料查詢。

06。什麼是時序資料庫?

時序資料庫是一類特殊的非關係型資料庫,全稱是時間序列資料庫。

經研究發現,機器裝置、感測器、系統日誌等產生的資料有如下明顯的特徵:

資料是時序的,即按照一定時間順序生成;

資料極少有更新或刪除操作;

資料產生頻率快、資料資訊量大;

資料往往帶有位置資訊。

傳統的關係型資料庫或非關係型資料庫對於這類資料,在效能提升上極為有限,只能依靠叢集技術,投入更多的計算資源和儲存資源來處理,造成企業運營成本急劇上升。而時序資料庫可以有效地處理龐大的資料,透過創新的列式儲存和先進的壓縮演算法,使用的計算資源不到傳統方案的1/5,儲存空間不到通用資料庫的1/10。

常見的時序資料庫有InfluxDB等。

07。什麼是分散式儲存?

分散式儲存是相對於集中式儲存而言的。分散式儲存是由標準伺服器(硬體)和分散式檔案系統(軟體)組成的,可擴充套件至千臺硬體節點,支援塊儲存、物件儲存、檔案儲存等多種型別統一管理。

常見的分散式檔案系統有HDFS、Ceph、GFS、GPFS、Swift等。

舉個通俗易懂的例子,如果把儲存比喻成車廂,資料比喻成貨物。集中式儲存方案下,如果要想拉更多的貨物,只能更換更大的車廂。而分散式儲存方案,直接增加車廂就可以了。有了分散式儲存技術,儲存EB級別(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量資料庫都不成問題。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

08。什麼是資料整合?

由於開發部門或開發時間的不同,企業中往往有多個異構的、執行在不同的軟硬體平臺上的資料庫,這些資料庫彼此獨立、相互封閉,使得資料難以在系統之間交流和共享,從而形成了“資訊孤島”。隨著資訊化應用的不斷深入,企業內部之間、企業與外部的資訊互動的需求日益強烈,急切需要對已有的資料進行整合,打通“資訊孤島”,這就是資料整合的意義。

資料整合是把不同來源、不同種類、不同格式的資料在物理上或邏輯上進行集中,為企業提供全面的資料共享。資料整合主要解決的問題是各個資料來源的異構性,包括資料庫的異構性、通訊協議的異構性、資料型別的異構性、資料取值的異構性等。

09。什麼是資料清洗?

資料清洗是一種清除錯誤資料、去掉重複資料的技術。

資料經過清洗之後,可以還儲存到原來的資料庫中,也可以和資料整合聯絡在一起,最終儲存到整合後的資料庫裡。

舉幾個資料清洗的例項:

1。在使用者資訊表中,規定有姓名、性別、地址、手機、郵箱五個欄位是必填的。而某些使用者缺少某些欄位的值,因此需要補充這些資料。

2。英文的姓名之間規定要有空格,而某些姓名沒有空格,比如“JohnSmith”,就需要修正這類錯誤。

3。有些資料表的金額單位是元,有些資料表的金額單位是萬元,資料整合時就需要統一單位。

4。兩條使用者記錄完全重複,需要進行去重處理。

10。什麼是ETL?

ETL是Extraction、Transformation、Loading三個單詞的首字母縮寫,指的是資料抽取、轉換、載入的過程。

資料抽取是從不同的資料來源中獲取我們需要的資料的過程,和資料整合的概念類似,這個過程往往會做一些資料清洗和資料轉換。資料轉換的任務主要是進行資料格式的轉換和一些業務規則的計算。資料載入通常是指在資料清洗和資料轉換完成後,寫入到目標資料庫中去。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

11。什麼是資料分析?

資料分析是基於商業需要,有目的的對資料進行收集、整理、加工、分析,最終提煉有價值的資訊的過程。

資料分析的四個步驟:

需求分析、明確目標;

資料收集、加工處理;

資料探勘、資料展現;

分析報告、提煉價值。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

12。什麼是資料埋點?

所謂資料埋點就是從應用的特定流程中收集一些資訊,跟蹤使用者使用的狀況,用來提供運營的資料支撐,進一步最佳化產品。

常見的資訊包括獨立訪客數(UV)、頁面瀏覽量(PV)、頁面停留時長、頁面跳出率、互動元素的點選事件等。

資料埋點通常有兩種方式:

第一種是研發團隊在產品中注入程式碼,並搭建響應的查詢平臺;

第二種是藉助第三方資料埋點工具,如神策資料、百度統計等。

13。什麼是資料倉庫?

資料倉庫 (Data Warehouse) 簡稱DW,

儲存大量資料的整合中心。

資料倉庫的目的是構建面向分析的整合化資料環境,為企業提供決策支援(Decision-Support)。它為企業提供一定的BI(商業智慧)能力,指導業務流程改進、監視時間、成本、質量以及控制。

資料倉庫的輸入方是各種各樣的資料來源,最終的輸出用於企業的資料分析、資料探勘、資料報表等方向。

14。什麼是資料集市?

資料倉庫是面向整個企業的,而資料集市是面向部門的,因此規模更小,由業務部門設計、開發、管理、維護,可以理解為是

資料庫的子集。

資料集市就像宜家樓上的家居展廳,正如其名字“集市”一樣,是一個面向最終顧客的資料市場。在這裡,資料(傢俱)以一種更加容易被顧客接受的方式組合在一起。顧客的需求是分場景的,比如客廳、書房、臥室、廚房等,因此我們需要建立多個數據集市(展廳)。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

15。什麼是資料湖?

資料湖至今仍然沒有一個特別標準的概念,比較統一的是資料湖儲存的是

未經加工的原始資料

,包含結構化和非結構化的各類資料。資料湖就是一個儲存了企業所有原始資料的儲存,對於這些原始資料的管理則更加複雜。

以宜家家居為例,資料湖的原始資料就相當於拆散的零部件,顧客可以根據實際需要挑選零部件後自行組裝。

16。什麼是資料探勘?

資料探勘就是從大量的實際應用資料中,提取隱藏在其中的有價值的資訊的過程。

一般而言,資料探勘分為兩類:一類是監督學習,另一類是無監督學習。監督學習是對目標需求的概念進行學習,透過建立模型來實現從觀察變數到目標需求的有效解釋。無監督學習沒有明確的標識變數來表達目標需求,主要任務是探索資料之間的內在聯絡和結構。

資料探勘融合了多學科領域的知識,常用的演算法有分類、聚類分析、關聯分析、趨勢與演化分析、特徵分析、異常分析等。

17。什麼是資料視覺化?

資料視覺化就是藉助圖形化的手段,清晰有效地傳達與溝通訊息。

利用人類對形狀、顏色的敏感,有效地傳遞資訊,幫助使用者從資料中發現關係、規律和趨勢。常用的資料視覺化圖表有柱狀圖、條形圖、餅圖、雷達圖、折線圖、堆積圖、散點圖等。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

18。什麼是商業智慧?

商業智慧(BI,Business Intelligence)是對商業資訊的蒐集、管理和分析過程,目的是使企業決策者獲得洞察力,做出對企業更有利的決策。

從技術層面上講,商業智慧不是什麼新技術,它只是資料倉庫、聯機分析處理、資料探勘、資料備份和恢復等技術的綜合應用。

大資料時代必須瞭解18個概念:資料倉庫、商業智慧、資料視覺化…

19。結語

遠齊科技基於成熟的軟體架構、網際網路、物聯網、大資料、人工智慧等技術構建面向未來的整合開發平臺系統。在自有整合開發平臺基礎上,基於最佳業務實踐開發出豐富的軟體功能模組、業務系統,為企業提供高效的定製化開發服務。