3分鐘帶你瞭解大資料,你應該知道的幾個專業術語

隨著國家近幾年對大資料的重視,李總理:把握科技革命歷史機遇,搶佔大資料發展先機,大資料的應用越來越普及,大資料與各行各業的關係越來越緊密。人們越來越依賴大資料的預測行動,雖然它只是一個工具,卻被賦予了預測未來的能力。大資料的詞彙量豐富,專業性強,你又瞭解多少大資料的專業詞彙呢,下面小編帶你初識大資料。

1、本地資料庫(LDB/Local Data Base)

本地資料庫是指駐留於執行客戶應用程式的機器的資料庫。本地資料庫位於本地磁碟或區域網。典型的本地資料庫有Paradox、dBASE、FoxPro和ACCCSS。

2、資料採集(Data Acquisition,DAQ)

資料採集又稱資料獲取,將被測試物件的各種參量透過各種感測器做適當轉換後,再經過訊號調理、取樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。

步驟:

① 感測器感受各種物理量,並把它們轉換成電訊號;

② 透過A/D轉換,模擬量的資料轉變成數字量的資料;

③ 資料的記錄,列印輸出或存入磁碟檔案。

④ 生產廠商為該採集系統編制的專用程式,常用於大型專用系統;

⑤ 固化的採集程式,常用於小型專用系統;

⑥ 利用生產廠商提供的軟體工具,使用者自行編制的採集程式,主要用於組合式系統。

3、資料模型(data model)

資料模型是現實世界資料特徵的抽象,用於描述一組資料的概念和定義。資料模型是資料庫中資料的儲存方式,是資料庫系統的基礎。在資料庫中,資料的物理結構又稱資料的儲存結構,就是資料元素在計算機儲存器中的表示及其配置;資料的邏輯結構則是指資料元素之間的邏輯關係,它是資料在使用者或程式設計師面前的表現形式,資料的儲存結構不一定與邏輯結構一致。

4、資料整理(Data Cleansing)

資料整理是對調查、觀察、實驗等研究活動中所蒐集到的資料進行檢驗、歸類編碼和數字編碼的過程,是資料統計分析的基礎。

5、資料處理(Data Handling)

資料處理是指對資料(包括數值的和非數值的)進行分析和加工的技術過程。也就是對資料的採集、儲存、檢索、加工、變換和傳輸,將資料轉換為資訊的過程。

6、資料壓縮(Data Compression)

資料壓縮是指在不丟失有用資訊的前提下,縮減資料量以減少資料的儲存空間,提高其傳輸、儲存和處理效率,或按照一定的演算法對資料進行重新組織,減少資料的冗餘和儲存的空間的一種技術方法。

7、資料恢復(Data Recovery)

資料恢復是指透過技術手段,將儲存在臺式機硬碟、筆記本硬碟、伺服器硬碟、行動硬碟、隨身碟等等裝置上由於各種原因導致損傷或丟失的資料進行搶救和恢復的技術。

8、資料整合(Data Integration)

資料整合是把不同來源、格式、特點性質的資料在邏輯上或物理上有機地集中,從而為企業提供全面的資料共享。資料整合維護了資料來源整體上的資料一致性、提高資訊共享利用的效率。

9、資料遷移(Data Migration)

資料遷移又稱分級儲存管理,是一種將離線儲存與線上儲存融合的技術。將高速、高容量的非線上儲存裝置作為磁碟裝置的下一級裝置,將磁碟中常用的資料按指定策略自動遷移到磁帶庫等二級容量儲存裝置上。

當需要使用這些資料時,分級儲存系統會自動將這些資料從下一級儲存裝置調回到上一級磁碟上。

3分鐘帶你瞭解大資料,你應該知道的幾個專業術語

10、資料冗餘(Data Redundancy/Redundant Data)

資料冗餘是指同一個資料在系統中多次重複出現。消除資料冗餘的目的是為了避免更新時可能出現的問題,以便保持資料的一致性。

11、資料抽取(Data mining)

資料抽取是指從源資料來源系統抽取目的資料來源系統需要的資料的過程。

12、網路資料抽取 (Web data mining)

網路資料抽取(Web data mining),是指從網路中取得大量的又利用價值的數字化資訊。主要包括結構化資料抽取(Structured Data Extraction)、資訊整合(Information integreation)和觀點挖掘(Opinion mining)等。

結構化資料抽取的目標是從Web頁面中抽取結構化資料。這些結構化資料往往儲存在後臺數據庫中,由網頁按一定格式承載著展示給使用者。例如論壇列表頁面、Blog頁面、搜尋引擎結果頁面等。資訊整合是針對結構化資料而言,其目標是將從不同網站中抽取出的資料統一化後集成入庫。其關鍵問題是如何從不同網站的資料表中識別出意義相同的資料並統一儲存。

13、資料標準化(data standardization)

資料標準化是指研究、制定和推廣應用統一的資料分類分級、記錄格式及轉換、編碼等技術標準的過程。

14、資料備份(Data Backup)

資料備份是容災的基礎,為防著系統出現操作失誤或系統故障導致資料丟失,而將全部或部分資料集合從原來儲存的地方複製到其他地方的活動,將資料遭受破壞的程度減到最小。傳統的資料備份主要採用內建或外接的磁帶機進行冷備份。這種方式只能防止操作失誤等認為故障,其恢復時間也很長。現代企業採用網路備份,透過專業的資料儲存管理軟體結合相應硬體和儲存裝置來實現備份。

1.完全備份(Full Backup)。

優點是當發生資料丟失的災難時,可以迅速恢復丟失的資料。不足之處是每天都對整個系統進行完全備份,造成備份的資料大量重複。

2.增量備份(Incremental Backup)。

先實施一次完全備份,後續時間裡只要對當天的或修改過的資料進行備份。優點:節省了磁碟空間,縮短了備份時間;缺點是資料恢復比較麻煩,備份的可靠性很差。

3.差分備份(Differential Backup)。

先實施一次完全備份,再將當天所有與備份不同的資料(新的或修改過的)備份到磁碟上。該策略避免了以上兩種策略缺陷的同時,具備其所有優點。首先,它無須每天都對系統做完全備份,所需的備份時間短,節省磁碟空間。其次,資料恢復方便.一旦發生問題,使用者只需使用完全備份和發生問題前一天的備份就可以將系統恢復。

如果你有興趣參與網際網路、大資料等方面的交流,歡迎在後臺回覆“入群”召喚兮小編,加入群討論。