GitHub 6.9K高星推薦,104人傾情整理的大資料學習框架全在這裡!

你還在為如何學習大資料而苦惱嗎?

培訓機構很貴,自學又很難找到好的資源。。。今天小編就為大家分享一份GitHub上最全的大資料學習框架,裡面有最全的分類,共104位貢獻者,那我們就一起來看看吧~

GitHub 6.9K高星推薦,104人傾情整理的大資料學習框架全在這裡!

食用小指南:這篇github彙總了幾乎所有大資料包含的技術。且包含了知識點資料的連結。

對不瞭解大資料的同學,這篇彙總會系統性的告訴你大資料需要了解的技術;

對了解大資料的同學,可以更加豐富你的知識體系,如分散式程式設計就彙總了53種技術,說不定會對你的工作帶來新思路~

先來列一下框架的總目錄~只有你想不到沒有你看不到的,連大資料相關的電影和論文都有推薦。

GitHub 6.9K高星推薦,104人傾情整理的大資料學習框架全在這裡!

GitHub 6.9K高星推薦,104人傾情整理的大資料學習框架全在這裡!

原文共彙總了29個技術分類,小編截取了幾段內容給大家分享~

1.要學習資料庫,這裡列了4類不同的資料庫供你學習:

MySQL:世界上最流行的開源資料庫。

PostgreSQL:世界上最先進的開源資料庫。

Oracle資料庫:物件型關係資料庫管理系統。

Teradata :高效能MPP(大規模並行處理)資料倉庫平臺。

2.大資料框架

IBM Streams

:分散式處理和實時分析平臺,使用了許多大資料生態系統中的流行技術,Kafka,HDFS,Spark等等

Apache Hadoop

:分散式處理框架,集成了MapReduce(並行處理),YARN(作業排程)和HDFS(分散式檔案系統)。

Tigon

:高吞吐量實時流處理框架。

Pachyderm - Pachyderm

:一個基於Docker和Kubernetes構建的資料儲存平臺,可提供可重複的資料處理和分析。

3.分散式檔案系統

GitHub 6.9K高星推薦,104人傾情整理的大資料學習框架全在這裡!

4.基準測試

Apache Hadoop Benchmarking :用於測試Hadoop效能的微型基準測試。

Berkeley SWIM Benchmark :真實世界的大資料工作負載基準測試。

Intel HiBench :一個Hadoop基準測試套件。

PUMA Benchmarking :MapReduce應用程式的基準測試套件。

Yahoo Gridmix3 :來自雅虎工程師團隊的Hadoop叢集基準測試。

Deeplearning4j基準

5.類似SQL的處理

GitHub 6.9K高星推薦,104人傾情整理的大資料學習框架全在這裡!

6.物聯網和感測器資料

Apache Edgent(Incubating):一種程式設計模型和微核心樣式執行時,可以嵌入到閘道器和小型邊緣裝置中,從而在邊緣裝置上實現本地,實時的分析。

Azure物聯網中心 :基於雲的雙向監控和訊息中心。

TempoIQ :基於雲的感測器分析。

2lemetry :物聯網平臺。

Pubnub : 資料流網路。

ThingWorx :智慧系統的快速開發和連線。

IFTTT :一種免費拿到你的APP和電子裝置間傳遞的資料的工具。

Evrything :讓產品變得聰明。

NetLytics :用於處理Spark上的網路資料的分析平臺。

7.有趣的大資料讀物

大資料基準

:Redshift,Hive,Shark,Impala和Stiger / Tez的基準。

NoSQL比較

:Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris比較。

監控Kafka效能

: 監控Apache Kafka的指南,包括用於度量收集的本機方法。

監控Hadoop效能

: 監控Hadoop的指南,概述Hadoop架構以及用於度量收集的本機方法。

GitHub地址:https://github。com/onurakpolat/awesome-bigdata