你還在為如何學習大資料而苦惱嗎?
培訓機構很貴,自學又很難找到好的資源。。。今天小編就為大家分享一份GitHub上最全的大資料學習框架,裡面有最全的分類,共104位貢獻者,那我們就一起來看看吧~
食用小指南:這篇github彙總了幾乎所有大資料包含的技術。且包含了知識點資料的連結。
對不瞭解大資料的同學,這篇彙總會系統性的告訴你大資料需要了解的技術;
對了解大資料的同學,可以更加豐富你的知識體系,如分散式程式設計就彙總了53種技術,說不定會對你的工作帶來新思路~
先來列一下框架的總目錄~只有你想不到沒有你看不到的,連大資料相關的電影和論文都有推薦。
原文共彙總了29個技術分類,小編截取了幾段內容給大家分享~
1.要學習資料庫,這裡列了4類不同的資料庫供你學習:
MySQL:世界上最流行的開源資料庫。
PostgreSQL:世界上最先進的開源資料庫。
Oracle資料庫:物件型關係資料庫管理系統。
Teradata :高效能MPP(大規模並行處理)資料倉庫平臺。
2.大資料框架
IBM Streams
:分散式處理和實時分析平臺,使用了許多大資料生態系統中的流行技術,Kafka,HDFS,Spark等等
Apache Hadoop
:分散式處理框架,集成了MapReduce(並行處理),YARN(作業排程)和HDFS(分散式檔案系統)。
Tigon
:高吞吐量實時流處理框架。
Pachyderm - Pachyderm
:一個基於Docker和Kubernetes構建的資料儲存平臺,可提供可重複的資料處理和分析。
3.分散式檔案系統
4.基準測試
Apache Hadoop Benchmarking :用於測試Hadoop效能的微型基準測試。
Berkeley SWIM Benchmark :真實世界的大資料工作負載基準測試。
Intel HiBench :一個Hadoop基準測試套件。
PUMA Benchmarking :MapReduce應用程式的基準測試套件。
Yahoo Gridmix3 :來自雅虎工程師團隊的Hadoop叢集基準測試。
Deeplearning4j基準
5.類似SQL的處理
6.物聯網和感測器資料
Apache Edgent(Incubating):一種程式設計模型和微核心樣式執行時,可以嵌入到閘道器和小型邊緣裝置中,從而在邊緣裝置上實現本地,實時的分析。
Azure物聯網中心 :基於雲的雙向監控和訊息中心。
TempoIQ :基於雲的感測器分析。
2lemetry :物聯網平臺。
Pubnub : 資料流網路。
ThingWorx :智慧系統的快速開發和連線。
IFTTT :一種免費拿到你的APP和電子裝置間傳遞的資料的工具。
Evrything :讓產品變得聰明。
NetLytics :用於處理Spark上的網路資料的分析平臺。
7.有趣的大資料讀物
大資料基準
:Redshift,Hive,Shark,Impala和Stiger / Tez的基準。
NoSQL比較
:Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris比較。
監控Kafka效能
: 監控Apache Kafka的指南,包括用於度量收集的本機方法。
監控Hadoop效能
: 監控Hadoop的指南,概述Hadoop架構以及用於度量收集的本機方法。
GitHub地址:https://github。com/onurakpolat/awesome-bigdata