大資料、雲計算系統頂級架構師學習路線

階段一、大資料、雲計算 - Hadoop大資料開發技術

技術一、大資料運維之Linux基礎

要想進入大資料領域必須打好Linux基礎，以便更好地學習Hadoop，hbase，NoSQL，Spark，Storm，docker，openstack等眾多技術。因為企業中的專案基本上都是使用Linux環境下搭建或部署的。

1）Linux系統概述

2）系統安裝及相關配置

3）Linux網路基礎

4）OpenSSH實現網路安全連線

5）vi文字編輯器

6）使用者和使用者組管理

7）磁碟管理

8）Linux檔案和目錄管理

9）Linux終端常用命令

10）linux系統監測與維護

技術二、大資料開發核心技術 - Hadoop 2.x從入門到精通

一，分散式檔案系統HDFS用於儲存海量資料，無論是Hive、HBase或者Spark資料儲存在其上面；二、分散式資源管理框架YARN，是Hadoop 雲作業系統（也稱資料系統），管理叢集資源和分散式資料處理框架MapReduce、Spark應用的資源排程與監控；分散式平行計算框架MapReduce目前是海量資料並行處理的一個最常用的框架。Hadoop 2。x的編譯、環境搭建、HDFS Shell使用，YARN 叢集資源管理與任務監控，MapReduce程式設計，分散式叢集的部署管理（包括高可用性HA）必須要掌握的。

一、初識Hadoop 2。x

1）大資料應用發展、前景

2）Hadoop 2。x概述及生態系統

3）Hadoop 2。x環境搭建與測試

二、深入Hadoop 2。x

1）HDFS檔案系統的架構、功能、設計

2）HDFS Java API使用

3）YARN 架構、叢集管理、應用監控

4）MapReduce程式設計模型、Shuffle過程、程式設計調優

三、高階Hadoop 2。x

1）分散式部署Hadoop 2。x

2）分散式協作服務框架Zookeeper

3）HDFS HA架構、配置、測試

4）HDFS 2。x中高階特性

5）YARN HA架構、配置

6）Hadoop 主要發行版本（CDH、HDP、Apache）

四、實戰應用

1）以現成資料進行實際的分析

2）原資料採集

3）資料的預處理（ETL）

4）資料的分析處理（MapReduce）

技術三、大資料開發核心技術 - 大資料倉庫Hive

hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行。其優點是學習成本低，可以通類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合資料倉庫的統計分析。

一、Hive 初識入門

1）Hive功能、體系結構、使用場景

2）Hive環境搭建、初級使用

3）Hive原資料配置、常見互動方式

二、Hive深入使用

1）Hive中的內部表、外部表、分割槽表

2）Hive 資料遷移

3）Hive常見查詢（select、where、distinct、join、group by）

4）Hive 內建函式和UDF程式設計

三、Hive高階進階

1）Hive資料的儲存和壓縮

2）Hive常見最佳化（資料傾斜、壓縮等）

四、結合【北風網使用者瀏覽日誌】實際案例分析

1）依據業務設計表

2）資料清洗、匯入（ETL）

3）使用HiveQL，統計常見的網站指標

技術四、大資料協作框架 - Sqoop/Flume/Oozie

Sqoop是一款開源的工具，主要用於在Hadoop（Hive）與傳統的資料庫（mysql、postgresql。。。）間進行資料的傳遞，可以將一個關係型資料庫（例如： MySQL，Oracle ，Postgres等）中的資料導進到關係型資料庫中。Sqoop專案開始於2009年，最早是作為Hadoop的一個第三方模組存在，後來為了讓使用者能夠快速部署，也為了讓開發人員能夠更快速的迭代開發，Sqoop獨立成為一個Apache專案。

一、資料轉換工具Sqoop

1）Sqoop功能、使用原則

2）將RDBMS資料匯入Hive表中（全量、增量）

3）將HDFS上檔案匯出到RDBMS表中

二、檔案收集框架Flume

1）Flume 設計架構、原理（三大元件）

2）Flume初步使用，實時採集資料

3）如何使用Flume監控資料夾資料，實時採集錄入HDFS中 4）任務排程框架Oozie

三、Oozie功能、安裝部署

1）使用Oozie排程MapReduce Job和HiveQL

2）定時排程任務使用

技術五、大資料Web開發框架 - 大資料WEB 工具Hue

Hue是一個開源的Apache Hadoop UI系統，最早是由Cloudera Desktop演化而來，由Cloudera貢獻給開源社群，它是基於Python Web框架Django實現的。透過使用Hue我們可以在瀏覽器端的Web控制檯上與Hadoop叢集進行互動來分析處理資料，例如操作HDFS上的資料，執行MapReduce Job等等。

1）Hue架構、功能、編譯

2）Hue整合HDFS

3）Hue整合MapReduce

4）Hue整合Hive、DataBase

5）Hue整合Oozie

技術六、大資料核心開發技術 - 分散式資料庫HBase從入門到精通

HBase是一個分散式的、面向列的開源資料庫，該技術來源於 Fay Chang 所撰寫的Google論文“Bigtable：一個結構化資料的分散式儲存系統”。HBase在Hadoop之上提供了類似於Bigtable的能力，是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化儲存叢集

一、HBase初窺使用

1）HBase是什麼、發展、與RDBMS相比優勢、企業使用

2）HBase Schema、表的設計

3）HBase 環境搭建、shell初步使用（CRUD等）

二、HBase 深入使用

1）HBase 資料儲存模型

2）HBase Java API使用（CRUD、SCAN等）

3）HBase 架構深入剖析

4）HBase 與MapReduce整合、資料匯入匯出

三、HBase 高階使用

1）如何設計表、表的預分割槽（依據具體業務分析講解）

2）HBase 表的常見屬性設定（結合企業實際）

3）HBase Admin操作（Java API、常見命令）

四、資料分析

1）依據需求設計表、建立表、預分割槽

2）進行業務查詢分析

3）對於密集型讀和密集型寫進行HBase引數調優

技術七、Spark技術實戰之基礎篇 -Scala語言從入門到精通

Scala具有資料處理的天然優勢，Scala是未來大資料處理的主流語言

1）-Spark的前世今生

2）-Scala用途

3）-Scala基礎語法

4）-Scala條件控制與迴圈

5）-Scala函式入門

6）-Scala函式入門之預設引數和帶名引數

7）-Scala函式入門之變長引數

8）-Scala函式入門之過程、lazy值和異常

9）-Scala陣列操作之Array、ArrayBuffer以及遍歷陣列

10）-Scala陣列操作之陣列轉換

11）-ScalaMap與Tuple

12）-Scala面向物件程式設計之類

13）-Scala面向物件程式設計之物件

14）-Scala面向物件程式設計之繼承

15）-Scala面向物件程式設計之Trait

16）-Scala函數語言程式設計

17）-Scala函數語言程式設計之集合操作

18）-Scala模式匹配

19）-Scala型別引數

20）-Scala隱式轉換與隱式引數

21）-Scala之Actor入門

技術八、大資料核心開發技術 - 記憶體計算框架Spark

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具有的優點。啟用了記憶體分佈資料集，除了能夠提供互動式查詢外，它還可以最佳化迭代工作負載。Spark Streaming：構建在Spark上處理Stream資料的框架，基本的原理是將Stream資料分成小的時間片斷（幾秒），以類似batch批次處理的方式來處理這小部分資料

1）Spark 初識入門

2）Spark 概述、生態系統、與MapReduce比較

3）Spark 編譯、安裝部署（Standalone Mode）及測試

4）Spark應用提交工具（spark-submit，spark-shell）

5）Scala基本知識（變數，類，高階函式）

6）Spark 核心RDD

7）RDD特性、常見操作、快取策略

8）RDD Dependency、Stage常、原始碼分析

9）Spark 核心元件概述

10）案例分析

11）Spark 高階應用

12）Spark on YARN執行原理、執行模式及測試

13）Spark HistoryServer歷史應用監控

14）Spark Streaming流式計算

15）Spark Streaming 原理、DStream設計

16）Spark Streaming 常見input、out

17）Spark Streaming 與Kafka整合

技術九、大資料核心開發技術 - Spark深入剖析

1）Scala程式設計、Hadoop與Spark叢集搭建、Spark核心程式設計、Spark核心原始碼深度剖析、Spark效能調優

2）Spark原始碼剖析

技術十、大資料核心開發技術 - Storm實時資料處理

Storm是Twitter開源的分散式實時大資料處理框架，被業界稱為實時版Hadoop。隨著越來越多的場景對Hadoop的MapReduce高延遲無法容忍，比如網站統計、推薦系統、預警系統、金融系統（高頻交易、股票）等等，大資料實時處理解決方案（流計算）的應用日趨廣泛，目前已是分散式技術領域最新爆發點，而Storm更是流計算技術中的佼佼者和主流。按照storm作者的說法，Storm對於實時計算的意義類似於Hadoop對於批處理的意義。Hadoop提供了map、reduce原語，使我們的批處理程式變得簡單和高效。同樣，Storm也為實時計算提供了一些簡單高效的原語，而且Storm的Trident是基於Storm原語更高階的抽象框架，類似於基於Hadoop的Pig框架，讓開發更加便利和高效。

1）Storm簡介

2）Storm原理和概念

3）Zookeeper叢集搭建及基本使用

4）Storm叢集搭建及測試

5）API簡介和入門案例開發

6）Spout的Tail特性、storm-starter及maven使用、Grouping策略

7）例項講解Grouping策略及併發

8）併發度詳解、案例開發（高併發運用）

9）案例開發——計算網站PV，透過2種方式實現彙總型計算。

10）案例最佳化引入Zookeeper鎖控制執行緒操作

11）計算網站UV（去重計算模式）

12）【運維】叢集統一啟動和停止shell指令碼開發

13）Storm事務工作原理深入講解 14）Storm事務API及案例分析

15）Storm事務案例實戰之 ITransactionalSpout

16）Storm事務案例升級之按天計算

17）Storm分割槽事務案例實戰

18）Storm不透明分割槽事務案例實戰

19）DRPC精解和案例分析

20）Storm Trident 入門

21）Trident API和概念

22）Storm Trident實戰之計算網站PV

23）ITridentSpout、FirstN（取Top N）實現、流合併和Join

24）Storm Trident之函式、流聚合及核心概念State

25）Storm Trident綜合實戰一（基於HBase的State）

26）Storm Trident綜合實戰二

27）Storm Trident綜合實戰三

28）Storm叢集和作業監控告警開發

技術十一、企業大資料平臺高階應用

1）企業大資料平臺概述

2）大資料平臺基本元件

3）Hadoop 發行版本、比較、選擇

4）叢集環境的準備（系統、基本配置、規劃等）

5）搭建企業大資料平臺

6）以實際企業專案需求為依據，搭建平臺

7）需求分析（主要業務）

8）框架選擇（Hive\HBase\Spark等）

9）真實伺服器手把手環境部署

10）安裝Cloudera Manager 5。3。x

11）使用CM 5。3。x安裝CDH 5。3。x

12）如何使用CM 5。3。x管理CDH 5。3。x叢集

13）基本配置，最佳化

14）基本效能測試

15）各個元件如何使用

技術十二、專案實戰：驢媽媽旅遊網大型離線資料電商分析平臺

離線資料分析平臺是一種利用hadoop叢集開發工具的一種方式，主要作用是幫助公司對網站的應用有一個比較好的瞭解。尤其是在電商、旅遊、銀行、證券、遊戲等領域有非常廣泛，因為這些領域對資料和使用者的特性把握要求比較高，所以對於離線資料的分析就有比較高的要求了。

1）Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、離線資料分析，SpringMVC，Highchat

2）Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts實現的電商離線資料分析

3）日誌收集系統、日誌分析、資料展示設計

技術十三、專案實戰：電商實時資料分析系統

1）全面掌握Storm完整專案開發思路和架構設計

2）掌握Storm Trident專案開發模式

3）掌握Kafka運維和API開發、與Storm介面開發

4）掌握HighCharts各類圖表開發和實時無重新整理載入資料

5）熟練搭建CDH5生態環境完整平臺

6）靈活運用HBase作為外部儲存

7）可以做到以一己之力完成從後臺開發（Storm、Kafka、Hbase開發）

到前臺HighCharts圖表開發、Jquery運用等，所有工作一個人搞定！

可以一個人搞定淘寶雙11大螢幕專案！

技術十四、專案實戰：大型離線電商資料分析平臺

瞭解在Spark技術生態棧中最常用的三個技術框架，Spark Core、Spark SQL和Spark Streaming，進行離線計算和實時計算業務模組的開發。實現了包括使用者訪問session分析、頁面單跳轉化率統計、熱門商品離線統計、廣告點選流量實時統計4個業務模組。過合理的將實際業務模組進行技術整合與改造，該專案要完全涵蓋Spark Core、Spark SQL和Spark Streaming這三個技術框架中幾乎所有的功能點、知識點以及效能最佳化點。僅一個專案，即可全面掌握Spark技術在實際專案中如何實現各種型別的業務需求！還要注意效能調優、troubleshooting以及資料傾斜解決方案等知識和技術

真實還原完整的企業級大資料專案開發流程：

專案中包括資料分析、需求分析、方案設計、資料庫設計、編碼實現、功能測試、效能調優、troubleshooting與解決資料傾斜（後期運維）等環節。

階段二、Python基礎與爬蟲實戰分析

技術十五、Python基礎與網路爬蟲

如何快速有效的處理海量資料，並從中分析出寶貴的資訊內容是每一個架構師和開發者夢寐以求的目標；對於運維人員來說，怎樣部署維護龐大複雜的集群系統也是一個非常現實的問題。瞭解阿里雲的DRDS、RDS、OTS、ODPS、ADS及DPC等相關資料處理和分析服務。

1）Python語言開發要點詳解

2）Python資料型別

3）函式和函數語言程式設計

4）面向物件程式設計

5）網頁爬蟲

階段三、大資料、雲計算 - Java企業級核心應用

技術十六、深入Java效能調優

在java應用程式上要掌握技巧和思想，深入剖析軟體設計層面、程式碼層面、JVM虛擬機器層面的最佳化方法，理論結合實際，使用豐富的示例深入研究。

技術十七、JAVA企業級開放必備高階技術（Weblogic Tomcat叢集 Apach叢集）

Java自面世後就非常流行，發展迅速，對C++語言形成有力衝擊。在全球雲計算和移動網際網路的產業環境下，Java更具備了顯著優勢和廣闊前景，那麼滋生的基於java專案也越來越多，對java執行環境的要求也越來越高，很多java的程式設計師只知道對業務的擴充套件而不知道對java本身的執行環境的除錯，例如虛擬機器調優，伺服器叢集等。所以要具備一定的高階技術才行。

階段四、大資料、雲計算 - 分散式叢集、PB級別網站效能最佳化

技術十八、大資料高併發系統架構實戰方案(LVS負載均衡、Nginx、共享儲存、海量資料、佇列快取 )

隨著網際網路的發展，高併發、大資料量的網站要求越來越高。而這些高要求都是基礎的技術和細節組合而成的。內容包括：LVS實現負載均衡、Nginx高階配置實戰、共享儲存實現動態內容靜態化加速實戰、快取平臺安裝配置使用、mysql主從複製安裝配置實戰等。

技術十九、大資料高併發伺服器實戰（Linux+Nginx+Java+Memcached+Redis）

隨著Web技術的普及，Internet上的各類網站第天都在雪崩式增長。但這些網站大多在效能上沒做過多考慮。當然，它們情況不同。有的是Web技術本身的原因（主要是程式程式碼問題），還有就是由於Web伺服器未進行最佳化。不管是哪種情況，一但使用者量在短時間內激增，網站就會明顯變慢，甚至拒絕放訪問。要想有效地解決這些問題，就只有依靠不同的最佳化技術。本課程就是主要用於來解決大型網站效能問題，能夠承受大資料、高併發。主要涉及技術有：nginx、tomcat、memcached、redis快取、負載均衡等高階開發技術

技術二十、專案實戰：PB級通用電商網站效能最佳化

透過一個通用電商訂單支付模組，外加淘寶支付介面的實現（可用於實際專案開發），剖析並分析過程中可能遇到的各種效能瓶頸及相關的解決方案與最佳化技巧。最終目標是迅速掌握Linux下的開發知識，並對涉及到nginx、tomcat、memcached、redis快取、負載均衡等高階開發技術有一個全面的瞭解

階段五、大資料、雲計算 - 資料探勘、分析 & 機器學習（贈送）

技術二十一、玩轉大資料：深入淺出大資料探勘技術(Apriori演算法、Tanagra工具、決策樹)

所謂“深入”，指得是從資料探勘的原理與經典演算法入手。其一是要了解演算法，知道什麼場景應當應用什麼樣的方法；其二是學習演算法的經典思想，可以將它應用到其他的實際專案之中；其三是理解演算法，讓資料探勘的演算法能夠應用到您的專案開發之中去。所謂“淺出”，指得是將資料探勘演算法的應用落實到實際的應用中。瞭解演算法的應用：一是微軟公司的SQL Server與Excel等工具實現的資料探勘；二是著名開源演算法的資料探勘，如Weka、KNIMA、Tanagra等開源工具；三是利用C#語言做演示來完成資料探勘演算法的實現。根據實際的引用場景，資料探勘技術通常分為分類器、關聯分析、聚類演算法等三大類別。結合一些商業分析工具、開源工具或程式設計等方式來了解具體的應用方法

技術二十二、Lucene4.X實戰類baidu搜尋的大型文件海量搜尋系統

瞭解Lucene4的發展歷史，開發環境搭建，分析lucene4的中文分詞原理，瞭解lucenne4的系統架構，分析lucene4索引實現原理及效能最佳化，瞭解關於lucene4的搜尋演算法最佳化及利用java結合lucene4實現類百度文庫的全文檢索功能等相對高階實用的內容。

技術二十三、快速上手資料探勘之solr搜尋引擎（Solr叢集、KI分詞、專案實戰）

瞭解開源搜尋引擎服務框架solr5。3。1，利用Tomcat8搭建了solr的叢集服務；瞭解solr的開發和二次開發，包括在hadoop叢集的是利用，海量資料的索引和實時檢索，通過了解、學習、安裝、配置、整合等步驟將solr整合到專案中。

技術二十四、專案實戰：SPSS Modeler資料探勘專案實戰

SS Modeler是業界極為著名的資料探勘軟體，其前身為SPSS Clementine。SPSS Modeler內建豐富的資料探勘模型，以其強大的挖掘功能和友好的操作習慣，深受使用者的喜愛和好評，成為眾多知名企業在資料探勘專案上的軟體產品選擇。

技術二十五、資料層交換和高效能併發處理(開源ETL大資料治理工具）

ETL是資料的抽取清洗轉換載入的過程，是資料進入資料倉庫進行大資料分析的載入過程，目前流行的資料進入倉庫的過程有兩種形式，一種是進入資料庫後再進行清洗和轉換，另外一條路線是首先進行清洗轉換再進入資料庫，我們的ETL屬於後者。大資料的利器大家可能普遍說是hadoop，但是大家要知道如果我們不做預先的清洗和轉換處理，我們進入hadoop後僅透過mapreduce進行資料清洗轉換再進行分析，垃圾資料會導致我們的磁碟佔用量會相當大，這樣無形中提升了我們的硬體成本（硬碟大，記憶體小處理速度會很慢，記憶體大cpu效能低速度也會受影響），因此雖然hadoop理論上解決了爛機器拼起來解決大問題的問題，但是事實上如果我們有更好的節點速度必然是會普遍提升的，因此ETL在大資料環境下仍然是必不可少的資料交換工具。

技術二十六、零基礎資料分析與挖掘R語言實戰

對於從未接觸過資料分析的學員，從最基礎的R語法開始講起，逐步進入到目前各行業流行的各種分析模型。大致可分為基礎和實戰兩個方面。基礎部分包括R語法和統計思維兩個主題，透過R語法瞭解R語言中的各種特色資料結構，以及如何從外部抓去資料，如何使用包和函式。統計思維單元會指導如何用統計學的思想快速的發現數據特點或者模式，並利用R強大的繪圖能力做視覺化展現。結合案例瞭解迴歸、聚類、資料降維、關聯規則、決策樹這5中最基礎的資料分析模型，並應用到自己的工作環境中。

技術二十七、深入淺出Hadoop Mahout資料探勘實戰(演算法分析、專案實戰、中文分詞技術)

Mahout 是 Apache Software Foundation（ASF）旗下的一個開源專案，提供一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧應用程式。內容包括：Mahout資料探勘工具及Hadoop實現推薦系統的綜合實戰，涉及到MapReduce、Pig和Mahout的綜合實戰

技術二十八、大資料專案實戰之Python金融應用程式設計(資料分析、定價與量化投資)

近年來，金融領域的量化分析越來越受到理論界與實務界的重視，量化分析的技術也取得了較大的進展，成為備受關注的一個熱點領域。所謂金融量化，就是將金融分析理論與計算機程式設計技術相結合，更為有效的利用現代計算技術實現準確的金融資產定價以及交易機會的發現。量化分析目前已經涉及到金融領域的方方面面，包括基礎和衍生金融資產定價、風險管理、量化投資等。隨著大資料技術的發展，量化分析還逐步與大資料結合在一起，對海量金融資料實現有效和快速的運算與處理。在量化金融的時代，選用一種合適的程式語言對於金融模型的實現是至關重要的。在這方面，Python語言體現出了不一般的優勢，特別是它擁有大量的金融計算庫，並且可以提供與C++，java等語言的介面以實現高效率的分析，成為金融領域快速開發和應用的一種關鍵語言，由於它是開源的，降低了金融計算的成本，而且還透過廣泛的社交網路提供大量的應用例項，極大的縮短了金融量化分析的學習路徑。

技術二十九、專案實戰：雲計算處理大資料深度、智慧挖掘技術+地震資料探勘分析

瞭解基於雲計算的大資料處理技術，瞭解一款高效的、實時分析處理海量資料的強有力工具——資料立方。資料立方是針對大資料處理的分散式資料庫，能夠可靠地對大資料進行實時處理，具有即時響應多使用者併發請求的能力。瞭解資料立方產生的背景，資料立方的整體架構以及安裝和詳細開發流程以及綜合應用例項。無論是對於雲計算的初學者還是想進一步深入學習大資料處理技術的研發人員、研究人員都有很好的參考價值。

階段六、大資料、雲計算 - 大資料運維 & 雲計算技術篇

技術三十、Zookeeper從入門到精通（開發詳解，案例實戰，Web介面監控）

ZooKeeper是Hadoop的開源子專案（Google Chubby的開源實現），它是一個針對大型分散式系統的可靠協調系統，提供的功能包括：配置維護、命名服務、分散式同步、組服務等。Zookeeper的Fast Fail 和 Leader選舉特性大大增強了分散式叢集的穩定和健壯性，並且解決了Master/Slave模式的單點故障重大隱患，這是越來越多的分散式產品如HBase、Storm（流計算）、S4（流計算）等強依賴Zookeeper的原因。Zookeeper在分散式叢集（Hadoop生態圈）中的地位越來越突出，對分散式應用的開發也提供了極大便利，這是迫切需要深入學習Zookeeper的原因。主要內容包括Zookeeper深入、客戶端開發（Java程式設計，案例開發）、日常運維、Web介面監控。

技術三十一、雲計算Docker從零基礎到專家實戰

Docker是一種開源的應用容器引擎，使用Docker可以快速地實現虛擬化，並且實現虛擬化的效能相對於其他技術來說較高。並且隨著雲計算的普及以及對虛擬化技術的大量需求，使得雲計算人才供不應求，所以一些大型企業對Docker專業技術人才需求較大。從最基礎的Dokcer原理開始學起，深入淺出，並且結合例項實戰。

技術三十二、專案實戰：雲計算Docker全面專案實戰（Maven+Jenkins、日誌管理ELK、WordPress部落格)

2013年，雲計算領域從此多了一個名詞“Docker”。以輕量著稱，更好的去解決應用打包和部署。之前我們一直在構建Iaas，但透過Iaas去實現統一功能還是相當複雜得，並且維護複雜。將特殊性封裝到映象中實現幾乎一致得部署方法，它就是“Docker”，以容器為技術核心，實現了應用的標準化。企業可以快速生成研發、測試環境，並且可以做到快速部署。實現了從產品研發環境到部署環境的一致化。Docker讓研發更加專注於程式碼的編寫，並且以“映象”作為交付。極大的縮短了產品的交付週期和實施週期。

技術三十三、深入淺出OpenStack雲計算平臺管理

OpenStack是一個由Rackspace發起、全球開發者共同參與的開源專案，旨在打造易於部署、功能豐富且易於擴充套件的雲計算平臺。OpenStack企圖成為資料中心的作業系統，即雲作業系統。從專案發起之初，OpenStack就幾乎贏得了所有IT巨頭的關注，在各種OpenStack技術會議上人們激情澎湃，幾乎所有人都成為OpenStack的信徒。重點了解openstack的部署和網路部分。強調實際的動手操作，使用vmware模擬實際的物理平臺，大家可以自己動手去實際搭建和學習openstack。課程內容包括雲計算的基本知識，虛擬網路基礎，openstack部署和應用，openstack網路詳解等。

階段七、人工智慧&機器學習&深度學習&推薦系統

技術三十四、機器學習及實踐

瞭解PyMC語言以及一系列常用的Python資料分析框架，如NumPy、SciPy和Matplotlib，透過機率程式設計的方式，瞭解貝葉斯推斷的原理和實現方法。該方法常常可以在避免引入大量數學分析的前提下，有效地解決問題。課程中使用的案例往往是工作中遇到的實際問題，有趣並且實用。透過對本課程的學習，學員可以對分類、迴歸等演算法有較為深入的瞭解，以Python程式語言為基礎，在不涉及大量數學模型與複雜程式設計知識的前提下，熟悉並且掌握當下最流行的機器學習演算法，如迴歸、決策樹、SVM等，並透過程式碼例項來展示所討論的演算法的實際應用。

1）Python基礎

2）資料基礎

3）機器學習入門

4）迴歸

5）決策樹與隨機森林

6）SVM

7）聚類

8）EM

9）貝葉斯

10）主題模型LDA

11）馬爾科夫模型

12）實際應用案例

13）SparkMLlib機器學習

技術三十五、深度學習與TensorFlow實戰

探索TensorFlow（基於1。0版本API）。瞭解TensorFlow的基礎原理，TF和其他框架的異同。並用具體的程式碼完整地實現了各種型別的深度神經網路：AutoEncoder、MLP、CNN（AlexNet，VGGNet，Inception Net，ResNet）、Word2Vec、RNN（LSTM，Bi-RNN）、Deep Reinforcement Learning（Policy Network、Value Network）。此外，還要了解TensorBoard、多GPU並行、分散式並行、TF。Learn和其他TF。Contrib元件。

1）TensorFlow基礎

2）TensorFlow和其他深度學習框架的對比

3）TensorFlow第一步

4）TensorFlow實現自編碼器及多層感知機

5）TensorFlow實現卷積神經網路

6）TensorFlow實現經典卷積神經網路

7）TensorFlow實現迴圈神經網路及Word2Vec

8）TensorFlow實現深度強化學習

9）TensorBoard、多GPU並行及分散式並行

技術三十六、推薦系統

瞭解開發推薦系統的方法，尤其是許多經典演算法，重點探討如何衡量推薦系統的有效性。課程內容分為基本概念和進展兩部分：前者涉及協同推薦、基於內容的推薦、基於知識的推薦、混合推薦方法，推薦系統的解釋、評估推薦系統和例項分析；後者包括針對推薦系統的攻擊、線上消費決策、推薦系統和下一代網際網路以及普適環境中的推薦。課程中包含大量的圖、表和示例，有助於學員理解和把握相關知識等。

1）協同過濾推薦

2）基於內容的推薦

3）基於知識的推薦

4）混合推薦方法

5）推薦系統的解釋

6）評估推薦系統

7）案例研究

技術三十七、人工智慧

主要了解人工智慧的基本原理、實現技術及其應用，國內外人工智慧研究領域的進展和發展方向。內容主要分為4個部分：第1部分是搜尋與問題求解，系統地敘述了人工智慧中各種搜尋方法求解的原理和方法，內容包括狀態空間和傳統的圖搜尋演算法、和聲演算法、禁忌搜尋演算法、遺傳演算法、免疫演算法、粒子群演算法、蟻群演算法和Agent技術等；第2部分為知識與推理，討論各種知識表示和處理技術、各種典型的推理技術，還包括非經典邏輯推理技術和非協調邏輯推理技術；第3部分為學習與發現，討論傳統的機器學習演算法、神經網路學習演算法、資料探勘和知識發現技術；第4部分為領域應用，分別討論專家系統開發技術和自然語言處理原理和方法。透過對這些內容的講解能夠使學員對人工智慧的基本概念和人工智慧系統的構造方法有一個比較清楚的認識，對人工智慧研究領域裡的成果有所瞭解。

1）AI的產生及主要學派

2）人工智慧、專家系統和知識工程

3）實現搜尋過程的三大要素

4）搜尋的基本策略

5）圖搜尋策略

6）博弈與搜尋

7）演化搜尋演算法

8）群集智慧演算法

9）記憶型搜尋演算法

10）基於Agent的搜尋

11）知識表示與處理方法

12）謂詞邏輯的歸結原理及其應用