Hadoop數(shù)據(jù)分析與挖掘?qū)崙?zhàn) Spark實戰(zhàn)高端課程培訓(xùn)方案

認證機構(gòu)

本課程由北京國軟培訓(xùn)提供,有846瀏覽量

課程分類:  IT培訓(xùn)

適合對象:  系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員;高校、科研院所涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項目負責(zé)人;熟悉Hadoop生態(tài)系統(tǒng),想更深入學(xué)習(xí)Hadoop與Spark整合在企業(yè)應(yīng)用實戰(zhàn)案例的朋友;

咨詢電話:  400-968-9396

上課地點:  [華信大廈校區(qū)] 北京石景山石景山周邊華信大廈校區(qū)

開班日期:  滾動開班

學(xué)       費:  咨 詢

班       級:  
  • 華信大廈校區(qū)
  • 北京海淀校區(qū)
  • 華信大廈校區(qū)
  • 海淀校區(qū)
 
人       數(shù):
 
報名試聽 我要咨詢

課程簡介

【課程優(yōu)勢】

     本課程的優(yōu)勢就是:

     1、整個培訓(xùn)過程老師帶著學(xué)員進行全程上機操作,因此要求每個學(xué)員帶筆記本電腦。

     2、整個過程老師帶著學(xué)員進行全程上機操作外,學(xué)員會進行全程實戰(zhàn)演練,并且在演練過程中會以實際項目案例為主。在演練過程中老師會進行不斷的指導(dǎo),使培訓(xùn)課程真正落地。

【主講老師】

   劉 剛:

原阿里集團-阿里云研發(fā)中心大數(shù)據(jù)資深技術(shù)經(jīng)理大數(shù)據(jù)專家,國內(nèi)資深大數(shù)據(jù)實戰(zhàn)專家。

   劉老師現(xiàn)就職于某國際跨國專業(yè)大數(shù)據(jù)公司中國研發(fā)中心高級技術(shù)經(jīng)理,大中華區(qū)大數(shù)據(jù)總負責(zé)人。目前主要負責(zé)該國際跨國專業(yè)大數(shù)據(jù)公司在大中華區(qū)各大商業(yè)銀行、電信等領(lǐng)域大數(shù)據(jù)系統(tǒng)的研發(fā)與現(xiàn)場實踐。

     劉老師同時國內(nèi)資深的、最早的一批大數(shù)據(jù)技術(shù)專家、虛擬

 

化專家,在進入阿里之前曾就職于高德等知名IT企業(yè),擔(dān)任Hadoop高級工程師。對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB、OpenStack等Hadoop生態(tài)系統(tǒng)中的技術(shù)進行了多年的深入的研究,更主要的是這些技術(shù)在大量的實際項目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運維方面積累了豐富項目實施經(jīng)驗。

     劉老師近年主持或參與的主要典型項目有:上海電信網(wǎng)絡(luò)優(yōu)化、中國移動廣東移動省公司請賬單系統(tǒng)和廣州移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、中國光大銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(Web Game Daas)平臺項目等

【課程大綱】

      “Hadoop數(shù)據(jù)分析與挖掘實戰(zhàn)”課程內(nèi)容

課程模塊

課程主題

主要內(nèi)容

案例和演示

模塊一

Hadoop組件詳解

1、Hadoop HDFS 基本結(jié)構(gòu)

2、Hadoop HDFS 副本存放策略

3、Hadoop NameNode 詳解

4、HadoopSecondaryNameNode 詳解 

5、Hadoop DataNode 詳解

6、Hadoop JobTracker 詳解 

7、Hadoop TaskTracker 詳解

8、Yarn資源管理系統(tǒng)詳解

9、Resourcemanager詳解

10、NodeManager詳解

1、Hadoop Mapper類核心代碼

2、Hadoop Reduce類核心代碼

3、Hadoop 核心代碼

 

模塊二

 

數(shù)據(jù)分析的算法詳解

1、K-means算法詳解

2、線性回歸詳解

3、機器學(xué)習(xí)詳解

4、Canopy算法詳解

5、貝葉斯算法詳解

 

模塊三

Hive實戰(zhàn)(數(shù)據(jù)分析)

1、Hive

(1)Hive的負載均衡搭建 

(2)Hive的訪問方式 

(3)Hive的元數(shù)據(jù)存儲到Mysql 

(4)Hive的數(shù)據(jù)類型 

(5)Hive表的創(chuàng)建 

(6)Hive加載數(shù)據(jù) 

(7)HiveCLI操作介紹 

2、hive數(shù)據(jù)定義 

(1)內(nèi)部表和外部表 

(2)表的分區(qū) 

(3)刪除表 

(4)修改表 

(5)查詢語句 

(6)where語句 

3、Hive高級查詢語句 

(1)group by操作 

(2)Join操作 

(3)Order bySort by 

(4)Union all 

(5)索引 

4、Hive的存儲類型和復(fù)合數(shù)據(jù)類型 

(1)TextFile 

(2)Sequence File 

(3)RCFile 

(4)Hive的自定輸入格式 

(5)Array 

(6)Map 

(7)Struct 

5、Hive的內(nèi)置函數(shù)和自定義UDFUDAF實戰(zhàn) 

6、Hive的調(diào)優(yōu) 

(1)explain 

(2)隊列設(shè)置 

(3)Join優(yōu)化 

(4)本地模式和并行執(zhí)行 

(5)設(shè)置MapperReducer的個數(shù) 

(6)JVM重用 

(7)索引 

(8)動態(tài)分區(qū)調(diào)整 

(9)推測執(zhí)行 

(10)Hivedebug調(diào)試 

7、hive的安全 

(1)Hivehadoop安全的整合 

(2)使用Hive進行驗證 

(3)Hive的權(quán)限管理 

(4)分區(qū)級別的權(quán)限 

(5)自定授權(quán) 

8、Hive的案例實戰(zhàn) 

(1)nginx日志實戰(zhàn) 

(2)某公司的Hive項目 

1、nginx日志實戰(zhàn) 

2、某公司的Hive項目

模塊四

Mahout實戰(zhàn)(數(shù)據(jù)挖掘)

1、Mahout安裝測試
2、Mahout算法庫介紹
3、解析聚類算法
4、解析分類算法
6、協(xié)同過濾算法
7、聚類算法詳解
8、canopy算法
(1)mahoutcanopy算法實現(xiàn)原理(2)mahoutcanopy算法實戰(zhàn)
(3)Hadoop上面運行canopy算法
9、mean shift算法
(1)mean shift算法簡介
(2)mahoutmean shift算法實現(xiàn)原理
(3)mahoutmean shift算法實戰(zhàn)
(4)Hadoop上面運行mean shift算法
10、k-means算法
(1)k-means算法簡介
(2)mahoutk-means算法實現(xiàn)原理
(3)mahoutk-means算法案例實戰(zhàn)
(4)Hadoop上面運行k-means算法
11、分類算法
(1)貝葉斯算法簡介
(2)貝葉斯算法原理介紹
(3貝葉斯算法在hadoop上面運行
(4)貝葉斯算法的案例實戰(zhàn)
12、Mahout推薦算法介紹
13、Taste的框架介紹
14、Mahout推薦器
(1)基于用戶的推薦器

(2)基于項目的推薦器
(3)Slope One 推薦策略
15、推薦系統(tǒng)實戰(zhàn)
(1)個性化推薦介紹
(2)推薦建模
(3)數(shù)據(jù)準備
(4)關(guān)聯(lián)分析
(5)代碼編寫

模塊五

數(shù)據(jù)挖掘在電信的案例

1、基站數(shù)據(jù)分析

2、人流的動態(tài)分析

3、拉鏈算法的案例詳解

4、套餐的更改軌跡分析

5、客戶中心的數(shù)據(jù)情感分析和挖掘

6、用戶的通話記錄分析

7、套餐的營銷分析

8、分析流式的用戶和挖掘潛在的客戶

模塊六

數(shù)據(jù)挖掘在銀行的案例

1、財務(wù)分析

2、客戶價值&風(fēng)險定價

3、巴塞爾3 &信用風(fēng)險

4、績效管理

5、客戶關(guān)系管理(CRM)

6、客戶訪問分析

7、流失路徑

8、購買路徑

9、欺詐路徑

10、多渠道營銷

11、欺詐

12、數(shù)據(jù)挖掘&原型設(shè)計

13、營銷歸因

14、投訴&銷售合規(guī)

15、情感分析

u

              “Spark實戰(zhàn)”課程內(nèi)容

模 塊

培訓(xùn)大綱

Spark

運行架構(gòu)和解析

1、Spark的運行架構(gòu)

2、基本術(shù)語

3、運行架構(gòu)

4、Spark on Standalone運行過程

5、Spark on YARN 運行過程

6Spark運行實例解析

7、Spark on Standalone實例解析

8、Spark on YARN實例解析

Spark

監(jiān)控和調(diào)優(yōu)

1、Spark的監(jiān)控

2Spark調(diào)優(yōu)

     Spark

編程模型和解析

1、Spark的編程模型

2、Spark編程模型解析

3、RDD的特點、操作、依賴關(guān)系

4、Spark應(yīng)用程序的配置

Spark

scala編程

1、Scala基本語法

2、Scala開發(fā)環(huán)境搭建

3、Scala開發(fā)Spark應(yīng)用程序

Spark Streaming原理和實踐

1、Spark Streaming原理

2、Spark流式處理架構(gòu)

3DStream的特點

4、Dstream的操作和RDD的區(qū)別

5、Spark Streaming的優(yōu)化

6、Spark Streaming實例

7、文本實例

8、網(wǎng)絡(luò)數(shù)據(jù)處理

Spark SQL

原理和實踐

1Spark SQL原理

2、Spark SQLCatalyst優(yōu)化器

3Spark SQL內(nèi)核

4、Spark SQLHive

5、Spark SQL的實例和編程

6、Spark SQL的實例操作demo

7、Spark SQL的編程

Spark

源碼研讀

1Spark源碼研讀

2、Spark源碼下載和研讀環(huán)境搭建

3、Spark Core介紹

4、SparkContext

5、Executor

6、Deploy

7、RDDStorage

8、SchedulerTask

9、Spark Examples

 

Spark應(yīng)用

案例實戰(zhàn)

1、基于spark日志分析

2、個性化推薦系統(tǒng):帶你揭開其神秘面紗

3、在線投放引擎

4、揭開淘寶點擊推薦系統(tǒng)的神秘面紗

5、京東商城數(shù)據(jù)服務(wù)架構(gòu)實時計算平臺


 

開設(shè)班級

班級 開班時間 上課地點 學(xué)費 試聽/報名
華信大廈校區(qū)/ 面授 滾動開班 北京石景山華信大廈校區(qū) 咨詢 報名
北京海淀校區(qū)/ 面授 滾動開班 北京海淀花園橋世紀經(jīng)貿(mào)大廈 咨詢 報名
華信大廈校區(qū)/ 面授 北京石景山華信大廈校區(qū) 5800.00 報名
海淀校區(qū)/ 面授 北京海淀花園橋世紀經(jīng)貿(mào)大廈 5800.00 報名
 

教學(xué)環(huán)境

查看全部照片  >

課程咨詢

我要咨詢
 

發(fā)表咨詢

 
有回復(fù)時短信通知我 發(fā)表咨詢
更新時間:2019-02-27