爽死你个放荡粗暴婬货_亚洲v?高清中文字幕_玉女福利视频导航_91香蕉视频在线_久久精品无码一区二区三区毛片_三级片自拍视频_在线观看网站人成亚洲小说_国产精品亚洲欧美综合网站_日本a级作爱片口爱_2021国产剧情a在线

課程

課程介紹

現(xiàn)今是大數(shù)據(jù)時(shí)代,為構(gòu)建大數(shù)據(jù)平臺(tái),技術(shù)人員需要對(duì)分布式計(jì)算平臺(tái)有一定深入的理解和應(yīng)用。本課程將為大家全面而又深入的介紹Spark、Hadoop平臺(tái)的構(gòu)建流程,涉及Spark Hadoo系統(tǒng)基礎(chǔ)知識(shí),概念及架構(gòu),Spark Hadoo實(shí)戰(zhàn)技巧,Spark、Hadoo經(jīng)典案例等。

培訓(xùn)對(duì)象

學(xué)員須具備:了解Linux系統(tǒng)及相關(guān)語(yǔ)言環(huán)境;
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。

課程收益

幫助學(xué)員對(duì)Spark、Hadoo生態(tài)系統(tǒng)有一個(gè)清晰明了的認(rèn)識(shí);
理解Spark、Hadoo系統(tǒng)適用的場(chǎng)景;
掌握Spark、Hadoo等初中級(jí)應(yīng)用開(kāi)發(fā)技能;搭建穩(wěn)定可靠的Spar、Hadook集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn)。

知識(shí)概要

-- 大數(shù)據(jù)整體體解決方案架構(gòu)介紹;  
-- Cloudera CDH安裝及集群介紹;  
-- Kafka的使用場(chǎng)景;  
-- HDFS HIVE IMPALA組件;  
-- HIVE、IMPALA區(qū)別:特性不同點(diǎn),架構(gòu)不同特點(diǎn);  
-- Zookeeper組件;  
-- Azkaban、Yarn 調(diào)度資源協(xié)調(diào);  
-- yarn架構(gòu)組件(Resourcemanager、NodeManager、ApplicationMaster);  
-- yarn作業(yè)調(diào)度流程;  
-- 大數(shù)據(jù)安全管理;  
-- Hadoop安全機(jī)制Kerberos。

課程大綱

模塊

學(xué)習(xí)內(nèi)容

第一天AM

大數(shù)據(jù)整體體解決方案、架構(gòu)介紹、流處理、批處理

硬件選型,操作系統(tǒng)選型

開(kāi)源軟件,Hadoop生態(tài)軟件

大數(shù)據(jù)組件(開(kāi)發(fā)語(yǔ)言介紹)

Cloudera CDH安裝及集群介紹

Cloudera CDH 安裝

Hadoop集群介紹,Hadoop集群使用

HDFS分布式文件系統(tǒng)介紹

Kafka的使用場(chǎng)景

Kakfa的設(shè)計(jì)思想,Kafka文件存儲(chǔ)機(jī)制

持久化\負(fù)載均衡\Topic模型

消息傳輸一致性\分布式

Leader的選擇\集群分區(qū)

生產(chǎn)者消費(fèi)者配置

案例:Kafka從flume獲取消息,實(shí)現(xiàn)傳輸

flume+sqoop介紹及開(kāi)發(fā)實(shí)例

flume實(shí)現(xiàn)數(shù)據(jù)采集流程

flume agent配置,flume sink配置,flume 數(shù)據(jù)過(guò)濾

案例(1): 使用flume動(dòng)態(tài)采集日志

Sqoop功能及軟件結(jié)構(gòu)

從關(guān)系型數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)到HDFS,從HDFS導(dǎo)入數(shù)據(jù)到關(guān)系型數(shù)據(jù)庫(kù)

第一天PM

案例: 從HDFS導(dǎo)入數(shù)據(jù)到MySQL數(shù)據(jù)庫(kù)

案例: 從MySQL數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)到HDFS

Hadoop集群搭建、Spark集群部署及測(cè)試

Spark交互式命令行

如何使用Spark交互式命令行、理解Spark任務(wù)提交流程、執(zhí)行流程

如何通過(guò)WebUI查看任何執(zhí)行狀態(tài)

spark streaming運(yùn)行原理spark 生態(tài)及運(yùn)行原理

集群模式

Spark工作機(jī)制

RDD彈性分布式數(shù)據(jù)集,介紹RDD實(shí)現(xiàn)原理

理解什么是Action和Transformation,理解窄依賴與寬依賴

Spark核心概念之RDD

RDD函數(shù)

Spark核心概念之Shuffle

Spark Job執(zhí)行原理分析、shuffle操作解析

Spark核心概念之Cache

Spark廣播變量與累加器、Cache與checkpoint問(wèn)題

Spark多語(yǔ)言編程

第二天AM

Spark SQL組件、架構(gòu)

DataFrame、SparkSQL運(yùn)行原理

Spark SQL基礎(chǔ)應(yīng)用

Spark Streaming運(yùn)行原理、DStream

DStream 常用函數(shù)

Machine Learning On Spark簡(jiǎn)介、常用數(shù)據(jù)結(jié)構(gòu)

Spark 資源調(diào)優(yōu)

案例:spark streaming數(shù)據(jù)處理

HDFS HIVE IMPALA組件

DHFS分布式存儲(chǔ)特性

DHFS訪問(wèn)方式

HDFS優(yōu)化方案

HIVE IMPALA查詢

共同點(diǎn):如數(shù)據(jù)表元數(shù)據(jù)、ODBC/JDBC驅(qū)動(dòng)、SQL語(yǔ)法、靈活的文件格式、存儲(chǔ)資源池等

HIVE、IMPALA區(qū)別:特性不同點(diǎn),架構(gòu)不同特點(diǎn)

第二天PM

Zookeeper組件

Zookeeper應(yīng)用

Zookeeper注冊(cè)中心管理

Zookeeper配置與協(xié)調(diào)

實(shí)驗(yàn):HDFS存取數(shù)據(jù)、HIVE、IMPALA實(shí)現(xiàn)數(shù)據(jù)分析和報(bào)表

Azkaban、Yarn 調(diào)度資源協(xié)調(diào)

Azkaban的適用場(chǎng)景

Azkaban特點(diǎn)

Azkaban的架構(gòu)

配置文件

啟動(dòng)executor服務(wù)器

啟動(dòng)web服務(wù)器

案例:多job工作流案例

yarn架構(gòu)組件(Resourcemanager\NodeManager\ApplicationMaster)

yarn作業(yè)調(diào)度流程

綜合案例

Flume實(shí)現(xiàn)日志采集+kafka(消息隊(duì)列、緩存)+spark streaming(數(shù)據(jù)處理)+數(shù)據(jù)庫(kù)/DHFS

sqoop 導(dǎo)入關(guān)系型數(shù)據(jù)庫(kù),實(shí)現(xiàn)hive impala查詢

大數(shù)據(jù)安全管理

Apache Sentry

Hadoop安全機(jī)制Kerberos

認(rèn)證過(guò)程

無(wú)認(rèn)證考試

開(kāi)班信息

暫無(wú)開(kāi)班信息

相關(guān)課程