Hadoop 作為開源的云計(jì)算平臺,為大數(shù)據(jù)處理提供了一整套解決方案,應(yīng)用非常廣泛。Hadoop 作為一個(gè)
平臺框架,包括了如何存儲(chǔ)海量數(shù)據(jù),如何處理海量數(shù)據(jù),以及相應(yīng)的數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)流處理、數(shù)
據(jù)分析和挖掘算法庫等等。本次培訓(xùn)作為知識儲(chǔ)備,主要講解目前應(yīng)用數(shù)據(jù)和大數(shù)據(jù)平臺的數(shù)據(jù)同步工作以
及了解大數(shù)據(jù)理論體系結(jié)構(gòu), 應(yīng)用 Hadoop 2.0 的大數(shù)據(jù)框架結(jié)構(gòu),文本文件與 Hadoop/Hive/Sqoop 數(shù)據(jù)
遷,Hadoop 的思想、原理,以及重要技術(shù)等相關(guān)知識。
第一天
一、Hadoop 的基本框架 :
大數(shù)據(jù)時(shí)代面臨的問題 ;當(dāng)前解決大數(shù)據(jù)的技術(shù)方案 ;Hadoop 架構(gòu)和云計(jì)算 ;Hadoop 簡史及安裝部署 ;Hadoop 設(shè)計(jì)理念和生態(tài)系統(tǒng)
二、HDFS 分布式文件系統(tǒng):海量數(shù)據(jù)存儲(chǔ)的搖籃
HDFS 的設(shè)計(jì)目標(biāo) 、HDFS 的基本架構(gòu) 、 NameNode 名稱節(jié)點(diǎn) 、 SecondaryNameNode 第二名稱節(jié)點(diǎn) 、 DataNode 數(shù)據(jù)節(jié)點(diǎn) 、HDFS 的存儲(chǔ)模型
數(shù)據(jù)塊存儲(chǔ) 、 元數(shù)據(jù)存儲(chǔ)(空間鏡像與編輯日志) 、多副本存儲(chǔ)
多副本放置策略
多數(shù)據(jù)節(jié)點(diǎn)管理機(jī)制與交互過程
文件系統(tǒng)操作與管理
讀文件過程
寫文件過程(數(shù)據(jù)流管道)
數(shù)據(jù)完整性機(jī)制
數(shù)據(jù)校驗(yàn)和
數(shù)據(jù)完整性掃描線程
元數(shù)據(jù)備份與合并
數(shù)據(jù)可靠性設(shè)計(jì)
安全模式(數(shù)據(jù)塊與節(jié)點(diǎn)映射關(guān)系管理)
心跳檢測機(jī)制(節(jié)點(diǎn)失效管理)
租約機(jī)制(多線程并發(fā)控制)
其它
HDFS 的安全機(jī)制
負(fù)載均衡
文件壓縮
操作接口與編程接口
HDFS Shell
HDFS Commands
演練:HDFS 文件操作命令
三、MapReduce 分布式計(jì)算系統(tǒng):海量數(shù)據(jù)處理的利器
MapReduce 的三層設(shè)計(jì)理念 、分布治之的設(shè)計(jì)思想(Map 與 Reduce) 、數(shù)據(jù)處理引擎(編程模型) 、 運(yùn)行時(shí)環(huán)境(任務(wù)調(diào)度與執(zhí)行) 、MapReduce 的基本架構(gòu) 、JobTracker 作業(yè)跟蹤器 、TaskTracker 任務(wù)跟蹤器
MapReduce 與 HDFS 的部署關(guān)系
四、Yarn:平臺
Yarn 平臺的搭建 、 Yarn 實(shí)例的運(yùn)行 、Yarn 應(yīng)用的監(jiān)控