大數據離線部分
HDFS
1:HDFS的架構部分及工作原理
NameNode:負責管理元素據,將信息保存在內存中
DataNode:保存數據,以塊的形式保存。啓動後需要定時的向NameNode發送心跳,報告自身存儲的塊信息
2:HDFS的上傳過程
3:HDFS的下載
4:NameNode的元數據安全機制
以記日誌的形式將每一個操作寫在磁盤的日誌文件中,然後藉助Secondary NameNode的checkpoint功能將fsImage和日誌進行合併。
重點:記住checkpoint工作過程
5:如果服務器的磁盤壞了,如何挽救數據?
配置多個dfs.namenode.name.dir 路徑爲本地磁盤路徑和nfs網絡磁盤路徑。
6:hdfs集羣中,受到拓展瓶頸的是NameNode還是Datanode?
是NameNode,因爲DataNode不夠可以很方便的水平拓展,而工作的NameNode只有一個,他的存儲能力完全取決於他的內存。
但是其實NameNode一般不會成爲瓶頸,因爲一個塊記錄的元數據信息大小約爲150B,如果每一個塊大小爲128M的話,那麼15G的NameNode內存可以存儲12PB的數據。
7:datanode明明已啓動,但是集羣中的可用datanode列表中就是沒有,怎麼辦?
在她的Data目錄下,已經有其他NameNode的標記,這個NameNode不認。
8:文件下載到window中,爲什麼會報錯?
默認使用操作系統的內核進行磁盤數據的寫入,也就是需要一個winutil的工具,而默認的安裝包中不提供,所以需要編譯源碼或者設置爲使用Java的進行磁盤寫入。
9:hadoop的HA(高可用)
MapReduce
1:MapReduce中,fileinputformat -> map -> shuffle -> reduce的過程
2:MapReduce中,job提交的過程
3:自定義Javabean作爲數據,需要extends writableandCompareble接口。
4:自定義outputformat,進行不同方向的處理。
5:MapReduce的一些應用場景
1、排序並且求 TOPOne 和TOPN
2、求某個用戶前幾個月的總流量,並且選擇出流量前幾名的用戶。
3、reduce端的join
4、map端join
5、求共同好友問題
hive
1:什麼是hive?
一個將sql轉化爲MapReduce程序的、單機版的、數據倉庫工具。通過關係型數據庫(mysql等)來記錄表元數據信息。真正的數據在HDFS中。
Hive利用HDFS存儲數據,利用MapReduce查詢分析數據
hive2.0版本之後,都是基於Spark處理了。
安裝的時候,需要注意jline的版本衝突。
2:如何啓動?
3:執行的sql的形式
hiveshell、 hive -e “sql命令”、 hive -f “一個包含着很多SQL語句的文件”
4:hive的創建表操作
內部表、外部表 就差連個關鍵字(external 和 location)
分區表、分桶表
5:hive查詢表
join
動態分區
分組查詢
複雜的那個累計報表操作。
6:hive自定義函數(UDF)
sqoop
利用hadoop的map端進行數據的並行導入導出。
安裝在HDFS上,配置HDFS的路徑和Hive路徑即可。
flume
1:agent:sources 、 channel 、 sinks
2:sources:exec、spooldir、arvo (加一個攔截器)
3:channel:men 、 disk
4:sinks:arvo 、HDFS、kafka
5:flume安裝在數據源這一邊。
6:如何自定義攔截器?
class myiterceptor implements Iterceptor
//裏面有一個靜態的公共內部類。
public static class mybuilder implements Iterceptor.Builder
7:如何實現flume的多級連接,以及如何實現高可用?
大數據實時storm部分
storm
1 : storm是一個實時的計算框架,只負責計算,不負責存儲。它通過spout的open和nextTuple方法去外部存儲系統(kafka)獲取數據,然後傳送給後續的bolt處理,
bolt利用prepare和execute方法處理完成後,繼續往後續的bolt發送,或者根據輸出目錄,把信息寫到指定的外部存儲系統中。
2:storm的數據不丟失原理
交叉收到的數據做異或元算中間結果不爲0的原理。
3:設置spout_max_pending (可以限流)
4:jstorm的通信機制,每一個:worker都有一個接受線程和輸出線程
5:storm的架構分析
nimbus、zookeeper、supervisor、worker
nimbus:接受任務請求,並且進行任務的分發,最後寫入到zookeeper中。
supervisor:接受nimbus的任務調度,然後啓動和管理屬於自己的worker進程,supervisor是可以快速失敗的,不影響任務的執行。
我們可以寫一個腳本來監控supervisor的進程,如果不存在了,立馬啓動,就可以了。
worker:啓動spoutTask、boltTask等等任務,去執行業務邏輯。
6:storm的編程模型
topology:由spout和bolt組成的一個流程圖。他描述着本次任務的信息
spout:
open
nexttuple
declareOutputFields
bolt:
prepare
execute
declareOutputFields
6:storm的tuple結構,它裏面有兩個數據結構,一個list、一個是map
list:記錄着信息
map:記錄着每個字段對應的下表,通過找到下邊再去上面的list中找數據。
7:storm任務提交的過程
kafka
1、kafka和jms的區別
2、kafka的topic理解
topic是邏輯存在的,真正在物理磁盤中的體現是partitioner,一個topic可以對應多個partition,不同的paritition存放在不同的broker中,以提高併發存儲能力。
3、partitioner
partition是topic信息在屋裏存儲中的具體體現,在磁盤中它是一個文件夾,名字是topic名字_partition編號。4、segment
每個partition對對應多個segment文件,默認大小是1G,爲了快速定位到指定的offset位置。
5、kafka爲什麼這麼快
1/使用了操作系統使用的pagecache緩存,緩存大,緩存到一定量的數據時,以順序寫入的方 式寫入到磁盤中。
因爲:磁盤順序寫入的方式非常的快=>600MB/s,而隨機存儲只有100kb/s左右。
2/使用操作系統的sendfile技術。在讀取信息發送的時候,不需要經過用戶區,而是在os端直接發送,可以減少很多步驟。
6、爲什麼要多個partitioner7、爲什麼每個partitioner需要切分爲多個segment文件
8、kafka的HA
對partitioner分區進行備份,利用zookeeper的選舉機制選擇leader。數據的生產存儲和消費讀取都是有leader負責,其他的replicatition只是負責備份而已。
9、kafka如何用shell腳本來講一個文件讀寫進去?10、kafka如何用JavaAPI實現生產者和消費者?
大數據一站式解決方案:Scala和Spark部分
scala回顧
1、如何定義變量
2、如何定義函數、方法,如何在將函數作爲方法的參數傳入進去?
3、條件判斷語句,循環控制語句
4、集合操作:Array、list、set、tuple、map (注意:可變和不可變的區別)5、樣例類的使用6、trit、抽象類的使用7、主構造器和輔助構造器的使用
8、scala的高級特性
高階函數:作爲值得函數、匿名函數、閉包、柯里化
隱式轉換:一個類對象中,如果他沒有摸一個功能,但是我們有想要它實現,可以使用英式轉換的方式。
object MyPredef{
//定義隱式轉換方法
implicit def fileReadToRichFile(file: File)=new RichFile(file)
}
使用:
import MyPredef._9、Actor
寫起來像多線程,用起來像socket10、akka
ActorSystem.actorOf()創建一個Actor,
創建的同時,就是執行Actor中的prestart方法,去初始化一些信息。
Spark RDD
1、SparkRDD叫做:彈性分佈式數據集,其實就是一個類,用來描述:任務的數據從哪裏讀取、用那個算進行計算、得到的結果有存放在哪裏、RDD之間的依賴關係是款以來還是窄依賴
2、RDD有五個特點
一系列分區
每個算子作用在每個分區上
一系列依賴關係
最有位置(如果從HDFS上讀取數據)
3、RDD的兩種算子Transformation和Action
Transformation是懶加載,只是定義了這個算子的任務,該如何做,但是還沒有做。
Action是立即執行,當執行到Action時,會觸發DAGSchudle切分stage,切分完成後,有TaskScheduler將任務通過DriverActor發送到executor中執行。
4、RDD的幾個複雜的Transformation
->combineByKey(x=>x,(a:List[String],b:String) => a :+ b,
(m:List[String],n:List[String])=> m ++ n)
第一個參數表示分組後的第一個值如何處理,
第二個參數表示後續的值和前一個值如何處理,
第三個參數表示,map端處理完成後,在reduce端如何對這些list進行處理。
->aggregate(“初始量,可以是String也可以是int”)(第一個func,第二個func)
初始量作用於沒一個分區,第一個func作用於map端,第二個func作用於reduce端。
->reduceByKey(+) 作用於map端和reduce端,可以進行局部聚合。
其實reduceByKey和aggregateByKey在底層都調用了combineByKey方法來實現響應的功能。
->mapPartitions
對每一個分區進行操作,直接在裏面使用匿名函數即可
當然如果邏輯非常複雜也是可以考慮在外面先定義好這個函數之後在傳輸進去。
rdd1.mapPartitions((it:Iterator[String]) => {
it.toList.map(x => (x,1)).iterator
})
mapPartitionsWithIndex
首先定義一個函數,當然也可以寫在裏面作爲匿名函數
val func = (index:Int, it:Iterator[Int]) => {
it.toList.map(x => ("index:" + index, x)).iterator
}
rdd1.mapPartitionsWithIndex(func).collect
5、RDD自定義Partitioner
//自定義分區器,重寫裏面的getPartition方法和numPartitions方法。
//構造這個對象的時候,就把所有情況的信息傳輸過來,然後在裏面進行分類處理。
class HostPartition(hostArr:Array[String]) extends Partitioner{
//對所有的數據進行分類,每一種類型對應一個int編號。所以使用map比較合適。
val map = new mutable.HashMap[String,Int]()
for(index
map.put(hostArr(index),index)
}
//重寫getPartition的方法。
override def getPartition(key: Any): Int = {
map.getOrElse(key.toString,0)
}
override def numPartitions: Int = hostArr.length
}
應用:
val hostPartition: HostPartition = new HostPartition(hostList)
val allPartitionRDD: RDD[(String, (String, Int))] = host_url_count.partitionBy(hostPartition)
6、自定義排序規則 ==>定義一個
case class Gril(yanzhi:Int,nianling:Int) extends Ordered[Gril] with Serializable{
override def compare(that: Gril): Int = {
val yanzhiResult: Int = this.yanzhi.compareTo(that.yanzhi)
if(yanzhiResult == 0){
return this.nianling.compareTo(that.nianling)
}
return yanzhiResult
}
}
應用:
val rdd2: RDD[(String, Int, Int)] = rdd1.sortBy(msg => Gril(msg._2,msg._3))
Spark的SQLContext
1、Spark整合Hive和HDFS 只需要將Hive的hive-site.xml ; hadoop的core-site.xml和hdfs-site.xml拷貝到Spark的conf目錄下即可。Spark就知道如何使用hive的表,同時也知道去哪個NameNode哪裏都數據了。
2、DataFrame是什麼?
是一個分佈式數據集,對RDD的封裝。RDD有的方法他基本上都有
3、DataFrame如何創建?
三種方式:->RDD + case class
->RDD + structType
->sqlContext.read.format.options(Map())
4、DataFrame首先需要註冊成表結構之後纔可以使用sqlContext來操作。
dF.registerTempTable(“person”)
5、使用sqlContext ==> 返回一個DataFrame
sqlContext.sql(“select * from person”)
6、DataFrame將數據寫入到HDFS或者mysql中
val prop = new Properties()
prop.put("user", "root")
prop.put("password", "815325")
//如果數據庫中沒有這個表,那麼他也會創建一張表(很強大)
resultDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/bigdata","result",prop)
結語
感謝您的觀看,如有不足之處,歡迎批評指正。
爲了幫助大家讓學習變得輕鬆、高效,給大家免費分享一大批資料,幫助大家在成爲大數據工程師,乃至架構師的路上披荊斬棘。在這裏給大家推薦一個大數據學習交流圈:658558542 歡迎大家進×××流討論,學習交流,共同進步。
當真正開始學習的時候難免不知道從哪入手,導致效率低下影響繼續學習的信心。
但最重要的是不知道哪些技術需要重點掌握,學習時頻繁踩坑,最終浪費大量時間,所以有有效資源還是很有必要的。
最後祝福所有遇到瓶疾且不知道怎麼辦的大數據程序員們,祝福大家在往後的工作與面試中一切順利。