原创 爬蟲

import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.util.*; import model.DataBase; i

原创 Maven

轉載:https://www.cnblogs.com/whgk/p/7112560.html maven(一) maven到底是個啥玩意~       我記得在搞懂maven之前看了幾次重複的maven的教學視頻。不知道是自己悟性太低還是

原创 RDD操作詳解

1、RDD操作詳解 啓動spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本轉換  map map是對RDD中的每個元素都執行一個指定的函數來產生一個新的RDD。

原创 十大排序

轉:https://blog.csdn.net/WangQYoho/article/details/52584640 引 這段時間博主逐步替換爲Java的實現 //博主留 2017.9.15 //2017.10.10完成冒泡排序的修改 /

原创 scala

https://blog.csdn.net/c391183914/article/details/78647533#%E5%8D%81%E4%BA%8C-%E6%B3%A8%E8%A7%A3

原创 面試題(7)

https://blog.csdn.net/wdr2003/article/details/79597529 https://blog.csdn.net/wdr2003/article/details/79597530 https://b

原创 面試題(4)

https://blog.csdn.net/wdr2003/article/details/79597528 2.23. 我們開發job時,是否可以去掉reduce階段。 可以。設置reduce數爲0 即可。 2.24. datanode

原创 面試題(2)

https://blog.csdn.net/wdr2003/article/details/79597526 2.7.  用mapreduce來實現下面需求? 現在有10個文件夾,每個文件夾都有1000000個url.現在讓你找出top1

原创 面試題(3)

https://blog.csdn.net/wdr2003/article/details/79597527 2.13. 簡述hadoop的調度器 FIFO schedular:默認,先進先出的原則 Capacity schedular:

原创 面試題(1)

https://blog.csdn.net/wdr2003/article/details/79597525 1.   選擇題 1.1.  下面哪個程序負責 HDFS 數據存儲。 c)Datanode  答案 C datanode 1.2

原创 spark streaming 學習(和flume結合+和kafka 的結合)

https://blog.csdn.net/yewakui2253/article/details/80460759

原创 spark性能調優

解決方案一:使用Hive ETL預處理數據 方案適用場景:導致數據傾斜的是Hive表。如果該Hive表中的數據本身很不均勻(比如某個key對應了100萬數據,其他key纔對應了10條數據), 而且業務場景需要頻繁使用Spark對Hive表

原创 shuffle調優

shuffle調優 調優概述 大多數Spark作業的性能主要就是消耗在了shuffle環節,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,就有必要對shuffle過程進行調優。但是也必須提

原创 scala中多種集合

1.創建映射 1)創建不可變的映射 scala> val status = Map(1 -> "a",2 -> "b") status: scala.collection.immutable.Map[Int,String] = Map(1

原创 zookeeper知識點

1.ZooKeeper是什麼? ZooKeeper是一個分佈式的,開放源碼的分佈式應用程序協調服務,是Google的Chubby一個開源的實現,它是集羣的管理者,監視着集羣中各個節點的狀態根據節點提交的反饋進行下一步合理操作。最終,將簡單