台部落donger_

Spark性能問題及調優方法 1.Spark算子調優最佳實踐 1.1 使用mapPartitions取代map操作如果在映射過程中需要頻繁創建額外的對象，使用mapPartitions要比使用map高效。例

2020-02-22 21:07:56

scala數據結構 1、種類 scala的數據結構有：數組Array、元組Tuple、容器Collection、序列Sequence、集合Set、映射Map、迭代器Iterator 2、數組創建方式 (創建一個長度爲1

2020-02-22 21:07:56

1.git是幹嘛用的？ git是一個版本管理系統，給個冗長的例子：假如你用word寫論文，正常論文需要修改很多遍，當某天你修改時發現，原來上一個版本寫的纔是對的，修改完反而錯了。這時，如果你要回到之前的版本，除非你之前每修改一次就另

2019-10-26 02:24:08

目的：通過spark-submit提交scala代碼 scala代碼需要先編譯才能在spark上跑工具：sbt 下載地址sbt 正式開始假設現在的地址是 /home/sparknode/scalacode，則

2019-08-23 00:26:31

1.pyspark連接hbase查找和寫入數據廈門大學數據庫實驗室

2019-08-06 00:29:26

1.監控數據官方案例實現 cd ../flume mkdir job cd job vim flume-telnet-logger.conf # example.conf: A single-node Flume configu

2019-08-03 01:02:24

ERROR [KafkaServer id=1] Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer) java.l

2019-08-03 01:02:24

啓動 #!/usr/bin/env bash echo "start zkServer..." for i in master node1 node2 node3[修改爲自己的節點] do echo $i ssh $i "source

2019-08-02 01:27:32

此處提供練習數據，具體查詢可點擊hive sql 4個表 student、course、teacher、score 學生表、課程表、教師表、成績表 1.student sid,sname,sbirth,ssex,sclass 1,趙雷

2019-07-31 02:23:08

具體練習數據可從Hive sql數據獲取 #0.創建數據庫 create database traindb; use database triandb; #1.建表 student表 create table student(sid

2019-07-31 02:23:08

BlockManager：spark底層負責數據管理的組件。每一個節點上都有BlockManager，而Driver有BlockManagerMaster（Driver有DAGScheduler，DAGScheduler有BlockMa

2019-07-31 02:23:08

1.使用spark-submit提交腳本 2.此時會產生一個Driver進程，Driver主要用來運行我們提交的代碼 3.spark腳本的開頭通常是創建SparkContext的代碼，Driver運行到此處時，先創建SparkContex

2019-07-31 02:22:58

參考：北風網 Spark 2.0從入門到精通垃圾回收器（Garbage Collect GC）：尋找內存中哪些對象已不再使用，然後就清理掉這些對象，騰出空間用於創建其它新對象。 GC的影響： 1.GC對性能的影響在於，如果內存中數據量比

2019-07-31 02:22:58

//二叉排序樹 //由數組轉爲二叉排序樹 //三種遍歷方式 //添加節點 //刪除節點 //查找節點 //查找父節點 class TreeNode(Value:Int){ var value = Value var le

2019-07-07 01:14:22

1.選擇排序 #選擇排序 #每次找出一個最小值 def SelectSort(lst): n = len(lst) for i in range(n): valueI = lst[i] f

2019-07-07 01:14:22