原创 Spark性能問題及調優方法

       Spark性能問題及調優方法 1.Spark算子調優最佳實踐 1.1 使用mapPartitions取代map操作 如果在映射過程中需要頻繁創建額外的對象,使用mapPartitions要比使用map高效。 例

原创 scala中的數據結構

scala數據結構 1、種類 scala的數據結構有:數組Array、元組Tuple、容器Collection、序列Sequence、集合Set、映射Map、迭代器Iterator 2、數組 創建方式 (創建一個長度爲1

原创 git基本操作

  1.git是幹嘛用的? git是一個版本管理系統, 給個冗長的例子:假如你用word寫論文,正常論文需要修改很多遍,當某天你修改時發現,原來上一個版本寫的纔是對的,修改完反而錯了。這時,如果你要回到之前的版本,除非你之前每修改一次就另

原创 spark提交scala代碼

目的:通過spark-submit提交scala代碼 scala代碼需要先編譯才能在spark上跑 工具:sbt            下載地址sbt   正式開始 假設現在的地址是 /home/sparknode/scalacode,則

原创 Spark、Hadoop連接Hbase學習博客

1.pyspark連接hbase查找和寫入數據 廈門大學數據庫實驗室

原创 Flume實例

1.監控數據   官方案例實現 cd ../flume mkdir job cd job vim flume-telnet-logger.conf # example.conf: A single-node Flume configu

原创 kafka啓動失敗,報錯java.lang.NoSuchMethodError

ERROR [KafkaServer id=1] Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer) java.l

原创 shell在集羣的所有節點上啓動 zookeeper

啓動 #!/usr/bin/env bash echo "start zkServer..." for i in master node1 node2 node3[修改爲自己的節點] do echo $i ssh $i "source

原创 用於hive sql的練習數據

此處提供練習數據,具體查詢可點擊hive sql 4個表 student、course、teacher、score 學生表、課程表、教師表、成績表   1.student sid,sname,sbirth,ssex,sclass 1,趙雷

原创 hive sql練習

具體練習數據可從Hive sql數據獲取 #0.創建數據庫 create database traindb; use database triandb; #1.建表 student表 create table student(sid

原创 Spark BlockManager

BlockManager:spark底層負責數據管理的組件。 每一個節點上都有BlockManager,而Driver有BlockManagerMaster(Driver有DAGScheduler,DAGScheduler有BlockMa

原创 spark工作流程

1.使用spark-submit提交腳本 2.此時會產生一個Driver進程,Driver主要用來運行我們提交的代碼 3.spark腳本的開頭通常是創建SparkContext的代碼,Driver運行到此處時,先創建SparkContex

原创 spark垃圾回收(GC)

參考:北風網 Spark 2.0從入門到精通 垃圾回收器(Garbage Collect GC):尋找內存中哪些對象已不再使用,然後就清理掉這些對象,騰出空間用於創建其它新對象。 GC的影響: 1.GC對性能的影響在於,如果內存中數據量比

原创 scala實現二叉排序樹的添加、刪除、查找、遍歷等操作

//二叉排序樹 //由數組轉爲二叉排序樹 //三種遍歷方式 //添加節點 //刪除節點 //查找節點 //查找父節點 class TreeNode(Value:Int){ var value = Value var le

原创 Python實現選擇排序、冒泡排序、快速排序

1.選擇排序 #選擇排序 #每次找出一個最小值 def SelectSort(lst): n = len(lst) for i in range(n): valueI = lst[i] f