原创 運行sparkstreaming的NetworkWordCount不能出現

官網:https://spark.apache.org/docs/2.2.0/streaming-programming-guide.html#points-to-remember-1 代碼: from pyspark impor

原创 兩個rdd函數的理解及python3不能使用元組

第一個: def get_mapping(rdd,idx): return rdd.map(lambda fields:fields[idx]) .distinct().zipWithIndex().collectAsMap(

原创 vmware workstation15 清理磁盤

自己本來在c盤安裝虛擬機,一週左右發現虛擬機越用越大都達到30多G了,c盤快要撐滿了。按照網上搜索的命令 vmware-tools-cmd disk shrink /出現錯誤,大概意思是不能使用。查百度找到原因,我的另外兩個虛擬機

原创 推導式

推導式是一種將for循環,if表達式以及賦值語句放到單一語句中產生序列的一種方法。 列表推導式 string=['china','japan','usa','uk'] upper_string=[x.upper() for x i

原创 python數據結構與序列

1 列表 列表是一種有序序列,各元素用逗號分隔,寫在[]中,也可以用list函數來定義,可隨時添加和刪除其中的元素 a=[1,2,3,4,5,6,7,8,9] 1.1列表索引和切片 索引從左到右是從0開始,從右到左是從-1開始

原创 RDD的分區計算-mapPartitions

spark中RDD計算是以分區爲單位的,而且計算函數都是在對迭代器複合,不需要保存每次計算的結果。mapPartitions的輸入函數是應用於每個分區,也就是把每個分區的內容作爲整體來處理的: def mapPartitions[U:

原创 RDD中map與flatMap函數的區別

map[U](f:(T)=>U):RDD[U] flatMap[U](f:(T)=>TraversableOnce[U]):RDD[U] map操作是對RDD中的每個元素都執行一個指定的函數來產生一個新的RDD,任何原RDD中的元素

原创 RDD分區及重新分區

RDD分區 rdd劃分成很多的分區(partition)分佈到集羣的節點,分區的多少涉及對這個rdd進行並行計算的粒度。分區是一個概念,變換前後的新舊分區在物理上可能是同一塊內存或存儲,這種優化防止函數式不變性導致的內存需求無限擴張。

原创 spark 2.2.0 scala eclipse運行wordcount 例子

前期配置工作:https://mp.csdn.net/mdeditor/84717937# 1在runcount.scala中寫入代碼 import org.apache.spark.SparkContext import org.a

原创 spark系統架構與節點

spark 採用主從(master/slave)架構構建計算機集羣 其中client爲提交spark程序的節點。其餘爲spark分佈式集羣中的物理節點,可以分爲兩類,集羣管理節點(clustermaster)和從節點(slave) c

原创 scala eclipse運行spark 2.2.0

工具: IDE SCALA 4.7 eclipse spark 2.2.0 1新建一個scala 工程, 2添加庫(這裏採用在建工程的時候增加庫),點擊Next,進入下一個界面: 3點擊Add External JARS按鈕,添

原创 類別不平衡對分類器的影響及其影響因素

類別不平衡是指在分類任務中不同類別的訓練樣本數目差別很大的情況,導致分類結果會偏向於大類,影響分類效果。 類別不平衡對樸素貝葉斯分類器的影響 類別不平衡對SVM的影響 ![在這裏插入圖片描述](https://img

原创 jupyter-notebook 以yarn模式運行出現的問題及解決

jupyter-notebook 以yarn模式運行的出現的問題及解決方法 之前用pyspark虛擬機只跑了單機程序,現在想試試分佈式運算。 在做之前找了書和博客來看,總是有各種各樣的問題,無法成功。現在特記錄一下過程: 這裏一共有兩

原创 python smote算法實現理解

代碼參考: https://blog.csdn.net/Yaphat/article/details/52463304?locationNum=7 import random from sklearn.neighbors import

原创 python class 的學習

class Student(object): pass 類是抽象的模板。在上面的代碼中,類student是從object繼承而來的,object是所有類最終都會繼承的類。 bart=Student() 創建bart實例 b