原创 林子雨-2.2 Scala基礎知識

目錄   1、scala與java的if else的不同 2、for 2.1 for(變量 <- 表達式;變量<-表達式){語句塊} 2.2 for(變量 <- 表達式 if 條件表達式) 語句塊 3、異常 4、循環控制 4.1 終止從當

原创 scala裏如何使用元組

https://blog.csdn.net/u010454030/article/details/84914649

原创 林子雨-5.3-4 文件數據讀寫-綜合案例

目錄   1、讀寫文件 2、求TopN 3、求最大最小值 4、文件排序 5、二次排序 6、連接操作 1、讀寫文件 2、求TopN 分區分2個==用兩個線程 只有鍵值對纔可以排序 3、求最大最小值 4、文件排序 5、二次

原创 林子雨-2.3 面向對象編程基礎

目錄   1、類 private 中綴表示法 2、構造器 定義 主構造器和輔助構造器 3、對象(單例對象 singleton object) 單例對象 伴生對象 孤立對象 4、對象(apply方法) 5、對象(update方法和unapp

原创 python報錯:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 0

加上encoding='gb18030 order=pd.read_csv('F:/data/4/meal_order_info.csv',encoding='gb18030')

原创 VM三臺虛擬機搭建的HBase在啓動後的30s內會有部分進程自動消失

最後的解決辦法:三臺虛擬機的防火牆都進行關閉。 因爲已經配置了ssh,按理說防火牆不用關也是可以的。 Hadoop集羣就能在防火牆開啓的狀態下成功啓動。 但HBase不行,但把三臺虛擬機的防火牆關了HBase的進程就不會自動消失了。

原创 new SparkContext()不可以放在main函數外面

原文鏈接:https://blog.csdn.net/sinat_33761963/article/details/51723175  在寫spark程序的時候,許多人會遇到以下這個報錯,包括我

原创 筆記①:HeadFirst設計模式——引子

1、慢一點,我們理解的越多,需要記的就越少。停下來認真想,想得越深,越有可能學會並記住。 2、勤做練習,自己記筆記。 3、注重複習。 4、大聲說出來。解釋給別人聽有助於產生新的認識。 5、如果自己的大腦累了就休息,比如浮光掠影的看,比如忘

原创 spark dataframe中的for和if

儘可能地用map代替for map相較於for真的快很多 if 和 for 真的太爲難JVM了(運行效率非常低下) 他只是個單純的OO(卑微) 🤪   關於python中dataframe的 for 和 if ,有異曲同工之妙: http

原创 scala中的可變長數組

val buffer = ArrayBuffer[T]() 追加方法: += ++= append

原创 林子雨-2.4 函數式編程基礎

目錄   1、函數的定義與使用 定義 字面量 匿名函數 _ 2、高階函數 定義 3、針對容器的操作 (遍歷、映射) scala容器的標準遍歷方法foreach map flatmap 4、過濾和規約 過濾 規約 reduce fold 5

原创 林子雨-5.2 鍵值對RDD

目錄   1、創建鍵值對RDD 從文件加載 通過並行集合創建 2、常用的鍵值對RDD轉換操作(reduceByKey和groupByKey) 3、keys,values.sortByKey,mapValues,join 4、綜合實例  

原创 scala dataframe udf 函數總結

原文鏈接:https://www.jianshu.com/p/bac3f4d9bfc0 工作中需要對dataframe 寫出非常複雜的處理函數 使用udf 對單個函數進行處理,使之可以對整列數據

原创 實現ssh免密碼登陸

實現ssh無密碼登陸:即master和slave可以隨意切換 ssh master / ssh slave SSH協議在某些系統裏不自帶,所以在啓動SSH協議前,需要進行ssh和rsync兩個服務的檢查,確認是否已經安裝。Rsync是一個

原创 Dangling meta character '*' near index 0 *

原文鏈接:https://blog.csdn.net/zhouzhiwengang/article/details/53493810 1、split方法轉化字符串爲數組:      String