原创 reduceByKey(_ ++ _)

很靈性的用法 val y = sc.textFile("file:///root/My_Spark_learning/reduced.txt") y.map(value=>value.split(",")) .map(value=

原创 Cannot cast INT32 into a NullType(spark從mogo抽取數據)

mogo原生數據  用spark取抽取過來之後老是報這個錯誤Cannot cast INT32 into a NullType類型轉換異常 閱讀官方文檔: mogo爲非關係型數據庫,相同的字段會存不同的類型的值, sampleSize

原创 用spark從MongoDB抽取數據存到MySQL(數據少一條)

從MongoDB裏面用spark抽取數據增量存到MySQL,十天以後發現數據少一條, 少了的那一條MongoDB原始數據: spark讀取過來的數據:  存到MySQ裏面的數據:  MySQL的表結構:    問題原因:存入MySQ

原创 sparksql傳入$

 搬磚要換着法搬,往 spark.sql(s""" """) 裏面傳入$,正斜線,反斜線轉義沒毛用,聰明的人會看下圖

原创 MySQL中rank函數實現(@i := 0)

    要在mysql中聲明一個變量,你必須在變量名之前使用@符號。FROM子句中的(@i := 0)部分允許我們進行變量初始化     數據來源: https://blog.csdn.net/fashion2014/article/d

原创 scala的mkString方法

本人最近寫了一段很low的代碼,代碼如下 val username: Array[Row] = click_time.select("username").collect() for (i <- 0 until username.len

原创 sparkSQL的全局臨時視圖

沒事還是應該多看看官網,今天創建全局臨時視圖怎麼也調用不到,原來有貓膩 Spark SQL中的臨時視圖是會話作用域的,如果創建它的會話終止,它將消失。如果要在所有會話之間共享一個臨時視圖並保持活動狀態,直到Spark應用程序終止,則可以創

原创 spark的sample算子

sample(withReplacement, fraction, seed)  以指定的隨機種子隨機抽樣出數量爲 fraction 的數據,withReplacement 表示是抽出的數據是否放回,true 爲有放回的抽樣,false

原创 SimpleDateFormat的靈活用法

  val ss= "111.41.197.125 - - [13/Apr/2020:04:10:31 +0000] \"GET /st?type=listen&stype=heart&client=0&username=yua

原创 NOSQL--LSM樹

今天猛龍的球服是真好看,神一樣的男人又回來了!!!!   1、磁盤IO 磁盤讀寫時涉及到磁盤上數據查找,地址一般由柱面號、盤面號和塊號三者構成。也就是說移動臂先根據柱面號移動到指定柱面,然後根據盤面號確定盤面的磁道,最後根據塊號將指定的

原创 你想知道關於hive的所有東西都在這了

官方教程 工作中經常用到的SQL語句,原來都在這裏... 有了這個鏈接,工作用到hive就不用愁了... 傳送門: https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tut

原创 scala一行代碼實現經典實例wordcount

 原始代碼 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WorldCount { def mai

原创 漫畫算法——紅黑樹

  五一假期浪了三天,學習是什麼東東?,今早起牀看到一篇不錯的文章,分享給大家,祝大家五一最後一天假期快樂!!! 傳送門:   漫畫算法:什麼是紅黑樹?

原创 Leetcode做題日記:74. 搜索二維矩陣(java)

  題目:看到矩陣的時候,也許你會虛,我線性代數沒學好可能寫不出來,別怕其實就是二維數組的遍歷而已,認識到這一點,你就成功了一半,Just kidding,代碼實現不了有思路跟沒思路一樣, 最優算法查找方式見圖中紅色的箭頭; java基