原创 spark mllib IDF源碼解析

通常在文本向量化的過程中,通常用的比較多的就是tf-idf、word2vec、CountVectorizer的這幾個方法,前面的博客有分析過HashingTF和CountVectorizer方法,今天來分析IDF, 通常IDF和H

原创 那些年用過的時間衰減函數

在我們日常的應用中時間衰減函數無處不在,比如避免出現猶太反應(強者愈強,弱者愈弱)各種排行榜;通常我們希望某些指標如文章熱度、電影評分隨着時間的漂移越來越低或者隨着時間的衰減出現一個係數能擬合這一過程,比較出名的就是牛頓冷卻定律。

原创 spark 排序實現原理 RangePartitioner

sprak Core中比較常用的排序方法sortBy和sortKByKey,這是一個shuffle類算法子,寬依賴,出發DAGSchedular劃分Stage,那麼他們排序的原理是啥呢? 第一步Stage0: 分區採樣Sample

原创 Hive統計每日新增及其二日和三十日回訪比例

數據如下: 一、求每日新增 方法:每日新增即用戶第一次訪問,那麼此時按照用戶的id爲key做分組,求他訪問的最大時間和最小時間(天); 如果最大時間等於最小時間,那麼說明用戶是第一次訪問,否則不是;那麼總的來說就是按照用戶的最小

原创 spark sql 自適應 Adaptive Execution

一、Spark 目前現有的一些問題 問題一:Shuffle partition數量沒有達到最優 在Spark SQL中,我們可以通過spark.sql.shuffle.partition來設置shuffle後的partition數

原创 spark mongodb 踩坑 Caused by: java.io.InvalidClassException: com.mongodb.spark.rdd.MongoRDD

本人在工作中用到了部分spark-mongodb的整合,今天在測試環境測試的時候,提交任務到yarn出現問題,具體描述如: 根據錯誤提示,搜索了很久,說class 序列號問題 經過仔細排查後,發現,分析:client端類版本與s

原创 spark core sortBy和sortByKey探索

感覺自己好久沒有更新過博客了,本人最近有點兒迷失,特來寫篇技術博客,以做自警 不知道大家有沒有注意到,大家在編寫spark程序調用sortBy/sortByKey這兩個算子的時候大家會不會有這樣子的疑問,他們兩個明明是transf

原创 mongodb常用操作

MongoDB常用操作整理 Mongodb:是一種NoSQL數據庫,NoSQL:Not Only SQL SQL: 數據表->JDBC讀取->POJO(VO、PO)->控制層轉化爲JSON數據->客戶端 這種轉換太麻煩了,如果有直接

原创 spark streaming 應用程序 監控 郵件提醒

spark streaming應用程序,放到線上後,怎麼監測spark streaming程序的阻塞狀態, 雖然spark 提供了spark webUI去查看,但是作爲開發人員總不能天天去看spark webUI頁面吧, 去官網看,貌

原创 文本自動摘要 -- textteaser

單文本摘要算法現在有很多 ,可以實現基於關鍵詞的摘要方法,也有基於pagerank實現的textrank,也有textteaser 今天簡單來介紹和實現textteaser摘要算法: 統計指標: 1)句子長度,長度爲某個長度的句子爲最理

原创 spark 文本 kmeans 和 lda 實戰

“` val sourceDataFrame = sqlContext.read.parquet(“hdfs://host:9000/chain/formatFile”) sourceDataFrame.cache()

原创 java tf-idf提取關鍵字

最近在研究nlp,nlp第一步就是分詞,目前開源的工具中,java的有中科院的分詞工具nlpir、還有word分詞器,ansj_seg等,python的比較火的jieba,ansj_seg5.x版本之後提供了提取關鍵字的方法,jieba也

原创 文本分類-fastText

一、FastText架構 1. fastText 原理 fastText 方法包含三部分:模型架構、層次 Softmax 和 N-gram 特徵。下面我們一一介紹。 1.1 模型架構 fastText 模型架構如下圖所示。fastTex

原创 mongodb 分片集羣 刪除片鍵 code : 20 sharding already enabled for collection

mongodb分片集羣指定片鍵刪除了一個collection,再次爲這個collection創建片鍵的時候,會報錯 { "ok" : 0, "errmsg" : "sharding already enabled fo

原创 spark 問題

spark on yarn 問題 spark通過yarn提交任務,任務沒跑就停止了,8088頁面顯示成功,點擊history顯示 Shutdown hook called before final status was reported.