原创 素數與溢出在spark的應用
case object EdgePartition2D extends PartitionStrategy { override def getPartition(src: VertexId, dst: VertexId, num
原创 scala 柯里化
val tcp = "aaa" val tcp1 = "AaA" val tcptt: ((Char, Char) => Boolean) => Boolean = tcp.corresponds(tcp1)//(_.equals
原创 Scala SynchronizedMap 與java ConcurrentHashMap 初探
上圖是快學scala第一版的第十三章第九題,對其初步學習: Synchronized是會出現當一個線程A在get時,另一線程B也get,之後B執行了+1,但是A卻得到的還是+1前的值,只是個問題;如果鎖住整個集合僅僅用以一個線程操作,太耗
原创 spark實踐——處理表
import org.apache.spark.HashPartitioner import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry
原创 org.apache.hadoop.ipc.Client: Retrying connect to server
這個問題導致jps查看結點進程時發現找不到NodeManager或一段時間後消失,網上查找了很多博客,因hadoop版本不一樣且出錯的原因也可能不同,所以找了老半天。 步驟:jps --> 看logs中.log文件 -->
原创 監控頁面信息
需要監控某頁面是否更新自己感興趣的內容,試了好多博客,目前發現一個能用的改造後如下: (爲何改造呢,因爲發現標籤與感興趣的內容必須根據具體url來改造,谷歌瀏覽器的話,fn+F12後再F5,查看network下內容) 我需要的信息在上圖
原创 Spark neo4j 圖中圈的發現算法
測試中,會更新到最後,預計一個月後會完工(2019-12-19) 19 days passed, it will be completed soon! ☺(2020-01-06) 23 days passed, the programm
原创 抽樣 拉希裏法的變形(Lahiri)
看spark1.3.0 kmeans源碼碰到抽樣理論問題:下面是摘錄的程序註釋與關鍵代碼 // On each step, sample 2 * k points on average for each run with probabi
原创 懸而未決的數學問題
1.XORShift與梅森旋轉素數法的原理及其應用
原创 面向接口編程詳解(二)——編程實例
通過上一篇文章的討論,我想各位朋友對“面接接口編程”有了一個大致的瞭解。那麼在這一篇裏,我們用一個例子,讓各位對這個重要的編程思想有個直觀的印象。爲
原创 spark調優
問題:後面的優化問題遇到了瓶頸。原因如下: 1.觀察到/tmp的使用率一度達到98%,如果再在某一個一個語句中增加一個分隔符設置,還是會出現磁盤空間不足問題; 2.在增加分隔符之前,成功的把主要結果數據存儲到內存中,使用序列化與壓縮
原创 int*&、int&*
致謝作者;原文出處:http://tech.ddvip.com/2012-10/1349927012183265.html 信很多CPPers跟我一樣,曾經在指針和引用裏徘徊了很久很久。經常弄混指針和引用,尤其是見到如題中列出那些用法,
原创 問題記錄
1.直接計算設備間的條件概率有一定道理,有另外的值得參考的數學方法: 1.1 計算均值與標準差 1.1.1 計算所有兩設備間的概率之和,然後求取均值,然後計算標準差,根據環球科學上面的超過4倍標準差就比較罕見的說
原创 多線程執行順序
在做一個爬天氣網上的多個省的天氣網頁,感覺單線程太慢,隨用到多線程看看能優化多少。。。 首先在每次CreateThread後Sleep(1000),總共建32個線程,每個線程對應一個網頁: [cpp] view plaincopy
原创 scala flatMap爲何能過濾掉Option中的None
------------------------------------------------------------------------- *********************************************