原创 素數與溢出在spark的應用

case object EdgePartition2D extends PartitionStrategy { override def getPartition(src: VertexId, dst: VertexId, num

原创 scala 柯里化

val tcp = "aaa" val tcp1 = "AaA" val tcptt: ((Char, Char) => Boolean) => Boolean = tcp.corresponds(tcp1)//(_.equals

原创 Scala SynchronizedMap 與java ConcurrentHashMap 初探

上圖是快學scala第一版的第十三章第九題,對其初步學習: Synchronized是會出現當一個線程A在get時,另一線程B也get,之後B執行了+1,但是A卻得到的還是+1前的值,只是個問題;如果鎖住整個集合僅僅用以一個線程操作,太耗

原创 spark實踐——處理表

import org.apache.spark.HashPartitioner import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry

原创 org.apache.hadoop.ipc.Client: Retrying connect to server

        這個問題導致jps查看結點進程時發現找不到NodeManager或一段時間後消失,網上查找了很多博客,因hadoop版本不一樣且出錯的原因也可能不同,所以找了老半天。 步驟:jps --> 看logs中.log文件 -->

原创 監控頁面信息

需要監控某頁面是否更新自己感興趣的內容,試了好多博客,目前發現一個能用的改造後如下: (爲何改造呢,因爲發現標籤與感興趣的內容必須根據具體url來改造,谷歌瀏覽器的話,fn+F12後再F5,查看network下內容) 我需要的信息在上圖

原创 Spark neo4j 圖中圈的發現算法

測試中,會更新到最後,預計一個月後會完工(2019-12-19)  19 days passed, it will be completed soon! ☺(2020-01-06) 23 days passed, the programm

原创 抽樣 拉希裏法的變形(Lahiri)

看spark1.3.0 kmeans源碼碰到抽樣理論問題:下面是摘錄的程序註釋與關鍵代碼 // On each step, sample 2 * k points on average for each run with probabi

原创 懸而未決的數學問題

1.XORShift與梅森旋轉素數法的原理及其應用

原创 面向接口編程詳解(二)——編程實例

通過上一篇文章的討論,我想各位朋友對“面接接口編程”有了一個大致的瞭解。那麼在這一篇裏,我們用一個例子,讓各位對這個重要的編程思想有個直觀的印象。爲

原创 spark調優

問題:後面的優化問題遇到了瓶頸。原因如下: 1.觀察到/tmp的使用率一度達到98%,如果再在某一個一個語句中增加一個分隔符設置,還是會出現磁盤空間不足問題; 2.在增加分隔符之前,成功的把主要結果數據存儲到內存中,使用序列化與壓縮

原创 int*&、int&*

致謝作者;原文出處:http://tech.ddvip.com/2012-10/1349927012183265.html 信很多CPPers跟我一樣,曾經在指針和引用裏徘徊了很久很久。經常弄混指針和引用,尤其是見到如題中列出那些用法,

原创 問題記錄

1.直接計算設備間的條件概率有一定道理,有另外的值得參考的數學方法:     1.1 計算均值與標準差        1.1.1  計算所有兩設備間的概率之和,然後求取均值,然後計算標準差,根據環球科學上面的超過4倍標準差就比較罕見的說

原创 多線程執行順序

在做一個爬天氣網上的多個省的天氣網頁,感覺單線程太慢,隨用到多線程看看能優化多少。。。 首先在每次CreateThread後Sleep(1000),總共建32個線程,每個線程對應一個網頁: [cpp] view plaincopy

原创 scala flatMap爲何能過濾掉Option中的None

------------------------------------------------------------------------- *********************************************