原创 定位python內存泄漏問題
記一次 Python 內存泄漏的排查 背景 上週使用我的python web框架開發的第二個項目上線了,但是沒運行幾天機器內存就報警了,8G內存使用了7G,懷疑有內存泄漏,這個項目提供的功能就是一堆機器學習模型,對歷史數據進行
原创 python脫機安裝依賴包
背景 部署到線上的服務不能提供外網權限,不能通過訪問公共pypi來拉取依賴包,那就只能去部署一個私有的python倉庫,搭建不麻煩,維護卻麻煩,所以作爲業務開發人員,要是有個方法,能把在開發階段開發機上的依賴包,打包上線到線上機器
原创 Spark成長之路(3)-再談RDD的Transformations
參考文章 coalesce()方法和repartition()方法 Transformations repartitionAndSortWithinPartitions 解釋 返回 源碼 coalesce和repa
原创 Spark成長之路(4)-分區器系統
Spark分區器HashPartitioner和RangePartitioner代碼詳解 分區器 總覽圖 分類如下: org.apache.spark下的HashPartitioner和RangePartitioner
原创 grpc提供http訪問方式
0x00 最近系統在從c++遷移到go,之前使用brpc,也需要轉移到grpc,但是grpc提供的接口服務原生無法被http訪問到,這對我們調試來說也很麻煩,所以需要讓grpc跟brpc一樣,http也能訪問rpc接口 0x01
原创 c++項目中引入xgboost靜態庫
參考文章 Using XGBOOST in c++ c++項目引入xgboost動態庫 問題背景 xgboost項目官方沒有提供c_api方式的編譯以及引入教程,所以剛開始我們是用直接把項目源碼引入到我們的項目中,非常
原创 Spark成長之路(10)-CountVectorizer
CountVectorizer 簡介 用文檔中單個單詞出現的次數組成一個向量。 代碼 object CountVectorizerExample { def main(args: Array[String]): Unit
原创 Spark成長之路(5)-消息隊列
參考文章:Spark分佈式消息發送流程 監聽器模式 volatile 因爲之前被這個消息隊列坑過(stage夯住原因分析),所以現在研究源碼,先從它下手,解答一下我這麼久的疑惑。 繼承關係 ListenerBus->Sp
原创 Scala練習-二叉樹查找
源碼 package day15 /** * Created by doctorq on 2017/6/30. * http://blog.csdn.net/chinabhlt/article/details/47
原创 Scala練習-排序算法總結
之前用Scala實現了9個排序算法,後續有時間湊個10大。 源碼已經全部上傳到github 冒泡:外層控制遍歷輪次i,內層負責交換數據,使最大的上浮到size-1-i的位置 快排:以第一個數爲標準,小於等於到放在左邊數組,大於的
原创 Scala練習-基數排序
基數排序 源碼 package day14 import scala.collection.mutable.ArrayBuffer /** * Created by doctorq on 2017/6/29. *
原创 Scala練習-二分查找
源碼 package day15 import day14.Utils import scala.collection.mutable.ArrayBuffer /** * Created by doctorq on
原创 Scala練習-順序查找
順序查找又名線性查找 原理 object SortSearch extends App { def search(array: Array[Int], find: Int): Unit = { if (arra
原创 Scala練習-選擇排序
源碼 選擇排序 package day14 import day14.StraightInsertionSort.{printlnArray, sortN2} /** * Created by doctorq on