原创 定位python內存泄漏問題

記一次 Python 內存泄漏的排查 背景 上週使用我的python web框架開發的第二個項目上線了,但是沒運行幾天機器內存就報警了,8G內存使用了7G,懷疑有內存泄漏,這個項目提供的功能就是一堆機器學習模型,對歷史數據進行

原创 python脫機安裝依賴包

背景 部署到線上的服務不能提供外網權限,不能通過訪問公共pypi來拉取依賴包,那就只能去部署一個私有的python倉庫,搭建不麻煩,維護卻麻煩,所以作爲業務開發人員,要是有個方法,能把在開發階段開發機上的依賴包,打包上線到線上機器

原创 Spark成長之路(3)-再談RDD的Transformations

參考文章 coalesce()方法和repartition()方法 Transformations repartitionAndSortWithinPartitions 解釋 返回 源碼 coalesce和repa

原创 Spark成長之路(4)-分區器系統

Spark分區器HashPartitioner和RangePartitioner代碼詳解 分區器 總覽圖 分類如下: org.apache.spark下的HashPartitioner和RangePartitioner

原创 grpc提供http訪問方式

0x00 最近系統在從c++遷移到go,之前使用brpc,也需要轉移到grpc,但是grpc提供的接口服務原生無法被http訪問到,這對我們調試來說也很麻煩,所以需要讓grpc跟brpc一樣,http也能訪問rpc接口 0x01

原创 c++項目中引入xgboost靜態庫

參考文章 Using XGBOOST in c++ c++項目引入xgboost動態庫 問題背景 xgboost項目官方沒有提供c_api方式的編譯以及引入教程,所以剛開始我們是用直接把項目源碼引入到我們的項目中,非常

原创 Spark成長之路(10)-CountVectorizer

CountVectorizer 簡介 用文檔中單個單詞出現的次數組成一個向量。 代碼 object CountVectorizerExample { def main(args: Array[String]): Unit

原创 Spark成長之路(5)-消息隊列

參考文章:Spark分佈式消息發送流程 監聽器模式 volatile 因爲之前被這個消息隊列坑過(stage夯住原因分析),所以現在研究源碼,先從它下手,解答一下我這麼久的疑惑。 繼承關係 ListenerBus->Sp

原创 Scala練習-二叉樹查找

源碼 package day15 /** * Created by doctorq on 2017/6/30. * http://blog.csdn.net/chinabhlt/article/details/47

原创 Scala練習-排序算法總結

之前用Scala實現了9個排序算法,後續有時間湊個10大。 源碼已經全部上傳到github 冒泡:外層控制遍歷輪次i,內層負責交換數據,使最大的上浮到size-1-i的位置 快排:以第一個數爲標準,小於等於到放在左邊數組,大於的

原创 Scala練習-基數排序

基數排序 源碼 package day14 import scala.collection.mutable.ArrayBuffer /** * Created by doctorq on 2017/6/29. *

原创 Scala練習-二分查找

源碼 package day15 import day14.Utils import scala.collection.mutable.ArrayBuffer /** * Created by doctorq on

原创 Scala練習-順序查找

順序查找又名線性查找 原理 object SortSearch extends App { def search(array: Array[Int], find: Int): Unit = { if (arra

原创 Scala練習-選擇排序

源碼 選擇排序 package day14 import day14.StraightInsertionSort.{printlnArray, sortN2} /** * Created by doctorq on