原创 個性化推薦系統技術總結

1 概述 個性化推薦系統 作爲一種信息過濾系統,個性化推薦系統在近幾年得到了學術界和工業界的廣泛關注。這與互聯網的信息爆炸是分不開的,只有信息量超過了用戶的處理能力,推薦系統才能發揮重要作用。 個性化推薦算法都來自於傳統的機器學習和數據挖

原创 python多線程--theading模塊

使用Condition對象可以在某些事件觸發或者達到特定的條件後才處理數據,Condition除了具有Lock對象的acquire方法和release方法外, 還有wait方法,notify方法,notifyAll方法等用於條件處

原创 信號量,鎖,條件變量的區別

互斥鎖 [plain] view plaincopy pthread_mutex_t mutex=PTHREAD_MUTEX_INITIALIZER;   或   pthread_mutex_t mutex;   in

原创 storm的併發

1 storm並行的基本概念 storm集羣中的一個機器可以運行一個或者多個worker,對應於一個或者多個topologies.1個worker進程運行1個或多個excutor線程。每個worker從屬於一個topology.exec

原创 maven 教程一 入門

摘要: (1)maven是項目管理工具,類似makefile。主要的生命階段有 validate:驗證工程是否正確,所有需要的資源是否可用。 compile:編譯項目的源代碼。   test:使用合適的單元測試框架來測試已編譯的源代碼。這

原创 storm第一篇--概念,例子,參數優化

1 概念 目前最新的0.8.0版本里面worker -> 進程。一個worker只能執行同一個spout/bolt的task,一個worker裏面可以有多個executor。executor -> 線程。 一個executor執行可以執行

原创 爬蟲/抓取工具彙總

(1)casperjs   內置完整的瀏覽器引擎,可以抓取(網頁特定內容),交互(提交表單等),做測試工具使用。

原创 python socket編程---從使用Python開發一個Socket示例說到開發者的思維和習慣問題

今天主要說的是一個開發者的思維和習慣問題。 思維包括編程的思維和解決一個具體問題的分析思維,分析思路,分析方法,甚至是分析工具。 無論是好習慣還是不好的習慣,都是在者一天一天的思維中形成的。那些不好的習慣,久了確實不好改。所以說,如

原创 linux top 命令---VIRT,RES,SHR,虛擬內存和物理內存(

VIRT,RES,SHR,虛擬內存和物理內存(轉) VIRT: 1、進程“需要的”虛擬內存大小,包括進程使用的庫、代碼、數據,以及malloc、new分配的堆空間和分配的棧空間等; 2、假如進程新申請10MB的內存,但實際只使用了1

原创 python zookeeper 在 uwsgi中 watcher不生效

def code_watcher(handle,type, state, path):     print "zk code watcher,pat

原创 ice使用過程遇到的問題

1 設置代理超時時間ice_timeout    ICE的每個連接都有兩個超時時間:ice_timeout、ice_connectiontimeout,分別對應消息的超時時間和連接建立   的超時時間,可以通過在代理上調用上述方法來設置超

原创 迴歸分析之線性迴歸

1迴歸分析 1.1概念 迴歸分析(英語:Regression Analysis)是一種統計學上分析數據的方法,目的在於瞭解兩個或多個變量間是否相關、相關方向與強度,並建立數學模型以便觀察特定變量來預測研究者感興趣的變量。 運用十分廣泛,

原创 C/C++定義全局變量/常量幾種方法的區別

摘要: (1)使用全局變量最穩妥的方法,就是在common.h中聲明,在common.cpp中定義;其他文件include “common.h”來使用全局變量 (2)全局域中只能聲明、初始化變量,不能運算等 在討論全局變量之前我們

原创 Slice到C++映射

按:本文是DPWI第6章的筆記。   客戶端Slice到C++映射定義的是:怎樣把Slice數據類型翻譯成C++類型,客戶怎樣調用操作、傳遞參數、處理錯誤。C++映射線程安全,不存在內存管理問題。不建議查看slice2cpp生成的C

原创 爲什麼要預估點擊率

想到這個題目是因爲 @lijiefei 某天跟我說他有師弟面淘寶時被問到 "點擊率預估的目標到底是什麼", 笨狗當時胡亂扯了一通, 發現要把這個似乎已經是真理的事情掰清楚還沒那麼容易, 於是有此念想寫文一篇詳細分析下原因 我和 jie