原创 openmp 中部分函數簡介

接下來將考慮對plsa進行並行化,並行化主要包括機器之間的並行和單機多線程的並行,考慮採用omp來實現單機多線程的並行,這樣既可以快速驗證下算法的效率提升又可以避免把很多時間花在多線程控制上,結合算法特點,需要用到以下函數,在這裏簡單整理

原创 一致性哈希算法的簡單實現和在redis集羣的應用

    項目中需要搭建一個簡單的redis集羣,用來存儲系統中的特徵值,利用到一致性哈希算法,簡介可以看一致性哈希算法,本文簡單實現了一致性哈希的算法,主要闡述一下應用場景和一些感想。 #ifndef _CONSISTENTHASH_H

原创 chrome插件-新聞推薦評測插件開發

    在實現新聞推薦的過程中,需要對推薦算法進行評測來衡量推薦的效果。前期一般通過人工去評測,但是因爲是根據網頁來推薦的,爲了滿足隨機性和提高效率,開發了基於chrome的插件來對網頁的推薦效果進行評測,前期主要是爲了解決一些比較明顯的

原创 關於推薦系統

推薦系統實踐和系統接觸了一些,偶然讀到百分點推薦系統設計一文,有些感想總結如下: 1.推薦的行業差異性 a)行業共有的:實時性,高可用性等主要體現在架構上 b)差異性主要體現在推薦的內容上:有的購買重複性高,具有週期性,有的產品就

原创 倒排索引-Indexing Boolean Expressions

在搜索領域,索引是一項非常重要的技術,直接影響到查詢的效率,其基本的流程是:文章先進行分詞、計算權重,然後利用詞和文檔的信息建立倒排索引,在查詢的時候,得到符合條件的文檔的id集合,然後利用正排索引返回文檔的詳細信息,在計算廣告中,廣告主

原创 高負載下Nginx,Node.JS和網絡的優化

    Nginx和Node.JS通常一起使用,在高吞吐量的Web應用程序中是一對完美的組合。它們都基於事件驅動原則設計,並且能夠越過困擾傳統Web服務器如Apache的C10K限制擴展到更高的水平。即插即用的配置可以使你的應用工作的足夠

原创 基於情感詞庫和PMI互信息的情感分類

     情感分類在數據挖掘領域應該是一個比較細分而且難做的部分,之前在研究生階段瞭解了一點,印象中有研究把twitter的情感可以分爲21類,情感分析在觀點預測、市場營銷都有一定的用處,剛好項目中有需要區分用戶情感的部分,就花了點時間實

原创 非負矩陣分解中基於L1和L2範式的稀疏性約束

L1、L2範式     假設需要求解的目標函數爲:                     E(x) = f(x) + r(x)     其中f(x)爲損失函數,用來評價模型訓練損失,必須是任意的可微凸函數,r(x)爲規範化約束因子,用來

原创 Thrift 中以GBK傳輸中文字符和分詞服務搭建

     項目中需要將分詞做成線上服務形式,服務後端用c++實現,客戶端用java實現,來調用分詞的服務。由於分詞程序默認是以GBK編碼爲準,但是JAVA讀寫字符串的固定編碼爲utf-8,需要在數據傳輸的時候以GBK編碼方式傳輸,Thri

原创 Hadoop Streaming shell 腳本命令彙總

    Hadoop Streaming由於編程相對容易,開發效率比較快,在項目中比較採用這種方式進行JOB的開發,在提交JOB的時候,都會把相關的命令整合到一個shell 文件,這裏作個彙總,雖然現在沒有機會做Hadoop 相關的,記下

原创 中文字符串的編碼轉換(c實現)

    中文字符串在c/c++中表示爲字節序列,在分詞的時候需要根據不同的編碼方式進行分詞,一般分詞器需要轉換成統一的編碼方式再進行轉換,有些分詞器如ICTCLAS在分詞的時候可以不顯示定義編碼方式,可以檢測字符串的編碼方式再進行轉換,本

原创 PHP 連接Mongo操作實例

工作之餘,給內容做了個小工具,數據需要存儲到mongo裏面,簡單的封裝了相關的API, 方便查看,因爲是內部工具,用戶數不多,並沒有考慮併發方面的性能,倒是根據連接的時候出現的remote connection closed的except

原创 基於One-Class的矩陣分解方法

    在矩陣分解中, 有類問題比較常見,即矩陣的元素只有0和1, 對應實際應用中的場景是:用戶對新聞的點擊情況,對某些物品的購買情況等。基於graphchi裏面的矩陣分解結果不太理想,調研了下相關的文獻,代碼主要實現了基於PLSA的分解

原创 聚類(一)pyspark 實現特徵的ID化

項目中需要實現一個簡單的聚類,初步衡量了下樣本數量在2000W左右,第一次寫spark還是14年的時候,而且都是基於java實現的模型算法,這次就簡單用pyspark實現了特徵的Id化, 即將字符串類型的特徵轉爲數字表示的Id。這個在模型

原创 那些年,我使用過的輪子(一)--Redis

背景   最近面試準備加上工作交接有點小忙,導致原來的計劃耽擱了蠻久,上午剛回京,偷個安靜的下午來完成這篇文章。Redis 作爲一個廣泛使用NoSQL的存儲工具,相信大家都比較熟悉了, 從工作至今3年的時間裏面,對它的使用是比較多的,當然