原创 Mahout使用簡例

剖析mahout腳本mahout 位於$MAHOUT_HOME/bin目錄下,是所有mahout調用的入口。主要會做各類環境變量的設置。MAHOUT_JAVA_HOME:指定java的執行路勁,會覆蓋$JAVA_HOMEMAHOUT_HEA

原创 Mahout in Action(2012)翻譯第二章

  2.2 創建一個推薦器     2.3 構造一個推薦系統 推薦引擎室一個工具,一種回答問題的方法,“對一個用戶而言,什麼是最好的推薦呢?”在研究答案以前,最好是要先調查下問題。究竟什麼纔是真正的一個好的推薦引擎?當一個推薦引擎產出

原创 Mahout in Action 第四章 構建推薦器

 在做了之前的推薦計算和推薦數據的表示之後,讓我們真正進入到推薦器本身的詳細內容中,這纔是乾貨。 在Mahout中兩種衆所周知的推薦算法:基於用戶,以及基於商品的推薦器。本章深入講解背後的理論,以及Mahout中的實現。這兩個算法都是

原创 我的友情鏈接

51CTO博客開發

原创 海量數據處理:十道面試題與十個海量數據處理方法總結

 海量數據處理:十道面試題與十個海量數據處理方法總結 作者:July、youwang、yanxionglu。 時間:二零一一年三月二十六日 說明:本文分爲倆部分,第一部分爲10道海量數據處理的面試題,第二部分爲10個海量數據處理的方

原创 C/C++中的VA函數

VA函數(variable argument function),參數個數可變函數,又稱可變參數函數。C/C++編程中,系統提供給編程人員的va函數很少。*printf()/*scanf()系列函數,用於輸入輸出時格式化字符串;exe

原创 測試開發中的硬道理(《軟測之魂》讀後感)

測試設計是一個過程,它主要包括測試管理的設計,以及各種測試技術應用的設計,其中測試管理中的團隊管理方法設計與測試流程設計是重中之重,猶如遊戲中的遊戲規則(P53) 測試流程是指完成某項測試任務之時,對如何完成任務做的先後安排,如先有測試

原创 STL筆記(二):空間配置

前幾天面試到問STL中的空間配置策略,當時支支吾吾沒說全,回來翻出好久沒看的JJHou的《STL源碼剖析》,細細品讀了第二章,對其做如下總結,一來考驗下自己的STL功底,二來希望對廣大對於STL內存配置迷糊的同學們有幫助。這裏主要說S

原创 Mahout in Action Chapter 3 推薦數據的表示

 推薦結果的質量大部分由數據的數量和質量決定。“進去的是垃圾,出來的一定也是垃圾”在這裏再適用不過。擁有高質量的數據是一件好事,一般而言,擁有許多數據也是好的。 推薦算法自然是數據密集型的;算法的計算需要訪問大量的信息。數據的質量和它

原创 老大哥教育新入行的話

 做測試和做數據,會有完全不同的思考範疇和方式,你要努力轉變,數據是一個朝陽行業   給你一個方向,看你敢不敢興趣,個性化搜索,或者說個性化搜索這個東西怎麼做。給你發的那些資料主要是之前搜索在做什麼,現在我比較關心的是搜索將來要做什麼,以

原创 HashMap的實現原理與開發中的注意細節

    最近開發要用到HashMap。所以就抽空看了下HashMap的實現細節以及在開發過程中需要注意的一些小點,特別是併發訪問中,HashMap一直是性能瓶頸的罪魁禍首,有許多需要開發者來留意的地方。     HashMap在jdk中是一

原创 我的友情鏈接

51CTO博客開發