原创 Python讀寫文件,文本處理,並把日期自動更新爲90天前

Mark下。今天任務中有一部分是對生成的文本進行處理,生成需要的格式,以方便下一步導入數據庫。 需求 原始文本格式如下: 生成的文檔格式應爲:取app或者input開頭的行。把日期相同的app和input放在一行,並把日期提前9

原创 java.lang.ClassNotFoundException: com.alibaba.fastjson.JSON

問題 今天直接用eclipse進行export出jar包,然後直接運行,出現以下錯誤。 java.lang.ClassNotFoundException: com.alibaba.fastjson.JSON 解決 因爲eclips

原创 轉:推薦系統十條經驗和教訓

Mark下: 2009年ACM推薦系統大會上Strand研究人員做的一個報告“推薦系統十堂課”,在這個報告中Strand的研究人員總結了他們設計推薦系統的經驗,提出了10條在設計推薦系統中學習到的經驗和教訓。 確定你真的需要推薦

原创 Hadoop作業提交分析(四)

  前面我們所分析的部分其實只是Hadoop作業提交的前奏曲,真正的作業提交代碼是在MR程序的main裏,RunJar在最後會動態調用這個main,在(二)裏有說明。我們下面要做的就是要比RunJar更進一步,讓作業提交能在編碼時就可實

原创 Hadoop作業提交分析(二)

     上一篇我們分析了bin/hadoop腳本,知道了提交一個Hadoop作業所需要的基本設置以及真正執行任務提交的類。這一篇我們就來分析這個提交任務的類org.apache.hadoop.util.RunJar,看它內部具體又做了

原创 Hadoop作業提交分析(五)

  經過上一篇的分析,我們知道了Hadoop的作業提交目標是Cluster還是Local,與conf文件夾內的配置文件參數有着密切關係,不僅如此,其它的很多類都跟conf有關,所以提交作業時切記把conf放到你的classpath中。

原创 Andrew Ng機器學習week7(Support Vector Machines)編程習題

Andrew Ng機器學習week7(Support Vector Machines)編程習題 gaussianKernel.m function sim = gaussianKernel(x1, x2, sigma) %RBFK

原创 推薦系統中顯性反饋數據和顯性反饋數據的比較

定義 顯性反饋行爲:用戶明確表示對物品喜好的行爲。 隱性反饋行爲:不能明確反映用戶喜好的行爲。 顯性反饋數據和隱形反饋數據的比較 顯性反饋數據 隱性反饋數據 用戶興趣 明確 不明確 數量 較少 龐大 存儲

原创 Andrew Ng機器學習week8(Unsupervised Learning)編程習題

Andrew Ng機器學習week8(Unsupervised Learning)編程習題 findClosestCentroids.m function idx = findClosestCentroids(X, centroi

原创 pandas 按照列A分組,將同一組的列B求和,生成新的Dataframe

  對於pandas中的Dataframe,如果需要按照列A進行分組,將同一組的列B求和,可以通過下述操作完成: df = df.groupby(by=['column_A'])['column_B'].sum()   生成的數據

原创 Hadoop作業提交分析(一)

bin/hadoop jar xxx.jar mainclass args……   這樣的命令,各位玩Hadoop的估計已經調用過NN次了,每次寫好一個Project或對Project做修改後,都必須打個Jar包,然後再用上面的命

原创 判斷某一天是當年的哪一天

需求 輸入年份,月份,日,判斷這一天是這一年的第幾天?(閏年的2月份爲29天,平年爲28天) 代碼 import java.util.*; public class Test { /** * 能被4整除且不能

原创 協同過濾算法:基於用戶和基於物品的優缺點比較

定義 UserCF:基於用戶的協同過濾算法 ItemCF:基於物品的協同過濾算法 UserCF和ItemCF優缺點的對比 UserCF ItemCF 性能 適用於用戶較少的場合,如果用戶很多,計算用戶相似度矩陣代

原创 Java如何把字符串表示的日期按要求變爲多少天前,多少天后

需求 用Java把字符串表示的日期按要求自動變爲多少天前,多少天后? 代碼 import java.text.ParseException; import java.text.SimpleDateFormat; import ja

原创 SPSS Modeler決策樹算法比較

模型準則 C5.0 CHAID QUEST C&RT 決策列表 支持連續目標 否 是 否 是 否 字符預測期拆分類型 多重 多重 二元 二元 多重 預測期選擇準則 信息度量 卡方檢驗 卡方檢驗和方差分析 離差度