原创 C++編程注意事項

使用指針的時候要先判斷是否爲NULL,注意邊界情況。處理字符串注意首尾的空白字符。結構體最好寫一下初始化函數,因爲不同的編譯器默認值可能不同,造成隱性bug。

原创 mahout從零開始

背景 由於工作原因,有幸接觸並使用了mahout,mahout是一個apache開源的項目,直譯爲馴象人,實際上是一個數據挖掘的框架,可以和hadoop,spark,storm等結合使用,用於處理大數據。mahout比較吸引人的地方是,有

原创 python 獲取url的host

import urllib protocol, s1 = urllib.splittype('http://www.freedom.com:8001/img/people') # ('http', '//www.

原创 NLP一些基本概念初識

大量摘自維基百科、百度百科。 TF*IDF 在一份給定的文件裏,詞頻 (term frequency, TF) 指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化,以防止它偏向長的文件。(同一個詞語在長文件裏可能會比短文

原创 K-means聚類算法

背景 照例每週一個機器學習的經典算法,聚類是機器學習中一種重要的算法,特別是在推薦中,用戶喜歡某一類item,我們常常需要把這些item給聚類到一起。一個類中的item肯定是有相似特徵的,比如上一回樸素貝葉斯分類器中,我們把小明喜

原创 linux sed命令

linux之sed用法 轉自http://www.cnblogs.com/dong008259/archive/2011/12/07/2279897.html sed是一個很好的文件處理工具,本身是一個管道命令,主要是以行爲單

原创 nginx設置靜態文件

背景 在CUGBACM OJ2.0項目中,由於一直是測試開發環境,用的是django自帶的服務器來處理靜態文件,上了nginx服務器之後,需要配置上靜態文件路徑。如下: location ~/site_media/{ ro

原创 hadoop調優相關

 -jobconf mapred.reduce.slowstart.completed.maps=0.99 map完成99%纔開始reduce階段,避免reduce空等。 點贊 收藏 分享 文章舉報

原创 樸素貝葉斯分類器

背景 算是機器學習比較經典的算法中之一了,剛開始接觸機器學習的時候就有耳聞,當時看了看,看不懂,現在回過頭來漸入佳境,寫個博客mark一下。 貝葉斯定理 貝葉斯定理由英國數學家貝葉斯 ( Thomas Bayes 17

原创 linux tar壓縮和解壓

tar -zcvf xxx.tar.gz /xxx 把xxx文件夾壓縮到xxx.tar.gz 點贊 收藏 分享 文章舉報 SM-Alan 發佈了60 篇原創文章 · 獲

原创 linux screen

系統管理員經常需要SSH 或者telent 遠程登錄到Linux 服務器,經常運行一些需要很長時間才能完成的任務,比如系統備份、ftp 傳輸等等。通常情況下我們都是爲每一個這樣的任務開一個遠程終端窗口,因爲它們執行的時間太長了。必須等待它

原创 linux刪除大文件的前n行

linux刪除大文件的前n行 在數據挖掘中我們經常會增量更新訓練日誌,需要刪除前n行的過期數據,直接用sed命令比較慢,谷歌了一下,發現有個奇技淫巧: tail -n +3 old_file > new_file mv n

原创 C++ unordered_map

unordered_map,可以看做是一個哈希映射,當你需要記錄大量K/V鍵值對時適用。 聲明: unordered_map<Key_Type, Value_Type> name; 使用時類似於map:name["you"] = "Ala

原创 lua學習文檔

lua學習文檔 lua安裝 curl -R -O http://www.lua.org/ftp/lua-5.2.3.tar.gztar zxf lua-5.2.3.tar.gzcd lua-5.2.3make linux test

原创 linux awk詳解

http://zh.wikipedia.org/wiki/AWK 點贊 收藏 分享 文章舉報 SM-Alan 發佈了60 篇原創文章 · 獲贊 18 · 訪問量 11萬+