原创 孤立點分析常用方法

孤立點是指數據集中那些小模式數據,它可能是度量或執行錯誤所導致的, 也可能是固有數據變異性的結果。Hawkins給出了其本質性定義: 孤立點是在數據集中與衆不同的數據, 使人懷疑這些數據並非隨機偏差, 而是產生於完全不同的機制。一般的孤立

原创 如何做一個優秀的eader

TeamLeader是比較尷尬的角色,是從技術往管理的一個嘗試性的階段,這個階段是比較辛苦的, 1. TL首先要注意自己的定位,許多事情你都有責任 從單位的角度,是希望你能站在他們的立場上把事情做好;從下屬的角度,他們希望能夠遇到一

原创 再見,2012! (轉自小武哥-左右程序,右手詩)

  又一年過去了,每年到了年底的時候,總會感嘆光陰比箭還快,離開家又整整一年了。回看了一下年初給自己制定的計劃,感慨滿滿,總覺得要寫點什麼,來對過去的一年有個交待,那就寫點什麼吧。       首先說一下工作,過去的一年,是整個搜索後

原创 configure: error: C++ preprocessor “/lib/cpp” fails sanity 錯誤的解決

 /lib/cpp fails sanity check的解決 在某些軟件的時候,運行./configure 會報錯,錯誤提示爲: configure: error: C++ preprocessor “/lib/cpp” fai

原创 決策樹 & SAS

決策樹 決策樹主要用來描述將數據劃分爲不同組的規則。第一條規則首先將整個數據集劃分爲不同大小的子集,然後將另外的規則應用在子數據集中,數據集不同相應的規則也不同,這樣就形成第二層數據集的劃分。一般來說,一個子數據集或者被繼續劃分或者單

原创 規則化和模型選擇(Regularization and model selection)

點贊 收藏 分享 文章舉報 statdm 發佈了76 篇原創文章 · 獲贊 17 · 訪問量 51萬+ 私信

原创 科普-文本挖掘(文本分類)流程

一個典型的文本分類的數據挖掘流程如下圖,這張圖初看有點亂,我這裏解釋一下,紅色的部分是訓練時候調用的模塊,綠色是測試時候調用的模塊,而藍色的部分是訓練的時候生成的中間文件,它們聯繫着訓練、測試兩個部分。從左到右看是算法運行的流程,首先用

原创 SAS邏輯迴歸實例

作爲某商品類目公司的市場分析師,你可能需要爲二值目標變量(purchase)建立邏輯迴歸模型,判斷某個顧客是否會產生購買。輸入數據集存放在SAS安裝文件的SAMPSIO.DMEXA1中,該數據集包含1966個顧客觀測值信息。它包含31個

原创 fedora16 下安裝 gcc4.7.1

去gcc官方網站 下載最新版本的gcc-4.7.0.tar.bz2,同時在infrastructure目錄下尋找下載【必須】的mpc-0.8.1.tar.gz、mpfr-2.4.2.tar.bz2,去http://gmplib.org/

原创 Fedora 添加國內源(sohu, 163)

在國內163和搜狐提供很好的源,現在我們把它們倆添加到我們的源庫。1. 添加搜狐的源 進入網站http://mirrors.sohu.com/,在左邊找到fedora目錄,點擊該行右邊的help, 然後 下載fedora-sohu.rep

原创 GCC 環境變量 & eclipse CDT 頭文件配置

在unix 下使用eclipse 進行c/c++開發時,默認是使用系統的頭文件路徑,如果你自己新安裝了編譯器,比如最新版 gcc 4.7.1,這個時候你要將頭文件 路徑指向你的gcc安裝路徑,配置如下圖: 菜單 window-->pref

原创 linux cat more less顯示文件的區別

cat命令功能用於顯示整個文件的內容單獨使用沒有翻頁功能因此經常和more命令搭配使用,cat命令還有就是將數個文件合併成一個文件的功能。 more命令功能:讓畫面在顯示滿一頁時暫停,此時可按空格健繼續顯示下一個畫面,或按Q鍵停止顯示。 

原创 linux程序分析工具介紹—ldd,nm

本文要介紹的ldd和nm是linux下,兩個用來分析程序很實用的工具。ldd是用來分析程序運行時需要依賴的動態庫的工具;nm是用來查看指定程序中的符

原创 判別模型、生成模型與樸素貝葉斯方法

點贊 收藏 分享 文章舉報 statdm 發佈了76 篇原創文章 · 獲贊 17 · 訪問量 51萬+ 私信 關注

原创 麗江遊玩攻略1

最近發現的好網站,關於遊玩,與大家分享:http://www.mafengwo.cn/travel-scenic-spot/mafengwo/10186.html   介紹很全面。--2012/08/14 概 況:     麗江古城位於中