原创 redhat下安裝chrome

最近在學習linux,安裝的是redhat,自帶的firefox,由於不習慣firefox,想安裝一個chrome,在網上找的安裝方法,記錄一下方便以後查找 1.創建一個文件/etc/yum.repos.d/google.repo 2.

原创 Apache Mahout中的機器學習算法集

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序,並且,在 Mahout 的最近

原创 統計學習筆記(3)——k近鄰法與kd樹

        在使用k近鄰法進行分類時,對新的實例,根據其k個最近鄰的訓練實例的類別,通過多數表決的方式進行預測。由於k近鄰模型的特徵空間一般是n維實數向量,所以距離的計算通常採用的是歐式距離。關鍵的是k值的選取,如果k值太小就意味着整

原创 倒排索引基礎

1.單詞-文檔矩陣        通常檢索的場景是:給定幾個關鍵詞,找出包含關鍵詞的文檔。       怎麼快速找到包含某個關鍵詞的文檔就成爲搜索的關鍵。這裏我們藉助單詞-文檔矩陣模型,通過這個模型我們可以很方便知道某篇文檔包含哪些單詞,

原创 機器學習在互聯網應用面臨的 10 大挑戰

1: “數據稀釋性”:訓練一個模型,需要大量(標註)數據,但是數據往往比較稀疏。比如,我們想訓練一個模型表徵某人 “購物興趣”,但是這個人在網站上瀏覽行爲很少,購物歷史很少,很難訓練出一個 “meaningful model” 來預測應

原创 vi高亮相關問題

1 、配置文件的位置 在目錄 /etc/ 下面,有個名爲vimrc 的文件,這是系統中公共的vim配置文件,對所有用戶都有效。而在每個用戶的主目錄下,都可以自己建立私有的配置文件,命名爲:“. vimrc ”。例如,/root目錄下,通常

原创 對引用型參數是否加const限定一定要慎重

原始代碼如下: 編譯報如下錯誤: “錯誤:不能將類型爲‘Student&’的非const引用初始化爲類型爲‘std::string’的臨時變量” 分析: fn(string("Jenny"))調用後,由fn(Student& s)和St

原创 統計學習筆記(4)——樸素貝葉斯法

         樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。簡單來說,樸素貝葉斯分類器假設樣本每個特徵與其他特徵都不相關。舉個例子,如果一種水果具有紅,圓,直徑大概4英寸等特徵,該水果可以被判定爲是蘋果。儘管這些特徵相互依

原创 布爾檢索及其查詢優化

         針對布爾查詢的檢索,布爾查詢是指利用AND,OR或者NOT操作符將詞項連接起來的查詢。         舉個簡單的例子:莎士比亞的哪部劇本包含Brutus及Caesar 但是不包含Calpurnia?布爾表達式爲:Bru

原创 一位資深HR的職場感言

以前看過的一篇好文  今天偶然又看到了 收錄在此 在擔任公司高管的幾年間,我面試過數以百計的各個層面的員工,其中最讓我感到遺憾的一個現象就是很多人有着非常好的素質,甚至有的還是名校的畢業生,因爲不懂得去規劃自己的職業,在工作多年後,依然

原创 對線性迴歸,logistic迴歸和一般迴歸的認識

1. 摘要         本報告是在學習斯坦福大學機器學習課程前四節加上配套的講義後的總結與認識。前四節主要講述了迴歸問題,回歸屬於有監督學習中的一種方法。該方法的核心思想是從連續型統計數據中得到數學模型,然後將該數學模型用於預測或者

原创 文本特徵提取

文本挖掘模型結構示意圖 1. 分詞 分詞實例:        提高人民生活水平:提高、高人、人民、民生、生活、活水、水平 分詞基本方法:         最大匹配法、最大概率法分詞、最短路徑分詞方法 1.1 最大匹配法        

原创 基本Kmeans算法介紹及其實現

1.基本Kmeans算法[1] 選擇K個點作爲初始質心 repeat 將每個點指派到最近的質心,形成K個簇 重新計算每個簇的質心 until 簇不發生變化或達到最大迭代次數時間複雜度:O(tKmn),其中,t爲迭代次數,K爲簇的數目

原创 一元線性迴歸模型與最小二乘法及其C++實現

        監督學習中,如果預測的變量是離散的,我們稱其爲分類(如決策樹,支持向量機等),如果預測的變量是連續的,我們稱其爲迴歸。迴歸分析中,如果只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種迴歸分析稱爲一元線性

原创 統計學習筆記(1)——統計學習方法概論

1.統計學習         統計學習是關於計算機基於數據構建概率統計模型並運用模型對數據進行預測與分析的一門學科,也稱統計機器學習。統計學習是數據驅動的學科。統計學習是一門概率論、統計學、信息論、計算理論、最優化理論及計算機科學等多個領