原创 Latex之數學公式的輸入

LaTeX最強大的功能就是顯示美麗的數學公式,下面我們來看這些公式是怎麼實現的。 數學公式的前後要加上 $ 或 \( 和 \),比如:$f(x) = 3x + 7$ 和 \(f(x) = 3x + 7\) 效果是一樣的; 如果

原创 感知機章節課後習題 + 證明感知機算法收斂性

看了下統計學習方法P36 的3個習題,試着做了下,下面給出自己的解答:  有不對的地方歡迎提出:) Q 2.1  感知機是線性模型,因此不能表示複雜的函數。請解釋感知機爲什麼不能學習異或XOR函數? A 2.1  XOR:這個想必大家都很

原创 Python 中文亂碼解決方法

比如我從網上下載一些信息或寫個電子郵件程序下載到本地,以記事本(txt) 形式寫入並保存在本地計算機,爲什麼看到只是英文和亂碼的?該怎樣做呢? 答 亂碼原因: 因爲你的文件聲明爲utf-8,並且也應該是用utf-8的編碼保存的源文件

原创 Ubuntu12.04下moses的安裝與測試Ubuntu

12.04 AMD64 運⾏行於VMware fusion 5.0.3 Boost 1.48.0 1.Boost的安裝(可參考官⽅方⺴⽹網站http://www.boost.org)由於Moses編譯需要boost和其他依賴庫⽂

原创 漫話中文分詞和語義識別(下):句法結構和語義結構

    這篇文章是漫話中文分詞算法的續篇。在這裏,我們將緊接着上一篇文章的內容繼續探討下去:如果計算機可以對一句話進行自動分詞,它還能進一步整理句子的結構,甚至理解句子的意思嗎?這兩篇文章的關係十分緊密,因此,我把前一篇文章改名爲了《漫

原创 IBM 模型 1,2,3

原创 感知機學習

基本概念:感知機是二類分類的線性分類模型,對應於特徵空間中將實例劃分爲正負兩類的分離超平面,屬判別模型。感知機學習旨在求出將訓練數據進行線性劃分的分離超平面。   感知機的定義: 從輸入空間Rn到輸出空間{+1,-1}的函數映射:f(x)

原创 使用SGD(Stochastic Gradient Descent)進行大規模機器學習

1 基於梯度下降的學習 對於一個簡單的機器學習算法,每一個樣例包含了一個(x,y)對,其中一個輸入x和一個數值輸出y。我們考慮損失函數,它描述了預測值和實際值y之間的損失。預測值是我們選擇從一函數族F中選擇一個以w爲參數的函數的到的預測結

原创 統計學習方法閱讀筆記:k近鄰法

  k近鄰法由Cover和Hart在1968年提出,是一種基本的分類與迴歸方法。k近鄰法的輸入是實例的特徵向量,對應於特徵空間中的點,輸出爲實例的類別,可取多值(此前介紹的感知機模型只是線性二類分類模型)。k-nearest neighb

原创 最近鄰算法的實現:k-d tree

一、如何高效率地實現k近鄰法?   在SIFT圖像特徵匹配等應用中,需要在高維特徵空間中快速找到距離目標圖像特徵最近鄰的那個特徵點,往往需要進行比較的特徵向量的數量很大,如果進行樸素最近鄰搜索,也就是依次計算目標點和每一個待匹配特徵的

原创 MSRA實習結束

  昨天,爲期7個月的MSRA(微軟亞洲研究院)的實習劃上了一個句號,完成check out手續的時候,還是有一些不捨。7個月的實習相當充實和緊張,參與了很多項目,見了很多大牛。MSRA的FTE和實習生們都是相當聰明的,從他們身上,我看到

原创 編輯距離算法

動態規劃求編輯距離。允許的操作有:delete, insert, replace #include <iostream> using namespace std; const int MAXLEN = 100; int min(in

原创 c++成員函數的存儲

用類去定義對象時,系統會爲每一個對象分配存儲空間。如果一個類包括了數據和函數,要分別爲數據和函數的代碼分配存儲空間。 按理說,如果用同一個類定義了10個對象,那麼就需要分別爲10個對象的數據和函數代碼分配存儲單元,如圖8.4所示。 圖8

原创 判斷單鏈表是否存在環,存在的話找入口點

判斷是否有環 設置兩個指針(fast, slow),初始值都指向頭,slow每次前進一步,fast每次前進二步,如果鏈表存在環,則fast必定先進入環,而slow後進入環,兩個指針必定相遇。(當然,fast先行頭到尾部爲NULL,則爲無環