原创 2014-7-12任務完成情況

1.查閱了中文編碼的相關知識,瞭解了中文GB2312編碼的規律。 2.查閱設置linux的字符編碼相關的資料。

原创 2014-7-16任務完成情況

1.對最大匹配分詞的結果,抽樣300個錯誤case進行分析,並對錯誤歸類;         參見:最大匹配分詞切分錯誤分類 2.調研主流的改進方案。         準備用最大概率法解決交集型歧義,尚未完成。

原创 2014-7-18任務完成情況

        1.最大概率法使分詞結果中的交集型歧義數量降低,對組合型歧義和未登錄詞有什麼影響?會不會使這些錯誤增多?                參見:正向(逆向)最大匹配和最大概率分詞的錯誤分析         2.最大概率

原创 2014-7-14任務完成情況

1.對分詞程序進行準確性驗證,完成了準確率、召回率的計算程序。 2.對程序整體結構進行了優化,函數命名和註釋的格式進行了規範,便於閱讀。         參見:用正向和逆向最大匹配算法進行中文分詞 3.繼續研究linux的編碼設置問題。

原创 正向(逆向)最大匹配和最大概率法分詞的錯誤分析

        正向最大匹配、逆向最大匹配、最大概率法是最簡單的三種分詞方式。本文從這三種分詞方法產生的錯誤入手,觀察他們分詞的優缺點。 1.基本情況    從語料中選取了200個句子作爲樣本,分別用三種不同的分詞方式進行分詞,觀察他們

原创 解決 Python.h:沒有那個文件或目錄 錯誤的方法

今天在ubuntu機子上安裝最大熵模型模型工具包和條件隨機場的經典工具包時,出現編譯錯誤。 錯誤如下: 致命錯誤: Python.h:沒有那個文件或目錄 編譯中斷。 error: Setup script

原创 EM算法解析

本文介紹EM算法的相關推導過程,同時會介紹混合高斯模型。 1.EM算法 1.1 EM算法的推導 觀測數據(不完全數據)X關於參數θ 的對數似然函數爲: L(θ)=logP(x|θ)=log∑zP(x,z|θ)=log∑z[q(z)P(x

原创 Unicode編碼的祕密

原文地址:http://blog.sina.com.cn/s/blog_6364576a0100gs7q.html     概念上的澄清:如果有人問你知道不知道unicode呢?你可能會說,我知道,不就是“統一字符編碼標準”嘛。對的

原创 鋪設地板問題--動態規劃

       有一條長度爲N*1米的路,需要鋪設地板,地板的規格爲1*1米,1*2米,1*3米,各種地板的數量不限。各種規格的地板可以隨意組合,試問:一共有多少種鋪法? Python代碼如下: def get_N(N): list_1

原创 升級ubuntu中的gcc和g++版本

        在利用張樂博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)和條件隨機場的經典工具包CRF++(CRF++: Yet Another CRF

原创 用最大熵模型進行字標註中文分詞(Python實現)

        同前面的那篇文章一樣(參見:最大熵模型進行中文分詞),本文運用字標註法進行中文分詞,分別使用4-tag和6-tag對語料進行字標註,觀察分詞效果。前面的文章中使用了模型工具包中自帶的一個樣例進行4-tag中文分詞,但

原创 VIM顯示utf-8文檔亂碼解決方法

1.相關基礎知識介紹         在Vim中,有四個與編碼有關的選項,它們是:fileencodings、fileencoding、encoding和termencoding。在實際使用中,任何一個選項出現錯誤,都會導致出現亂碼。

原创 機器學習中正則化項L1和L2的直觀理解

正則化(Regularization) 原文地址:http://blog.csdn.net/jinping_shi/article/details/52433975 機器學習中幾乎都可以看到損失函數後面會添加一個額外項,常用的額外項一

原创 linux下使用g++編譯cpp工程 "undefined reference to" 問題彙總及解決方法 ------非常非常好的一篇文章

原文地址:http://wiki.ubuntu.org.cn/Compiling_Cpphttps://www.cnblogs.com/battlescars/p/cpp_linux_gcc.htmlhttps://blog.csdn.n

原创 用條件隨機場CRF進行字標註中文分詞(Python實現)

        本文運用字標註法進行中文分詞,使用4-tag對語料進行字標註,觀察分詞效果。模型方面選用開源的條件隨機場工具包“CRF++: Yet Another CRF toolkit”進行分詞。         本文使用的中文語料