原创 最大概率法分詞及性能測試

        最大概率分詞是一種最基本的統計方法分詞。一個待分割的字符串有多種分詞結果,最大概率分詞的原則是將其中概率最大的那個作爲該字符串的分詞結果。 第一部分 理論基礎         如對一個字符串:         S:有

原创 最大概率法分詞中詞頻懲罰因子的作用探究

        在最大概率法分詞的程序中,由於每個詞出現的次數分佈非常不均勻,而且我們要計算每個詞出現的概率,對於出現次數比較少的詞概率就很小,求句子中詞的概率之積的時候,需要將好多非常小的數作乘法,可能會將超出計算機所能表示的數的最小範

原创 Linux下C獲取文件的大小

原文地址:http://blog.csdn.net/gdujian0119/article/details/6363574 獲取文件大小這裏有兩種方法: 方法一、 範例: unsigned long get_file_size(cons

原创 用於不相交集合的數據操作——並查集

        假定有一組詞彙,其中有一些詞是同義詞,可以把意思不同的詞分別放到不同的集合中,構成一組不相交的集合,每個集合內部都是同義詞。最開始我們不知到哪些詞可以歸併到相同的組中,因此開始的時候它們每個詞爲一組。然後我們再一一給出哪些

原创 2014-7-13任務完成情況

1.設置linux系統編碼,使之支持中文。 2.研究了gb2312編碼中標點符號等特殊字符的碼位排布情況。 3.完成了最大匹配分詞程序,可以對測試語料進行分詞。

原创 2014-6-27任務完成情況

        (1)繼續完成昨天的程序。         已完成,參見:利用Trie樹求多個字符串的編輯距離的進一步優化

原创 2014-6-25任務完成情況

        (1)繼續閱讀C++ Primer。         已讀完第十一章《關聯容器》,p373~p398         (2)瞭解並查集算法。         已瞭解,編寫了簡單的算法。

原创 深入理解LINUX中的字符編碼

ubuntu 編碼的修改 http://blog.csdn.net/wy0110/article/details/20611279 深入理解LIN

原创 2014-7-15任務完成情況

正向和逆向最大匹配分詞接下來的問題: (1)準確率爲什麼低於召回率; (2)逆向爲什麼高於正向;(3)錯誤分詞的主要問題什麼?主流的解決辦法是什麼?        以上問題答案參見:用正向和逆向最大匹配算法進行中文分詞(續)

原创 2011-7-11任務完成情況

        1.瞭解了最大匹配分詞(正向和逆向)的相關內容。 2.完成了正向和逆向分詞的主要程序。

原创 2014-6-26任務完成情況

        (1)用另一種方法解決多個字符串的編輯距離問題。         未完,明日繼續。

原创 2014-6-28任務完成情況

        完成了並查集的相關程序。參見:用於不相交集合的數據操作——並查集

原创 用正向和逆向最大匹配算法進行中文分詞(續)

本文是用正向和逆向最大匹配算法進行中文分詞的續篇,對上文分詞的結果作一些分析。 一、結果分析:         1.程序運行結果,如下圖所示:         2.總體分析。         (1)正向和逆向匹配都正確的句子數目爲 1

原创 用正向和逆向最大匹配算法進行中文分詞

1.概述         用正向和逆向最大匹配算法進行中文分詞。 2.遇到的問題         編碼問題,Linux默認的編碼是UTF-8編碼,對於漢字,每個字佔三個字節。而本文使用的語料爲1998年1月的人民日報語料,爲GB2312編

原创 將string轉換成char*

原文地址:http://blog.sina.com.cn/s/blog_786ce14d01014lpr.html string 是c++標準庫裏面其中一個,封裝了對字符串的操作 把string轉換爲char*有3中方法:1.data如