原创 自動分詞算法的分類

我們可以將現有的分詞算法分爲三大類:基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。 1、 基於字符串匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個"充分大的"機器詞典中的詞條進行配,

原创 ME, HMM, MEMM, CRF

最大熵模型 Maximum Entropy現從一個簡單例子看起:比如華盛頓和維吉利亞都可以作人名和地名,而從語料中只知道p(人名)=0.6,那麼p(華盛頓=人名)的概率爲多少比較好呢?一個直觀的想法就是p(華盛頓=人名)=0.3。爲什麼呢

原创 一個基於搜索的中文分詞方法( A Search-based Chinese Word Segmentation Method)

A Search-based Chinese Word Segmentation Method                                                            一個基於搜索的中文分詞方

原创 最大熵模型文獻閱讀指南

最大熵模型(Maximum Entropy Model)是一種機器學習方法,在自然語言處理的許多領域(如詞性標註、中文分詞、句子邊界識別、淺層句法分析及文本分類等)都有比較好的應用效果。張樂博士的最大熵模型工具包manual裏有“Furt

原创 Mongodb源碼分析--插入記錄及索引B樹構建

在之前的一篇文章 中,介紹了assembleResponse函數(位於instance.cpp第224行),它會根據op操作枚舉類型來調用相應的crud操作,枚舉類型定義如下:       enum  Operations {    

原创 Mongodb源碼分析--消息(message)

在Mongodb中,客戶端和服務端進行通信是基於mongodb wire protocol 。說白了,該協議是一個簡單的基於socket,請求/響應方式的協議,客戶端使用常規的TCP/IP套接字(socket)進行通信。      客戶

原创 最大熵模型:讀書筆記

最大熵模型:讀書筆記                                                                            胡江堂,北京大學軟件學院 1. 物理學的熵 2. 信息論的熵

原创 Mongodb源碼分析--刪除記錄

在之前的一篇文章 中,介紹了assembleResponse函數(位於instance.cpp第224行),它會根據op操作枚舉類型來調用相應的crud操作,枚舉類型定義如下:   view plaincopy to clipbo

原创 隱馬爾科夫模型HMM學習(三)

找到可能性最大的隱含狀態序列 崔曉源 翻譯 多數情況下,我們都希望能夠根據一個給定的HMM模型,根據觀察狀態序列找到產生這一序列的潛在的隱含狀態序列。 1、窮舉搜索方法   我們可以通過窮舉的方式列出所有可能隱含狀態序列,並算出每一種隱狀

原创 隱馬爾科夫模型HMM學習(一)

介紹 崔曉源 翻譯 我們通常都習慣尋找一個事物在一段時間裏的變化規律。在很多領域我們都希望找到這個規律,比如計算機中的指令順序,句子中的詞順序和語音中的詞順序等等。一個最適用的例子就是天氣的預測。 首先,本文會介紹聲稱概率模式的系統,用來

原创 基於隱馬爾科夫模型的中文分詞研究

基於隱馬爾科夫模型的中文分詞研究                                                                              魏曉寧                      

原创 百度搜索引擎詳解

今天無意中讀到的,網上轉載很多了,不過還是忍不住在轉載一番,不過原文就找不到了,讀得有點累,但是多少有點啓發了,推薦一下。 查詢處理以及分詞技術 隨 着搜索經濟的崛起,人們開始越加關注全球各大搜索引擎的性能、技術和日流量。作爲企業,會根據

原创 二值形態學——膨脹,腐蝕

最近在做一個Motion Detection的課題,在課題中提取的運動物體往往由離散的點組成,如果要用連通分量的計算方法提取每個運動物體的輪廓不太容易,爲此要將由離散點組成的圖像進行膨脹,腐蝕運算。 膨脹 dilation 考慮兩幅二值圖

原创 一種規則和統計相結合的分詞算法

一種規則和統計相結合的分詞算法 點贊 收藏 分享 文章舉報 jackfirst86 發佈了27 篇原創文章 · 獲贊 1 · 訪問量 7萬+ 私信

原创 N-gram模型

   N-Gram是大詞彙連續語音識別中常用的一種語言模型,對中文而言,我們稱之爲漢語語言模型(CLM, Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配信息,在需要把連續無空格的拼音、筆劃,或代表字