台部落jackfirst86

原创自動分詞算法的分類

我們可以將現有的分詞算法分爲三大類：基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。 1、基於字符串匹配的分詞方法這種方法又叫做機械分詞方法，它是按照一定的策略將待分析的漢字串與一個"充分大的"機器詞典中的詞條進行配，

2020-06-30 23:03:37

3

原创 ME, HMM, MEMM, CRF

最大熵模型 Maximum Entropy現從一個簡單例子看起：比如華盛頓和維吉利亞都可以作人名和地名，而從語料中只知道p(人名)＝0.6，那麼p(華盛頓＝人名)的概率爲多少比較好呢？一個直觀的想法就是p(華盛頓=人名)=0.3。爲什麼呢

2020-06-30 21:47:10

4

原创一個基於搜索的中文分詞方法( A Search-based Chinese Word Segmentation Method)

A Search-based Chinese Word Segmentation Method 一個基於搜索的中文分詞方

2020-06-30 21:47:09

1

原创最大熵模型文獻閱讀指南

最大熵模型（Maximum Entropy Model）是一種機器學習方法，在自然語言處理的許多領域（如詞性標註、中文分詞、句子邊界識別、淺層句法分析及文本分類等）都有比較好的應用效果。張樂博士的最大熵模型工具包manual裏有“Furt

2020-06-30 21:46:59

2

原创 Mongodb源碼分析--插入記錄及索引B樹構建

在之前的一篇文章中，介紹了assembleResponse函數(位於instance.cpp第224行)，它會根據op操作枚舉類型來調用相應的crud操作，枚舉類型定義如下： enum Operations {

2020-02-22 05:32:19

原创 Mongodb源碼分析--消息(message)

在Mongodb中，客戶端和服務端進行通信是基於mongodb wire protocol 。說白了，該協議是一個簡單的基於socket，請求/響應方式的協議，客戶端使用常規的TCP/IP套接字（socket）進行通信。客戶

2020-02-22 05:32:19

2

原创最大熵模型：讀書筆記

最大熵模型：讀書筆記胡江堂，北京大學軟件學院 1. 物理學的熵 2. 信息論的熵

2020-02-22 05:32:19

2

原创 Mongodb源碼分析--刪除記錄

在之前的一篇文章中，介紹了assembleResponse函數(位於instance.cpp第224行)，它會根據op操作枚舉類型來調用相應的crud操作，枚舉類型定義如下： view plaincopy to clipbo

2020-02-22 05:32:19

原创隱馬爾科夫模型HMM學習（三）

找到可能性最大的隱含狀態序列崔曉源翻譯多數情況下，我們都希望能夠根據一個給定的HMM模型，根據觀察狀態序列找到產生這一序列的潛在的隱含狀態序列。 1、窮舉搜索方法我們可以通過窮舉的方式列出所有可能隱含狀態序列，並算出每一種隱狀

2020-02-22 05:32:19

原创隱馬爾科夫模型HMM學習（一）

介紹崔曉源翻譯我們通常都習慣尋找一個事物在一段時間裏的變化規律。在很多領域我們都希望找到這個規律，比如計算機中的指令順序，句子中的詞順序和語音中的詞順序等等。一個最適用的例子就是天氣的預測。首先，本文會介紹聲稱概率模式的系統，用來

2020-02-22 05:32:19

原创基於隱馬爾科夫模型的中文分詞研究

基於隱馬爾科夫模型的中文分詞研究魏曉寧

2020-02-22 05:32:19

1

8

原创自動分詞算法的分類

原创 ME, HMM, MEMM, CRF

原创一個基於搜索的中文分詞方法( A Search-based Chinese Word Segmentation Method)

原创最大熵模型文獻閱讀指南

原创 Mongodb源碼分析--插入記錄及索引B樹構建

原创 Mongodb源碼分析--消息(message)

原创最大熵模型：讀書筆記

原创 Mongodb源碼分析--刪除記錄

原创隱馬爾科夫模型HMM學習（三）

原创隱馬爾科夫模型HMM學習（一）

原创基於隱馬爾科夫模型的中文分詞研究

原创百度搜索引擎詳解

原创二值形態學——膨脹，腐蝕

原创一種規則和統計相結合的分詞算法

原创 N-gram模型