如何从零建立一个词表

原創

zh515858237

2020-07-05 13:43

背景：当我们拿到一份语料，但是却没有分词的词表，我们如何找到一个最佳的词表，能够对这份语料是最匹配和适应的呢？

解决方案：

首先，我认为词的定义是指，对语料能做语义上最合理的划分。

这里会有一种矛盾，如果词数量越多，那么在统计ngram文法时，文法数就越多，对语料的统计频次就越稀疏，可信度就会下降；

而如果走另一个极端，直接按字来划分语料，那文法数是会减少，统计频次也足够多，但是每个文法跨越的文字范围又太短，例如5元文法，只能看到前面四个字而已。

所以，我们需要找到一个方案，能够在字的基础上，逐步迭代形成最后的合理的词表：

1.把语料按字切分

2.根据字与字之间的粘合度EMI值，进行评估，得到候选词表。

目标：用更少数量的词，同时每个词尽可能长，来表达尽可能多的文本。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《期货-市场技术分析》读书笔记

第二本技術分析書籍，《期貨-市場分析技術》：書中的很多內容，如趨勢、趨勢線、阻力、支撐等，也象《日本蠟燭圖》一樣，沒有邏輯推理過程，沒有數據驗證。但是我認可其確實有一定的心理暗示作用。因爲我在聽很多技術分析大 V 的視頻時，他們中的大部

BloodyAngel

2024-04-29 14:32:19

《日本蜡烛图》读书笔记 & 技术分析回测

最近想做一些現金流的策略，所以決定把技術分析研究得更加深入一些。朋友推薦了幾本書：《日本蠟燭圖》、《期貨市場技術分析》、《纏論》，我想挨個把它們看完，同步也嘗試做一些量化技術策略。日本蠟燭圖下面這本書就是上面所說的第一本：其實，我是

BloodyAngel

2024-04-29 14:32:19

pytest lastfailed原理

相信很多使用pytest的，都知道pytest有運行上次失敗用例的參數，如下： --lf, --last-failed rerun only the tests that failed at the last run (or all

Believer007

2024-04-29 14:24:29

一个开源轻量级的C#代码格式化工具（支持VS和VS Code）

前言 C#代碼格式化工具除了ReSharper和CodeMaid，還有一款由.NET開源、免費（MIT License）、輕量級的C#語言代碼格式化工具：CSharpier。工具介紹 CSharpier是一款開源、免費、輕量級的C#語言代

追逐時光

2024-04-29 14:22:08

顶级 Javaer 都在用的 20 个类库，真香！

優秀且經驗豐富的Java開發人員的特徵之一是對API的廣泛瞭解，包括JDK和第三方庫。我花了很多時間來學習API，尤其是在閱讀了Effective Java 3rd Edition之後，Joshua Bloch建議在Java 3rd E

Java技術棧

2024-04-29 14:21:48

Linux内核之SPI协议

SPI(Serial Peripheral Interface，串行外設接口)是一種同步串行的行業標準，但是並沒有像I2C那樣有標準文檔，它還有主從、可片選的特性。圖源自Serial Peripheral Interface-wikip

藍天上的雲℡

2024-04-29 14:21:38

mongodb处理json数据很好

mysql只適合處理簡單的一級數據表複雜嵌套的json用mongodb mongodb實現: 插入: //切記數字不要帶引號,帶引號就字符串了,就無法比較大小了. //每一個對象都用{}包起來.這樣查詢時候方便多了.雖然插入寫起

張博的博客

2024-04-29 14:20:08

【Nano Framework ESP32篇】使用 LCD 屏幕

在開始主題之前，先介紹一個刷固件工具。這個工具在 idf 中是集成的，不過，樂鑫也單獨發佈了這個工具—— esptool。下載鏈接：Releases · espressif/esptool · GitHub。這貨是用 Python 寫的，只

東邪獨孤

2024-04-29 14:16:57

双token+redis（token无感刷新）

爲什麼要使用雙token+redis呢？單token+redis+自動續期不行嗎？單token+redis的缺點：可能會出現用戶正在操作的時候，token過期了，讓用戶重新登錄的情況。單token+redis+自動續期的缺點：單to

uper超人

2024-04-29 14:15:37

cookie,session,token的区别

cookie,session,token它們本質上不是同一個東西。但是都跟維持狀態信息有關係。什麼是狀態信息呢？我來用一個登錄來個大家講解。如果我們登錄以後，希望後續的所有的頁面都維持登錄的狀態，那我們就需要用剛剛講到的cookie，

uper超人

2024-04-29 14:15:37

Asp .Net Core 系列：国际化多语言配置

目錄概述術語本地化器IStringLocalizer在服務類中使用本地化IStringLocalizerFactoryIHtmlLocalizerIViewLocalizer資源文件區域性回退配置 CultureProvider內置的 Re

IT技術派

2024-04-29 14:14:57

编译原理PL0语法分析实验1

編譯原理PL0語法分析實驗1 1，待分析的簡單語言的詞法相同點：都是分析種別碼不同點：詞法分析器分析的是字符串中的單詞的種別碼（單詞）語法分析器分析的是字符串的文法是否正確（句子）待分析的簡單語言的語法 BNF：（1）<程序>::=begi

孤獨的貓

2024-04-29 14:13:26

google浏览器插件开发

項目結構在開發Chrome插件時，以下幾個文件的作用如下： manifest.json：這是Chrome插件的清單文件，用於配置插件的基本信息、權限、頁面跳轉等。其中包括插件的名稱、版本號、圖標、後臺腳本、瀏覽器動作等信息。 ba

張佔嶺

2024-04-29 14:12:46

element表单中选择 el-date-picker 选择后没反应

折騰一早上沒有用直到百度到了 https://blog.csdn.net/KeepReal666/article/details/134471038 解決辦法：直接加上@input="$forceUpdate()"即可。

York

2024-04-29 14:09:56

什么是SQL 语句中相关子查询与非相关子查询

魯邊

2024-04-29 14:06:35

24小時熱門文章

如何从零建立一个词表

Python多线程编程深度探索：从入门到实战

《期货-市场技术分析》读书笔记

《日本蜡烛图》读书笔记 & 技术分析回测

mongodb处理json数据很好

35K*14 薪，入职了！这公司只要不裁员，我能一直呆下去！

AUC這個指標說明的含義是什麼

機器翻譯中對於OOV一般咋處理

如何從零建立一個詞表

Attention是對內部依賴關係的管理和量化

語言模型在大詞彙表上 softmax 計算的改進方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結