standford vs opennlp

原創

2020-02-25 22:28

重新訓練的模型主要針對短角色，即詞串數不大於3的角色，這是因爲考慮到在實際環境下一般人難以輸入長句，一般口語化的句子其實都比較短。手工測試訓練後的效果至少不比之前的模型差。然而，使用stanford parser爲基礎的語義分析有一個致命的缺點：分析嚴重受制於stanford parser的結果，而stanford parser是將分詞、詞性標註都集成在一起，難以使用第三方的分詞器和詞性標註器，從而導致parser結果不可控。因而我的想法是放棄使用stanford parser，而採用shallow parser。shallow parser如果是在gold pos前提下的準確率要高於stanford parser。shallow parser的主要問題是必須在之前先進行分詞與詞性標註（POS）。
目前我主要關注兩個POS tagger，一是stanford tagger（使用ME模型）；二是opennlp（使用ME模型）。stanford tagger是一個比較大而全的tagger，支持標註、訓練等任務，而且不經任何加工即可直接使用（模型已經被訓練獲得），因而是一個富項目。opennlp的tagger代碼則比較簡單，使用前必須先經過加工訓練。這兩個項目的缺點在於缺乏必要的文檔，stanford tagger難以明白用到哪些特徵，而opennlp難以一下子入手。
另外，這個工作在當前的項目中到底有多大的價值本身也難以評估，就怕花了時間，效果卻不甚明顯。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

elasticsearch 監控查看活躍的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

微信全文搜索耗時降94%？我們用了這種方案

導語 |微信終端涉及到大量文本搜索的業務場景，主要包括聯繫人搜索、聊天記錄搜索和收藏搜索等。近期微信團隊對 IOS 微信的全文搜索技術進行了一次全面升級，本文將分享其選型與優化思路，詳細解析全文搜索的應用數據庫表格式、索引更新和搜索邏輯的

騰訊雲開發者社區

2023-02-21 11:45:35

O2OA平臺2022年度壓軸新版本v7.3已發佈

O2OA自產品發佈以來，我們收到了很多夥伴對產品的寶貴建議和意見，在2022年的最後一個版本里，我們爲夥伴們又提供了新的能力，v7.3版本正式發佈，對平臺做了更多的優化。本年度壓軸新版本v7.3 一、平臺架構新增帶權限的全文檢索

2023-01-10 10:36:09

微信iOS端的最新全文檢索技術優化實踐

本文由微信開發團隊工程師“ qiuwenchen”分享，發佈於WeMobileDev公衆號，有修訂。 1、引言全文搜索是使用倒排索引進行搜索的一種搜索方式。倒排索引也稱爲反向索引，是指對輸入的內容中的每個Token建立一個索引，索引中保

2022-04-30 11:51:28

Elasticsearch8/7/6各版本特性

Elasticsearch8/7/6各版本特性 - MyOldTime的個人空間 - OSCHINA - 中文開源技術交流社區版本新特性說明 8.1 Doc-values-only search on numeric, d

2022-04-30 05:37:14

Elasticsearch數據類型和mapping

說明 ElasticSearch有着豐富的數據類型規則和數據屬性設置，數據類型決定數據規則，特別字符串類型，text默認分詞，keyword不分詞，這將直接影響查詢方式和結果，同樣，mapping可以設置哪些字段建立索引，原始數據是否存儲

2021-12-25 21:31:01

ElasticSearch的REST APIs 之索引的監控(monitoring)

基於ES7.7 官方文檔內容包括: 索引的統計信息 (Index stats) 索引的段 (Index segments) 索引的恢復信息 (Index recovery) 索引分片的存儲 (Index shard stores)

2021-12-25 21:22:56

ElasticSearch的REST APIs 之索引的狀態管理

基於ES7.7 官方文檔內容包括: 清空緩存 ( Clear cache ) 更新索引以讓新文檔可以被搜索 ( Refresh ) 將內存緩衝區中的文檔寫入磁盤 ( Flush ) 同步Flush ( Synced flush )

2021-12-25 21:22:56

Lucene 和 Elasticsearch 有什麼區別 - What is the difference between Lucene and Elasticsearch

問題：我知道 ElasticSearch 是基於 Apache Lucene 構建的，但我想知道兩者之間的顯着差異。解決方案：參考一： https://en.stackoom.com/question/1scPp 參考二： h

2021-10-23 09:25:55

[轉]:ElasticSearch: Index 和 Type 的區別

原文: Index vs. Type By Adrien Grand 譯者: fengchang 對於 ES 的新用戶來說，有一個常見的問題：要存儲一批新的數據時，應該在已有 index 裏新建一個 type，還是給它新建一個 index？

2021-09-17 21:36:00

Android 開發的盡頭就是 Linux 系統~

如今的軟件開發行業，服務器端市場基本被 Linux 系統佔領了。移動端中的 Android 系統是基於 Linux 內核開發的，那些很火的虛擬化、消息隊列、雲計算、大數據等技術，都默認支持 Linux 操作系統。而對軟件工程師來說，也

音視頻開發進階

2021-09-09 21:21:12

Elastic Meetup 2021 深圳站回顧

Elastic Meetup 2 0 2 1 深圳

2021-08-27 21:41:49

Elastic 線下 Meetup 深圳站來了！

Elastic中文社區聯合騰訊雲大數據，騰訊雲+社區，將於2021年8月21日在騰訊濱海大廈舉辦本年度首次線下（線上同步直播）技術交流活動。本次活動的交流內容主要圍繞Elastic Stack 產品（Elasticsearch

2021-08-17 21:42:04

ElasticSearch 億級數據檢索深度優化

數據平臺已迭代三個版本，從頭開始遇到很多常見的難題，終於有片段時間整理一些已完善的文檔，在此分享以供所需朋友的實現參考，少走些彎路，在此篇幅中偏重於ES的優化。 - 需求說明 - 項目背景

大數據技術與架構

2021-08-09 21:16:50

Elasticsearch 修改mapping

舊索引信息如下： index：test_v1 type：item alias：item_alias mapping： { "properties": { "itemId": { "type": "long"

2021-04-29 21:19:59

24小時熱門文章

最新文章

最新評論文章