HanLP詞性分析——條件隨機場

原創

2020-05-04 19:19

詞性分析（詞性標註）

所謂詞性分析，是指給已經分詞的句子的每一個單詞，附上他們的詞性。從這個角度來說，詞性分析的問題是一個序列標註的問題。

數據集與標註集

若要使用統計分析的方法，實現詞性分析。則必須有一個已經分好詞，並且打好詞性的數據集。
問題來了：由於衆人對詞性的說法各不相同。國內有國內的標準，國外有國外的說法。更何況如何進行標註，在學術界中至今沒有準確的說法。所以，若是用的數據集不同，則訓練出來的模型也是不同的。模型所採用的標註集也是不盡相同的。

《人民日報》與 PKU 標註集

一個開源的漢語語料庫 SIGHAN05 就包括了《人民日報》。但該數據集沒有標註詞性。HanLP 接受的語料庫和預測的結構化句子都是 PKU 格式。

國家語委語料庫與 863 標註集

《誅仙》語料庫與CTB標註集

這個語料庫是從網絡小說中收集、標註的。很適合用於網絡文體的問題中。

實現

from pyhanlp import *
model_path = r'D:\桌面\比賽\模型\model_analyze_crf'    #模型的存儲路徑
corpus_path = 'E:\\Anaconda3\\lib\\site-packages\\pyhanlp\\static\\data\\test\\pku98\\199801.txt'    #語料庫路徑


CRFPOSTagger = JClass('com.hankcs.hanlp.model.crf.CRFPOSTagger')
tagger = CRFPOSTagger(None)  # 創建空白標註器
tagger.train(corpus_path,model_path)  # 訓練
tagger = CRFPOSTagger(model_path) # 加載
print(', '.join(tagger.tag("他", "的", "希望", "是", "希望", "上學")))  # 預測

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大模型安全｜RAG精確應對大模型敏感問題知識幻覺難題

一、引言在大模型的實際應用落地過程中，會遇到所謂的幻覺（Hallucination）問題。對於語言模型而言，當生成的文本語法正確流暢，但與原文不符（Faithfulness）或事實不符（Factualness）時，模型便出現了幻覺的問題。

2024-06-07 21:41:51

技術實踐 | RAG精確應對大模型敏感問題知識幻覺難題

一、引言在大模型的實際應用落地過程中，會遇到所謂的幻覺（Hallucination）問題。對於語言模型而言，當生成的文本語法正確流暢，但與原文不符（Faithfulness）或事實不符（Factualness）時，模型便出現

2024-06-07 21:41:50

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

華爲雲大咖說：開發者應用AI大模型的“道、法、術”

本文分享自華爲雲社區《華爲大咖說 | 企業應用AI大模型的“道、法、術” ——道：認知篇》，作者：華爲雲PaaS服務小智。本期核心觀點上車：AGI是未來5～10年內，每個人都無法迴避的技術革命，建議就近上車。迭代：眼下的AI大模型應

2024-05-30 10:58:22

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

隨着自然語言處理（NLP）技術的不斷髮展，大模型微調（finetune）方法成爲了提高模型性能的關鍵手段。本文將對LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning等主流微調方法進行總結，幫助

2024-05-09 12:48:44

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

24小時熱門文章

最新文章

最新評論文章