自然語言處理（NLP)——使用NLTK包驗證齊夫定律及使用wordnet

原創

2020-07-02 07:13

第一題，利用大文本驗證“齊夫定律”的正確性，首先我們使用pycharm作爲集成開發環境，python3.5+nltk來做實驗。

齊夫定律：齊夫定律（英語：Zipf's law）是由哈佛大學的語言學家喬治·金斯利·齊夫（George Kingsley Zipf）於1949年發表的實驗定律。它可以表述爲：在自然語言的語料庫裏，一個單詞出現的頻率與它在頻率表裏的排名成反比。所以，頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍，而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。這個定律被作爲任何與冪定律概率分佈有關的事物的參考。

1.我們選用了nltk內置的大文本作爲題目中的自由文本(布朗語料庫及古騰堡語料等)，統計出文章所有詞的頻率（使用對數刻度）以及對它們進行排序並且選出前150個詞作圖以及驗證齊夫定律。

2.對於b問，做法是和第一題一樣的，得出一個結果與第一題作比較。不同點：全是隨機產生的字母組成的文章，我們也給予足夠大的數量以構成大文本。

a.

b.

實驗結果：第一問通過實驗認可齊夫定律。第二問實驗結果不符合齊夫定律。

WordNet是由Princeton 大學的心理學家，語言學家和計算機工程師聯合設計的一種基於認知語言學的英語詞典。它不是光把單詞以字母順序排列，而且按照單詞的意義組成一個“單詞的網絡”。

使用nltk裏的wordnet

>>>from nltk.corpus import wordnet as wn

（2）對dog進行計算WordNet 中名詞、動詞、形容詞和副詞的平均多義性。

名詞的平均多義性是指wordnet中所有名詞的含義個數除以名詞個數

算法描述

第一題a：

創建一個FreqDist類型的字典以存放取對數後的詞頻。

導入大文本數據，並分好詞。

遍歷分好詞的列表，統計每個詞的出現詞頻。

對所有詞根據詞頻進行排序。

取題目中的第50個和第150個詞進行驗證。

作圖輸出前150個詞。

第一題b：

構建足夠大的大文本

從這幾個字母中不斷隨機選出元素來構建大文本

進行分詞，使用空白項進分詞。

遍歷分好詞的列表，統計每個詞的出現詞頻。

對所有詞根據詞頻進行排序。

取題目中的第50個和第150個詞進行驗證。

作圖輸出前150個詞。

第二題：

收集所有指定類型的同義詞集
遍歷同義詞集
收集同義詞集內的詞條
打印詞條總數
得到每個詞條的同類型所含意義的個數，求和
打印詞集內該類型詞條的意義總數
打印該類型的平均多義性

詳例描述

第一題a：對於inaugural：第五十個詞應是第一百個詞出現的頻率的三倍。

實驗結果：第50個詞爲may，第150個詞爲much

符合齊夫定律。注：（r_a）爲倍數。

第五十個詞爲fg,第一百五十個詞爲gcg，不符合齊夫定律。注：（r_b）爲倍數。

對比兩個小問的圖：

若是大文本，曲線比較平滑，而對於隨機生成的大文本，曲線則比較陡峭曲折，似乎是每到一個點便發生顯著的變化，而在兩個發生明顯變化的點之間的曲線，曲線則是比較地平穩。

第二題

軟件演示

選用了大文本古騰堡，布朗等作爲例子。

古騰堡：

符合齊夫定律。

對於布朗：

符合齊夫定律。

對於隨機大文本：

不符合齊夫定律。

總結和體會

總結：

1. 需要深刻理解齊夫定律：在Brown語料庫中，“the”、“of”、“and”是出現頻率最前的三個單詞，其出現的頻數分別爲69971次、36411次、28852次，大約佔整個語料庫100萬個單詞中的7%、3.6%、2.9%，其比例約爲6：3：2。大約佔整個語料庫的7%（100萬單詞中出現69971次）。滿足齊夫定律中的描述。僅僅前135個字彙就佔了Brown語料庫的一半。齊夫定律是一個實驗定律，而非理論定律，可以在很多非語言學排名中被觀察到，例如不同國家中城市的數量、公司的規模、收入排名等。齊夫定律不僅適用於語料全體,也適用於單獨的一篇文章。

2.對於nltk內置函數的運用還需要加深一步學習；比如words(),FreqDist(),wordnet（）等。以及wordnet的使用。

3. 關於取對數刻度的問題，我們對FreqDist進行遍歷取所有key的value值進行取對數再放進新的FreqDist裏進行作圖。

體會：看似簡單兩道題目，確是對熟練運用nltk的練習，包括如何處理大文本以及統計大文本中的詞頻等操作。對於wordnet，更是體會到它對於NLP的意義。在nltk下調用更爲方便。#

[注]本項目爲小組團隊項目，共同完成，感謝小夥伴們的付出與努力~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

華爲雲大咖說：開發者應用AI大模型的“道、法、術”

本文分享自華爲雲社區《華爲大咖說 | 企業應用AI大模型的“道、法、術” ——道：認知篇》，作者：華爲雲PaaS服務小智。本期核心觀點上車：AGI是未來5～10年內，每個人都無法迴避的技術革命，建議就近上車。迭代：眼下的AI大模型應

2024-05-30 10:58:22

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

peewee的動態Model

有一個客戶需要同一個Model，可以創建不同的數據庫的表單（自定表單名稱）。按官方文檔，自定義table_name的方法如下： from peewee import * contacts_db = SqliteDatabase('con

2024-05-31 21:48:26

一站式鏈路追蹤：阿里雲的端到端解決方案

作者：涯海炎炎夏日，當你打開外賣 APP 購買奶茶卻發現下單失敗；五一佳節，當你自駕遊途中發現導航響應緩慢，頻繁錯過路口；深更半夜，當你輔導孩子功課，卻發現 GPT 應用遲遲無法應答。不知你有沒有想過，這些程序運行的背後到底是怎樣的世界，

2024-05-31 21:13:44

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【WYM】問了一個Pandas處理的問題，提問截圖如下：原始數據： temp = dict() temp[64001] = {64002: 1.0, 64003: 1.0,

2024-05-30 10:02:40

[oeasy]python019_ 如何在github倉庫中進入目錄_找到程序代碼_找到代碼

繼續運行 🥋 回憶上次內容上上次真寫了萬行代碼這萬行代碼都是寫在明面上的這次使用git命令下載了 github上面的倉庫

2024-05-30 00:35:24

Python網絡爬蟲的時候json=就是讓你少寫個json.dumps()

大家好，我是皮皮。一、前言前幾天在Python白銀交流羣【空翼】問了一個Python網絡爬蟲的問題，提問截圖如下：登錄請求地址是這個：二、實現過程這裏【甯同學】給了一個提示，如下所示：估計很多小夥伴和我一樣會有一個疑問吧，

2024-05-29 10:02:33

記錄一次cnvd事件型證書漏洞挖掘

事件起因是因爲要搞畢設了，在爲這個苦惱，突然負責畢設的老師說得到cnvd下發的證書結合你的漏洞挖掘的過程是可以當成畢設的，當時又學習了一段時間的web滲透方面的知識，於是踏上了廢寢忘食的cnvd證書漏洞挖掘的日子。前言：聽羣友們說，一般可

2024-05-28 11:16:19

今天！通義靈碼在北京、成都、杭州三城開講啦

通義靈碼自從入職阿里雲以來備受行業關注。5 月 24 日，阿里雲工程師奔赴北京、成都、杭州三城，向企業和開發者介紹並演示通義靈碼，通義靈碼依然是大家話題的C位，並收穫了衆多粉絲。 @杭州阿里雲金融創新峯會今天，2024 阿里雲金融創新峯

2024-05-27 21:13:46

安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具?

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【斌】問了一個Python庫安裝的問題。求教大佬：華爲筆記本，麒麟系統，安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具，再安裝

2024-05-25 10:02:28

從入門到精通：掌握Scrapy框架的關鍵技巧

在當今信息爆炸的時代，獲取並利用網絡數據成爲了許多行業的核心競爭力之一。而作爲一名數據分析師、網絡研究者或者是信息工作者，要想獲取網絡上的大量數據，離不開網絡爬蟲工具的幫助。而Scrapy框架作爲Python語言中最爲強大的網絡爬蟲框架之

2024-05-25 00:09:06

面向AI的開發：從大模型（LLM）、檢索增強生成（RAG）到智能體（Agent）的應用

引言隨着人工智能技術的飛速發展，大型語言模型（LLM）、檢索增強生成（RAG）和智能體（Agent）已經成爲推動該領域進步的關鍵技術，這些技術不僅改變了我們與機器的交互方式，而且爲各種應用和服務的開發提供了前所未有的可能性。正確理解這三者

2024-05-24 23:57:39

24小時熱門文章

最新文章

最新評論文章