NLP實踐-Task2

原創

2019-03-05 14:46

任務鏈接：https://wx.zsxq.com/dweb/#/index/222248424811

1.基本文本處理技能

1.1分詞的概念（分詞的正向最大、逆向最大、雙向最大匹配法）
正向最大匹配法：對句子從左到右進行掃描，儘可能地選擇與詞典中最長單詞匹配的詞作爲目標分詞，然後進行下一次匹配。
逆向最大匹配法：對句子從右到左進行掃描，儘可能地選擇與詞典中最長單詞匹配的詞作爲目標分詞，然後進行下一次匹配。
雙向最大匹配法：將正向最大匹配算法和逆向最大匹配算法進行比較，從而確定正確的分詞方法。
參考鏈接：https://blog.csdn.net/selinda001/article/details/79345072
1.2 詞、字符頻率統計（使用Python中的collections.Counter模塊）

import jieba
from collections import Counter

data = '北京大學和清華大學是中國的頂尖大學'

print('單詞統計')
words = list(jieba.cut(data))
print(Counter(words))

print('字符統計')
print(Counter(list(data)))

2. 語言模型

2.1 語言模型中unigram、bigram、trigram的概念
unigram一元分詞，把句子分成一個一個的漢字
bigram二元分詞，把句子從頭到尾每兩個字組成一個詞語
trigram三元分詞，把句子從頭到尾每三個字組成一個詞語
比如：
西安交通大學：
unigram 形式爲：西/安/交/通/大/學
bigram形式爲：西安/安交/交通/通大/大學
trigram形式爲：西安交/安交通/交通大/通大學

2.2詞袋模型
將所有詞語裝進一個袋子裏，不考慮其詞法和語序的問題，即每個詞語都是獨立的。
例句:
句1：Jane wants to go to Shenzhen.
句2：Bob wants to go to Shanghai.
建立一個數組用於映射匹配：[Jane, wants, to, go, Shenzhen, Bob, Shanghai]
構建詞袋模型：
句1：[1,1,2,1,1,0,0]
句2：[0,1,2,1,0,1,1]

3. 文本矩陣化：要求採用詞袋模型且是詞級別的矩陣化

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP實踐-Task2

1.基本文本處理技能

2. 語言模型

3. 文本矩陣化：要求採用詞袋模型且是詞級別的矩陣化

NLP實踐-Task1

pytorch-task2

pytorch-task4

pytorch-task3

數據競賽 Task2

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結