文本分詞

1. 基本文本處理技能

英文分詞，常以空格分詞，中文分詞較爲複雜，常見方法有：正向最大、逆向最大、雙向最大匹配法，這些方法是基於詞典匹配而成。

正向最大：從前往後取詞，每次減一個字，直至詞典命中或剩下1個單字。

逆向最大：從後往前取詞，每次減一個字，直至詞典命中或剩下1個單子。

雙向最大匹配：正向最大與逆向最大兩種算法都進行一遍分詞，根據詞的顆粒度越大越好且單字和非字典詞越少越好，進行分詞。

2. 語言模型

n-gram模型也稱爲n-1階馬爾科夫模型，它有一個假設前提：當前詞的出現概率僅僅與前面n-1個詞相關。因此(1)式可以近似爲：

當n取1、2、3時，n-gram模型分別稱爲unigram、bigram和trigram語言模型。n-gram模型的參數就是條件概率

假設詞表的大小爲100,000，那麼n-gram模型的參數數量爲

n越大，模型越準確，也越複雜，需要的計算量越大。最常用的是bigram，其次是unigram和trigram，n取≥4的情況較少。

3. 文本矩陣化

過程：加載文本數據集->jieba分詞->去除停用詞->生成詞彙表->生成word_index->加載預訓練詞向量模型->生成詞向量矩陣

jieba：https://github.com/fxsjy/jieba

特點

支持三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文本分析；
- 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
- 搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。
支持繁體分詞
支持自定義詞典
MIT 授權協議

3.1 分詞，新詞發現

import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 默認是精確模式
print(", ".join(seg_list))  #(此處，“杭研”並沒有在詞典中，但是也被Viterbi算法識別出來了)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造")  # 搜索引擎模式
print(", ".join(seg_list))


#output
Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
Default Mode: 我/ 來到/ 北京/ 清華大學
他, 來到, 了, 網易, 杭研, 大廈
小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, ，, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

3.2 添加自定義詞字典

開發者可以指定自己自定義的詞典，以便包含 jieba 詞庫裏沒有的詞。雖然 jieba 有新詞識別能力，但是自行添加新詞可以保證更高的正確率
用法： jieba.load_userdict(file_name) # file_name 爲文件類對象或自定義詞典的路徑
詞典格式和 dict.txt 一樣，一個詞佔一行；每一行分三部分：詞語、詞頻（可省略）、詞性（可省略），用空格隔開，順序不可顛倒。file_name 若爲路徑或二進制方式打開的文件，則文件必須爲 UTF-8 編碼。
詞頻省略時使用自動計算的能保證分出該詞的詞頻

#userdict.txt
    
雲計算 5
李小福 2 nr
創新辦 3 i
easy_install 3 eng
好用 300
韓玉賞鑑 3 nz
八一雙鹿 3 nz
臺中
凱特琳 nz
Edu Trust認證 2000

# 未添加字典前
import jieba

test_sent = (
"李小福是創新辦主任也是雲計算方面的專家; 什麼是八一雙鹿\n"
"例如我輸入一個帶“韓玉賞鑑”的標題，在自定義詞庫中也增加了此詞爲N類\n"
"「臺中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)
words = jieba.cut(test_sent)
print('/'.join(words))

#output
李小福/是/創新/辦/主任/也/是/雲/計算/方面/的/專家/;/ /什麼/是/八/一雙/鹿/
/例如/我/輸入/一個/帶/“/韓玉/賞鑑/”/的/標題/，/在/自定義詞/庫中/也/增加/了/此/詞爲/N/類/
/「/臺/中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨/烯/」/；/此時/又/可以/分出/來凱/特琳/了/。

#添加詞典
import jieba
jieba.load_userdict("userdict.txt")

jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定義詞')

test_sent = (
"李小福是創新辦主任也是雲計算方面的專家; 什麼是八一雙鹿\n"
"例如我輸入一個帶“韓玉賞鑑”的標題，在自定義詞庫中也增加了此詞爲N類\n"
"「臺中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)
words = jieba.cut(test_sent)
print('/'.join(words))

#output
李小福/是/創新辦/主任/也/是/雲計算/方面/的/專家/;/ /什麼/是/八一雙鹿/
/例如/我/輸入/一個/帶/“/韓玉賞鑑/”/的/標題/，/在/自定義/詞庫/中/也/增加/了/此/詞爲/N/類/
/「/臺中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨烯/」/；/此時/又/可以/分出/來/凱特琳/了/。

3.3 去除停用詞

import jieba
jieba.load_userdict("userdict.txt")

test_sent = "李小福是創新辦主任也是雲計算方面的專家; 什麼是八一雙鹿"
stopwords = ['是','了','什麼','的']
words = jieba.cut(test_sent)

new_test_sent = []
for w in words:
    if w in stopwords:
        pass
    else:
        new_test_sent.append(w)
print('test_sent: {}'.format("/".join(jieba.cut(test_sent))))
print('new_test_sent: {}'.format("/".join(new_test_sent)))

#output
test_sent: 李小福/是/創新辦/主任/也/是/雲計算/方面/的/專家/;/ /什麼/是/八一雙鹿
new_test_sent: 李小福/創新辦/主任/也/雲計算/方面/專家/;/ /八一雙鹿

3.4 文本矩陣化

from gensim import corpora, models
import jieba

jieba.load_userdict("userdict.txt")

jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定義詞')

test_sent = [
"李小福是創新辦主任也是雲計算方面的專家; 什麼是八一雙鹿",
"例如我輸入一個帶“韓玉賞鑑”的標題，在自定義詞庫中也增加了此詞爲N類",
"「臺中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了"
]

stopwords = ['是','了','什麼','的']

new_sents=[]
for sent in test_sent:
    sent_split = list(jieba.cut(sent))
    new_sent = []
    for w in sent_split:
        if w in stopwords:
            continue
        else:
            new_sent.append(w)
    new_sents.append(new_sent)
print('新句子： ',new_sents)
print()

# 構造詞典
dic = corpora.Dictionary(new_sents)
print('詞典： ',dic)
print('詞典token2id: ',dic.token2id)
print()

# 語料庫
corpus = [dic.doc2bow(sent) for sent in new_sents]
print('語料：',corpus)
print()

tfidf = models.TfidfModel(corpus)
print(tfidf.dfs)

#output
新句子：  [['李小福', '創新辦', '主任', '也', '雲計算', '方面', '專家', ';', ' ', '八一雙鹿'], ['例如', '我', '輸入', '一個', '帶', '“', '韓玉賞鑑', '”', '標題', '，', '在', '自定義', '詞庫', '中', '也', '增加', '此', '詞爲', 'N', '類'], ['「', '臺中', '」', '正確', '應該', '不會', '被', '切開', '。', 'mac', '上', '可', '分出', '「', '石墨烯', '」', '；', '此時', '又', '可以', '分出', '來', '凱特琳']]

詞典：  Dictionary(49 unique tokens: [' ', ';', '專家', '主任', '也']...)
詞典token2id:  {' ': 0, ';': 1, '專家': 2, '主任': 3, '也': 4, '雲計算': 5, '八一雙鹿': 6, '創新辦': 7, '方面': 8, '李小福': 9, 'N': 10, '“': 11, '”': 12, '一個': 13, '中': 14, '例如': 15, '在': 16, '增加': 17, '帶': 18, '我': 19, '標題': 20, '此': 21, '類': 22, '自定義': 23, '詞爲': 24, '詞庫': 25, '輸入': 26, '韓玉賞鑑': 27, '，': 28, 'mac': 29, '。': 30, '「': 31, '」': 32, '上': 33, '不會': 34, '來': 35, '凱特琳': 36, '分出': 37, '切開': 38, '又': 39, '可': 40, '可以': 41, '臺中': 42, '應該': 43, '正確': 44, '此時': 45, '石墨烯': 46, '被': 47, '；': 48}

語料： [[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1)], [(4, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 1)], [(29, 1), (30, 1), (31, 2), (32, 2), (33, 1), (34, 1), (35, 1), (36, 1), (37, 2), (38, 1), (39, 1), (40, 1), (41, 1), (42, 1), (43, 1), (44, 1), (45, 1), (46, 1), (47, 1), (48, 1)]]

{0: 1, 1: 1, 2: 1, 3: 1, 4: 2, 5: 1, 6: 1, 7: 1, 8: 1, 9: 1, 10: 1, 11: 1, 12: 1, 13: 1, 14: 1, 15: 1, 16: 1, 17: 1, 18: 1, 19: 1, 20: 1, 21: 1, 22: 1, 23: 1, 24: 1, 25: 1, 26: 1, 27: 1, 28: 1, 29: 1, 30: 1, 31: 1, 32: 1, 33: 1, 34: 1, 35: 1, 36: 1, 37: 1, 38: 1, 39: 1, 40: 1, 41: 1, 42: 1, 43: 1, 44: 1, 45: 1, 46: 1, 47: 1, 48: 1}

個人覺得文章還不錯的，推薦一下：

N-gram Language Models：https://web.stanford.edu/~jurafsky/slp3/3.pdf

語言模型的基本概念：https://blog.csdn.net/mspinyin/article/details/6137815

自然語言處理的數學原理：https://liam.page/2015/07/26/mathematics-theory-of-natural-language-processing-2/

特點

python gdal 安裝使用（Windows， python 3.6.8）

第四章用戶畫像管理

ML：線性迴歸

循環和遞歸神經網絡

Attention原理

BERT語言模型

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結