2、 python文本關鍵詞提取實現（案例）

原創

UP Lee

2018-12-12 23:46

第一、理論準備

1交叉計數函數

pivot_table(value,index,columns,aggfunc,fill_value)

# 參數說明

values:數據透視表中的值
index：數據透視表中的行（索引）
columns；數據透視表中的列
aggfunc：統計函數
fill_value：NA值的統一替換。

# 返回只說明：
數據透視表的結果

2 IDF 公式的實現程序：
IDF=log（文檔總數/(包含該詞的文檔數)+1）

代碼實現：
def hanlder(x):
return(numpy.log2(len(corpos)/(numpy.sum(x>0)+1)))

IDF=TF.apply(hanlder)

# 詞頻 TF

# 逆文檔頻率 IDF 是一個詞的權重，它的大小與一個詞的常見程度成反比

IDF=log（文檔總數/(包含該詞的文檔數)+1）

# TF-IDF 權衡某個分詞是否是關鍵詞的指標，該值越大，是關鍵詞的可能性也就越大。

TF-IDF=TF*IDF

第二、案例代碼實踐


# 搭建語料庫

import os
import os.path
import codecs

filepaths = [];
filecontents = [];
for root, dirs, files in os.walk(
        "D:\\database\\python\\2.7\\mini\\Sample"
 ):
        for name in files:
            filepath = os.path.join(root,name);
            filepaths.append(filepath);
            f = codecs.open(filepath,'r','utf-8');
            filecontent = f.read()
            f.close()
            filecontents.append(filecontent)

import pandas;
corpos = pandas.DataFrame({
        'filepath':filepaths,
        'filecontent':filecontents
});
    
#詞頻分詞
    
import re
# 匹配中文的分詞
zhPattern = re.compile(u'[\u4e00-\u9fa5]+')
import jieba
segments = []
filepaths = []

for root, row in corpos.iterrows():
    filepath = row['filepath']
    filecontent =row['filecontent']
    segs = jieba.cut(filecontent)
    for seg in segs:
        
        if  zhPattern.search(seg):
            segments.append(seg);
            filepaths.append(filepath);
segmentDF=pandas.DataFrame({
        'segment':segments,
        'filepath':filepaths});
    
# 移除停用詞
    
stopwords= pandas.read_csv(
        'D:\\database\\python\\2.7\\StopwordsCN.txt',
        encoding='utf-8',
        index_col=False,
        quoting=3,
        sep="\t")
segmentDF=segmentDF[
         ~segmentDF.segment.isin(stopwords.stopword)]

# 詞頻統計

import numpy;

segstat = segmentDF.groupby(
            by=["segment","filepath"])["segment"].agg({
                "計數":numpy.size
            }).reset_index().sort_values(
                '計數',
                ascending=False)
#刪除小部分數據
segstat=segstat[segstat.計數>1]

# 進行文本向量統計

TF=segstat.pivot_table(
        values='計數',
        index='filepath',
        columns='segment',
        fill_value=0
        )
TF.index
TF.columns

def hanlder(x):
    return(numpy.log2(len(corpos)/(numpy.sum(x>0)+1)))

IDF=TF.apply(hanlder)

TF_IDF=pandas.DataFrame(TF*IDF)

tag1s=[]
tag2s=[]
tag3s=[]
tag4s=[]
tag5s=[]

for filepath in TF_IDF.index:
    tags=TF_IDF.loc[filepath].sort_values(
    ascending=False
    )[:5].index
    tag1s.append(tags[0])
    tag2s.append(tags[1])
    tag3s.append(tags[2])
    tag4s.append(tags[3])
    tag5s.append(tags[4])
tagDF = pandas.DataFrame({
        'filepath':corpos.filepath,
        'filecontent':corpos.filecontent,
 #### 注意這塊必須鎖定是corops裏邊的數據
###否則，因爲調取長度導致錯誤
        'tag1':tag1s,
        'tag2':tag2s,
        'tag3':tag3s,
        'tag4':tag4s,
        'tag5':tag5s
        });

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2、 python文本關鍵詞提取實現（案例）

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

go語言 defer延遲機制

26、python密度聚類方法（DBSCAN密度聚類）

21、python的K-means聚類分析方法案例代碼

22、python關聯規則案例代碼

10、python隨機森林代碼案例

tushare pro的token憑證碼設置

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結