python pdf plumer讀取pdf統計tfidf

import pdfplumber as plmber
import os
import jieba
import jieba.analyse


def TextByWords(page):
    content = ""
    for idx, word in enumerate(page.extract_words()):
        content = content + word['text'].strip('\n')
    return content

def TextByText(page):
    return page.extract_text()


if __name__ == '__main__':

    base="./reports/"

    f_paths=[base+path for path in os.listdir(base)]
    trgt_f=plmber.open(f_paths[0])

    for idx,page in enumerate(trgt_f.pages[:10]):
        content=TextByText(page)
        print(content)
        #allowPOS 選定關鍵詞詞性 allowPOS=('n','nr','ns') details see: https://github.com/fxsjy/jieba
        keywords = jieba.analyse.extract_tags(content, topK=50, withWeight=True,allowPOS=('n','nr','vn'))

        #key words in jieba contains useless keywords such as number like 2018

        #ranking's key is keyword item, corresponding value is its tfidf value
        #tfidf is actually numeralize the word,so as to make the sentence a vector.
        ranking={}
        for item in keywords:
            if not item[0].isdigit():
                ranking[item[0]]=item[1]

        trgt_p='./rankings/page{}.rnk'.format(idx+1)

        with open(trgt_p,'w',encoding='utf-8') as f:
            for key in ranking.keys():
                f.write("{} : {}\n".format(key,ranking.get(key)))

python pdf plumer讀取pdf統計tfidf

python re findall 的問題帖子來看看幫忙解答

RNN系列的pytorch參數圖解，手畫

pytorch分別用MLP和RNN擬合sinx

pytorch+tensorboard可視化最簡單例子

物體識別圖形界面小應用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結