文本預處理——python數據讀入

1 數據讀入

1.1 後綴名爲docx

anaconda環境,cmd

pip install docx

2.x便可直接使用,
但是3.x版本不兼容,import docx會顯示
Import Error: No module named ‘exceptions’
解決方法
在https://www.lfd.uci.edu/~gohlke/pythonlibs/
找到python_docx-0.8.10-py2.py3-none-any.whl
提示:倒着找,在混合的那裏
在這裏插入圖片描述
下載到本地,在本地文件夾,shift+右鍵,點擊“在此處打開命令行窗口”,輸入

pip uninstall docx  #如果之前沒有裝docx,可以不使用
pip install python_docx-0.8.10-py2.py3-none-any.whl

接着就可以使用啦

import docx
docx = docx.Document('1.變革我們的世界:2030年可持續發展議程.docx')
#輸出每段文字
for para in docx.paragraphs:
    print(para.text)

當然,也可以直接將docx文件轉爲txt文件

import docx2txt
text = docx2txt.process('1.變革我們的世界:2030年可持續發展議程.docx')

這樣,text變量儲存了一段str格式的文本

1.2 表格格式

這個最簡單啦

import pandas as pd
data1 = pd.read_excel("文件名.xlsx",encoding = 'utf-8')
data2 = pd.read_excel("文件名.xls")
data3 = pd.read_csv("文件名.csv",encoding = 'gbk')

看是否會報錯,切換encoding爲gbk,或者utf-8
變量是一個DataFrame,然後可以直接通過列名獲得所需要的列

content = data3['列名']

另一個需要注意的是,有時候文件名地址中包含中文可能會報錯,
提示:Initializing from file failed
所以需要用以下方式

f = open('排序後y值.csv',encoding='utf-8') 
data = pd.read_csv(f)

1.3 text格式

import codecs
with codecs.open('停用詞.txt','r',encoding='gbk') as f:
    text = f.read()

直接.read()得到的是一整個字符串
在這裏插入圖片描述

import codecs
with codecs.open('停用詞.txt','r',encoding='gbk') as f:
    text2 = f.readlines()

使用readlines()得到的是一個list
在這裏插入圖片描述
完成了數據讀入,就可以進行接下來的預處理啦,將會包括去重去空、分詞、提取關鍵詞、統計描述;以及TF-IDF,word2vec表示,敬請期待!

未完待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章