1 數據讀入
1.1 後綴名爲docx
anaconda環境,cmd
pip install docx
2.x便可直接使用,
但是3.x版本不兼容,import docx會顯示
Import Error: No module named ‘exceptions’
解決方法:
在https://www.lfd.uci.edu/~gohlke/pythonlibs/
找到python_docx-0.8.10-py2.py3-none-any.whl
提示:倒着找,在混合的那裏
下載到本地,在本地文件夾,shift+右鍵,點擊“在此處打開命令行窗口”,輸入
pip uninstall docx #如果之前沒有裝docx,可以不使用
pip install python_docx-0.8.10-py2.py3-none-any.whl
接着就可以使用啦
import docx
docx = docx.Document('1.變革我們的世界:2030年可持續發展議程.docx')
#輸出每段文字
for para in docx.paragraphs:
print(para.text)
當然,也可以直接將docx文件轉爲txt文件
import docx2txt
text = docx2txt.process('1.變革我們的世界:2030年可持續發展議程.docx')
這樣,text變量儲存了一段str格式的文本
1.2 表格格式
這個最簡單啦
import pandas as pd
data1 = pd.read_excel("文件名.xlsx",encoding = 'utf-8')
data2 = pd.read_excel("文件名.xls")
data3 = pd.read_csv("文件名.csv",encoding = 'gbk')
看是否會報錯,切換encoding爲gbk,或者utf-8
變量是一個DataFrame,然後可以直接通過列名獲得所需要的列
content = data3['列名']
另一個需要注意的是,有時候文件名地址中包含中文可能會報錯,
提示:Initializing from file failed
所以需要用以下方式
f = open('排序後y值.csv',encoding='utf-8')
data = pd.read_csv(f)
1.3 text格式
import codecs
with codecs.open('停用詞.txt','r',encoding='gbk') as f:
text = f.read()
直接.read()得到的是一整個字符串
import codecs
with codecs.open('停用詞.txt','r',encoding='gbk') as f:
text2 = f.readlines()
使用readlines()得到的是一個list
完成了數據讀入,就可以進行接下來的預處理啦,將會包括去重去空、分詞、提取關鍵詞、統計描述;以及TF-IDF,word2vec表示,敬請期待!
未完待續