文本預處理——python數據讀入

原創

2019-08-09 20:28

1 數據讀入

1.1 後綴名爲docx

anaconda環境，cmd

pip install docx

2.x便可直接使用，
但是3.x版本不兼容，import docx會顯示
Import Error: No module named ‘exceptions’
解決方法：
在https://www.lfd.uci.edu/~gohlke/pythonlibs/
找到python_docx-0.8.10-py2.py3-none-any.whl
提示：倒着找，在混合的那裏

下載到本地，在本地文件夾，shift+右鍵，點擊“在此處打開命令行窗口”，輸入

pip uninstall docx  #如果之前沒有裝docx，可以不使用
pip install python_docx-0.8.10-py2.py3-none-any.whl

接着就可以使用啦

import docx
docx = docx.Document('1.變革我們的世界：2030年可持續發展議程.docx')
#輸出每段文字
for para in docx.paragraphs:
    print(para.text)

當然，也可以直接將docx文件轉爲txt文件

import docx2txt
text = docx2txt.process('1.變革我們的世界：2030年可持續發展議程.docx')

這樣，text變量儲存了一段str格式的文本

1.2 表格格式

這個最簡單啦

import pandas as pd
data1 = pd.read_excel("文件名.xlsx",encoding = 'utf-8')
data2 = pd.read_excel("文件名.xls")
data3 = pd.read_csv("文件名.csv",encoding = 'gbk')

看是否會報錯，切換encoding爲gbk，或者utf-8
變量是一個DataFrame，然後可以直接通過列名獲得所需要的列

content = data3['列名']

另一個需要注意的是，有時候文件名地址中包含中文可能會報錯，
提示：Initializing from file failed
所以需要用以下方式

f = open('排序後y值.csv',encoding='utf-8') 
data = pd.read_csv(f)

1.3 text格式

import codecs
with codecs.open('停用詞.txt','r',encoding='gbk') as f:
    text = f.read()

直接.read()得到的是一整個字符串

import codecs
with codecs.open('停用詞.txt','r',encoding='gbk') as f:
    text2 = f.readlines()

使用readlines()得到的是一個list

完成了數據讀入，就可以進行接下來的預處理啦，將會包括去重去空、分詞、提取關鍵詞、統計描述；以及TF-IDF，word2vec表示，敬請期待！

未完待續

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

文本預處理——python數據讀入

1 數據讀入

1.1 後綴名爲docx

1.2 表格格式

1.3 text格式

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

PyTorch自動求導

pandoc不是內部或外部命令

前端全套視頻HTML+CSS+JS+jQuery筆記（六）

前端全套視頻HTML+CSS+JS+jQuery筆記（八）

前端全套視頻HTML+CSS+JS+jQuery筆記（七）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結