数据清洗——cleancc简介

原創

nineteens

2020-05-04 17:17

　　数据清洗——cleancc

　　cleancc

　　快速清洗数据内容可以

　　项目地址

　　使用方法

　　pip install cleancc

　　import cleancc

　　共有五个函数调用：

　　1.第一个函数为punct：

　　[

　　去除标点并让所有字母小写

　　 :param pop_list:所要处理的的列表格式

　　 :param lower:是否转小写，默认是

　　 :return all_comment:处理后的结果-字符串格式

　　]

　　2.第二个函数为statistics：

　　[

　　词频统计

　　 :param pop_list:所要处理的的列表格式

　　 :param symbol:是否去除标点，默认是

　　 :param lower:是否转小写，默认是

　　 :return wordCount_dict:统计结果-字典格式

　　]

　　3.第三个函数为stop_words：

　　[

　　删除词频统计中的停顿词

　　 :param statis:是否选择词频清理

　　 :param pop_list:所要处理的的列表格式

　　 :param symbol:是否去除标点，默认是

　　 :param lower:是否转小写，默认是

　　 :param wordCount_dict:词频统计结果-字典

　　 :return wordCount_dict:清除后结果-字典格式

　　]

　　4.第四个函数为Count_Sort：

　　[

　　字典排名数目排序

　　 :param wordCount_dict:词频统计结果-字典

　　 :param choices_number:返回前choices_number个字典个数

　　 :return keyword_list:出现的单词-列表格式

　　 :return value_list:单词对应的词频-列表格式

　　]郑州人流多少钱 http://www.hnmt120.com/

　　5.第五个函数为word_all：

　　[

　　调用全部函数

　　 :param pop_list:所要处理的的列表格式

　　 :param choices_number:返回前choices_number个字典个数

　　 :param symbol:是否去除标点，默认是

　　 :param lower:是否转小写，默认是

　　 :return keyword_list:出现的单词-列表格式

　　 :return value_list:单词对应的词频-列表格式

　　]

　　注意事项

　　注意:处理数据参数类型为列表，需要pandas转换为列表后进行调用!

　　使用示例:

　　import pandas as pd

　　from cleancc import clean

　　from bs4 import BeautifulSoup

　　df = pd.read_csv("label.csv",sep='\t', escapechar='\\')

　　review_list = df['review'].tolist()

　　comment_list = [BeautifulSoup(k,'lxml').text for k in review_list]

　　print(comment_list)

　　keyword_list, value_list = clean.word_all(comment_list,150)

　　print(keyword_list, value_list)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

数据清洗——cleancc简介

Python如何實現修改文件內容的方法

Python中的for i in range（range()函數的for循環）如何使用

數據清洗——cleancc簡介

LeetCode 之排列硬幣（數學解方程）

Java8新特性之 CompletableFuture方法詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結