數據清洗——cleancc簡介

  數據清洗——cleancc

  cleancc

  快速清洗數據內容可以

  項目地址

  使用方法

  pip install cleancc

  import cleancc

  共有五個函數調用:

  1.第一個函數爲punct:

  [

   去除標點並讓所有字母小寫

   :param pop_list:所要處理的的列表格式

   :param lower:是否轉小寫,默認是

   :return all_comment:處理後的結果-字符串格式

  ]

  2.第二個函數爲statistics:

  [

   詞頻統計

   :param pop_list:所要處理的的列表格式

   :param symbol:是否去除標點,默認是

   :param lower:是否轉小寫,默認是

   :return wordCount_dict:統計結果-字典格式

  ]

  3.第三個函數爲stop_words:

  [

   刪除詞頻統計中的停頓詞

   :param statis:是否選擇詞頻清理

   :param pop_list:所要處理的的列表格式

   :param symbol:是否去除標點,默認是

   :param lower:是否轉小寫,默認是

   :param wordCount_dict:詞頻統計結果-字典

   :return wordCount_dict:清除後結果-字典格式

  ]

  4.第四個函數爲Count_Sort:

  [

   字典排名數目排序

   :param wordCount_dict:詞頻統計結果-字典

   :param choices_number:返回前choices_number個字典個數

   :return keyword_list:出現的單詞-列表格式

   :return value_list:單詞對應的詞頻-列表格式

  ]鄭州人流多少錢 http://www.hnmt120.com/

  5.第五個函數爲word_all:

  [

   調用全部函數

   :param pop_list:所要處理的的列表格式

   :param choices_number:返回前choices_number個字典個數

   :param symbol:是否去除標點,默認是

   :param lower:是否轉小寫,默認是

   :return keyword_list:出現的單詞-列表格式

   :return value_list:單詞對應的詞頻-列表格式

  ]

  注意事項

  注意:處理數據參數類型爲列表,需要pandas轉換爲列表後進行調用!

  使用示例:

  import pandas as pd

  from cleancc import clean

  from bs4 import BeautifulSoup

  df = pd.read_csv("label.csv",sep='\t', escapechar='\\')

  review_list = df['review'].tolist()

  comment_list = [BeautifulSoup(k,'lxml').text for k in review_list]

  print(comment_list)

  keyword_list, value_list = clean.word_all(comment_list,150)

  print(keyword_list, value_list)


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章