Dask-大规模数据存储与读取、并行计算

原創

2020-06-20 05:21

在进行大规模的数据分析时，本机的内存往往不够，同时又不想使用spark等大数据工具的话，Dask是一个不错的替代选择。而且它的api使用跟pandas很相似，对于从pandas数据分析过渡来的使用起来非常方便。下面我们基于亚马逊用户音乐评论数据，使用Dask读取操作数据，画用户评论词云。

#-------Dask解决方案-------#
import dask.bag as db
import ujson as json
import pandas as pd
import numpy as np
import gzip
import re

b=db.read_text(r'F:/kaggle_dataset/亚马逊评论/reviews_Digital_Music_5.json.gz',encoding='utf-8').map(json.loads)
b.take(1)
print(sum([1 for _ in gzip.open(r'F:/kaggle_dataset/亚马逊评论/reviews_Digital_Music_5.json.gz')])) #统计多少条数据
tempDir = 'F:/kaggle_dataset/亚马逊评论/制作亚马逊用户评论词云'
stopwords=set(pd.read_csv('C:/Users/zhangshuai_lc/stopwords_en.txt',header=None)[0])

pattern = re.compile(r'\w+') #正则
def hashFile():
   temp_path_list = []
   for i in range(1,101):
       temp_path_list.append(open(tempDir+'/'+str(i)+'.txt',mode='w')) #构造100个文本文件路径
   for each in (gzip.open(r'F:/kaggle_dataset/亚马逊评论/reviews_Digital_Music_5.json.gz')):
       sentence = eval(each)    #字符串转字典
       words = sentence['reviewText']
       words_list = pattern.findall(words)
       #print(words_list)
       for word in words_list:
           if word.lower() not in stopwords and len(word) >= 2:
               word = word.lower()
               temp_path_list[hash(word)%100].write(word+'\n')   #对单词进行hash，相同的单词一定会hash到同一个文件中
   for f in temp_path_list:
       f.close()
hashFile()

这一步是要将亚马逊用户对音乐的评论从原始数据中提取出来，然后使用正则表达式将评论分词，然后进行哈希映射将所有单词分配到100个文本文件中存储。相同的单词一定会被分配到同一个文件当中。

#最后在找出100个文件中出现频率最高的1000个单词
import os
from collections import Counter
results = Counter()
for root, dirs, files in os.walk(r'F:/kaggle_dataset/亚马逊评论/制作亚马逊用户评论词云'):
    for file in files:
        with open(os.path.join(root, file)) as f:
            words_list = f.readlines()
            words_list = list(map(lambda x: x.strip('\n'),words_list))
            word_common_1000 = Counter(words_list).most_common(1000)
            results.update(word_common_1000)

将每个文件中出现频率最高的1000个单词存入results当中。使用堆统计results当中出现频率最高的100单词。

import heapq
words_fren_list = list(results.keys())
words_fren_list_100 = heapq.nlargest(100,words_fren_list,key = lambda x:x[1])
len(words_fren_list_100)

word_frequence = {x[0]: x[1] for x in words_fren_list_100} #注意数据结构
word_frequence
{'10': 11136, 
'album': 140585, 
'albums': 22047, 
'amazing': 6245, 
'artist': 5869, 
'bad': 9842, 
'band': 22550, 
'bands': 4970, 
'beat': 10468, 
'beats': 7370, 
'beautiful': 7736, 
'bit': 8199, 
'blues': 5310, 
'buy': 7583, 
'catchy': 5772, 
'cd': 38605, 
'classic': 13913, 
'collection': 8004, 
'dance': 5722}

下面使用WordCloud画出词云：

from wordcloud import WordCloud
import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7,4))
wordcloud = WordCloud(background_color='white',max_font_size=40,max_words=100,relative_scaling=.5).fit_words(word_frequence)
wordcloud.to_file("Amazonwordcloud.jpg")
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Dask-大规模数据存储与读取、并行计算

10分钟搞定Mysql主从部署配置

如何使用 JS 判断用户是否处于活跃状态

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

一键自动化博客发布工具,用过的人都说好(掘金篇)

lightdb数据库超时相关控制参数

lightdb秒级增加列和删除列（not null带默认值）

Java ThreadPoolShutdown

NLP—TextRank算法獲取文本關鍵詞和摘要

tSNE—高維數據降維可視化（理論部分）

Dask-大規模數據存儲與讀取、並行計算

Python點滴(八)—pandas中的透視表

Vim_Linux指令_Git

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結