原创 7、8月大數據圖書推薦系統總結

前言:這兩個月來一直在處理接手實驗室師兄的一個圖書推薦項目,期間從讀懂其用python一些代碼到將其代碼修改成可運行可實現功能的pyspark、scala代碼對於我這樣一個無人指點的小白着實是費了一番功夫,現在做記錄如下。 一、在spar

原创 hadoop UI+spark UI

如何進入UI :https://blog.csdn.net/hua_jing/article/details/78433790 如何調用spark UI:https://blog.csdn.net/u013013024/article/d

原创 python插入第三方庫wordcloud(詞雲)的步驟和出現的問題

    在利用python做數據分析時,我們常常會用到詞語wordcloud這一第三方庫來對數據進行可視化分析。下面我便來記錄一下自己在導入詞語這一庫時的步驟及遇到的問題。 由於在pycharm開發環境下直接搜索wordcloud時顯示“

原创 跨專業學習大數據,現在剛學習完JavaSe部分,求HDFS和MapReduce入門書籍和視頻教程。

跨專業學習大數據,現在剛學習完JavaSe部分,求HDFS和MapReduce入門書籍和視頻教程,謝謝。

原创 半自動安裝jieba分詞庫

python2.x環境安裝:全自動安裝 :easy_install jieba 或者 pip install jieba 半自動安裝 :先下載http://pypi.python.org/pypi/jieba/ ,解壓後運行python

原创 python爬蟲:爬取拉勾網職位並分析

博客內容:爬取拉鉤網上的數據並進行分析,參考代碼鏈接爲點擊打開鏈接。網頁爬取部分:import requests import math import pandas as pd import time def get_j