原创 hadoop datanode啓動失敗 failed to stat a path component: '/var/run/hdfs-sockets'. error code 2

某一天在使用start-dfs.sh啓動hdfs時,發現有一個有一個datanode沒有啓動(node01中的data沒有啓動) 通過查看他的log文件找到了文件,查看日子文件的方式有兩種,一種是在瀏覽器中查看 http://node0

原创 yarn/historyserver 無法查看歷史任務

在使用  http://node01:19888/jobhistory/app 來查看歷史任務時,發現看不到歷史任務。 經過查找,發現是配置文件少了一項東西,是要在mapred-site.xml文件中加入如下配置即可 路徑爲$HAD

原创 簡單python爬蟲爬取拉鉤網

因爲個人需求,爬取了拉鉤網數據挖掘相關職位的數據首先先進入到拉鉤的首頁,搜索數據挖掘,得到相關職位的列表,按F12,查看網絡查看html,可以看到職位列表並不在html所以肯定是通過XHR異步加載的,再切換到XHR,可以找到4個,點開查看

原创 Python實現批量梯度下降 隨機梯度下降 小批量梯度下降 代碼

在學習了有關梯度下降算法後,自己動手實現了一遍,選用的也是最爲簡單的線性迴歸作爲例子梯度下降的的相關原理及推導網上有很多,由於個人不擅長推理總結,我就不再畫蛇添足了,貼幾個我看完之後覺的不錯的帖子,在此感謝各位博主深度解讀最流行的優化算法

原创 python 'PngImageFile' object has no attribute 'shape'

我在生成詞雲是導入圖片的時候冒出來這麼個問題,在網上搜了一下,沒有看到解決方法(也許是我的搜索姿勢不對)部分代碼如下,img = Image.open(path) wc = WordCloud(     background_color=

原创 多線程爬取網易雲歌曲評論

之前用爬蟲爬取了拉鉤網的崗位信息,而那個效率比較低,現在略作升級,做成多線程,目標也換成了網易雲。首先在瀏覽器上打開網易雲音樂,找到想要爬取的歌曲,我選擇的是《一直很安靜》,打開開發者工具,找到網絡,在html的響應中並未找到歌曲評論,再

原创 python爬蟲 編碼錯誤 file open修改編碼方式

在使用requests.get(url).text獲取到文本後,將文本寫入通過open(uri,'w+')打開的文件後,修改文件名後綴爲html,打開後所有字符亂碼,查閱資料後是因爲編碼問題,win中的txt默認爲ANSI(選擇另存爲可查

原创 拉鉤網 數據分析與可視化

前端時間爬取了拉鉤網的某一職位的相關信息,於是就有了分析一下這些數據的想法,爬取的方式可以看我的另一篇博客,我的數據一被處理成了csv格式的數據,存儲在雲盤(https://pan.baidu.com/s/1-Iq9fcpJctvL4oe

原创 mysql win7 net strat mysql 無效服務名

我的電腦系統是win7的,安裝了mysql5.7.21後,進入cmd,使用命令net start mysql時出現無效服務名問題;解決方法爲進入mysql的安裝目錄(我的是C:\Program Files\MySQL\MySQL Serv

原创 藍橋杯 算法 奇怪的比賽

奇怪的比賽 某電視臺舉辦了低碳生活大獎賽。題目的計分規則相當奇怪: 每位選手需要回答10個問題(其編號爲1到10),越後面越有難度。答對的,當前分數翻倍;答錯了則扣掉與題號相同的分數(選手必

原创 python WordCloud 簡單實例

前端時間爬下了拉勾網關於數據挖掘職位的相關信息(爬取可看我的另一篇博客https://blog.csdn.net/cy776719526/article/details/80094817),於是就打算把ta的職位要求做成詞雲呈現出來,由於

原创 藍橋杯 算法 錯誤票據

某涉密單位下發了某種票據,並要在年終全部收回。 每張票據有唯一的ID號。全年所有票據的ID號是連續的,但ID的開始數碼是隨機選定的。 因爲工作人員疏忽,在錄入ID號的時候發生了一處錯誤,造成了某個ID斷號,另外一個ID重號。 你的任

原创 藍橋杯 算法 啤酒和飲料

啤酒每罐2.3元,飲料每罐1.9元。小明買了若干啤酒和飲料,一共花了82.3元。 我們還知道他買的啤酒比飲料的數量少,請你計算他買了幾罐啤酒。開始在一個博主的博客裏看到的這題:https://blog.cs