原创 解決modulenotfounderror: no module named 'resource' &&Python worker failed to connect back

如果你也是spark2.4.0,那麼在windows系統上肯定會出現該錯誤。 實驗環境 windows10 spark2.4.0 相關報錯 Traceback (most recent call last): File "

原创 mysql導出數據:解決--secure-file-priv option so it cannot execute this statement

實驗環境 Ubuntu16.4; MySQL5.7 問題描述 準備將數據庫中某張表導出來,報如下錯誤: mysql> SELECT * FROM runoob_tbl INTO OUTFILE '/tmp/runoob.txt'

原创 機器學習實戰筆記

文章目錄2 k近鄰算法2.1 實施kNN算法代碼清單1:測試,結果:2.2使用kNN改進約會網站的配對效果2.2.1 準備數據,從文本中解析數據2.2.2 分析數據: 使用Matplotlib創建散點圖2.2.3 準備數據:歸一化

原创 機器學習實戰筆記--樸素貝葉斯&Logistic迴歸

文章目錄2 K-近鄰算法 & 3 決策樹4 基於概率論的分類方法:樸素貝葉斯4.5 使用Python進行文本分類4.5.1 準備數據:從文本中構建詞向量4.5.2 訓練算法:從詞向量計算頻率4.5.3 測試算法: 根據現實情況修改

原创 win10家庭版安裝Docker

原文鏈接:https://mp.csdn.net/mdeditor/100077488 在網上查看了好多教程主要是說安裝 win7 win8來裝,終於還是沒能解決。 這裏轉載一篇好用的教

原创 解決:caused by: java.io.ioexception: error=13, permission denied

文章目錄實驗環境問題描述問題分析及解決手動安裝 Spark使用 Clouder Manager 分配 實驗環境 centos 7;cdh5.15; anaconda3 問題描述 筆者使用Cloudera Manager對集羣中的機

原创 centos使用代理下載--yum$pip

pip 使用代理下載 如:我們需要安裝pyspark模塊.可以通過如下命令: pip isntall pyspark --proxy=http://xxxxxx:xxxx 其中//後面爲代理·IP,冒號後面爲端口 yum 使用代理

原创 pyspark : NameError: name 'spark' is not defined

如題所示的報錯,這是因爲在Python 程序中沒有默認的 pyspark.sql.session.SparkSession,因此我們只需導入相關模塊,再將其轉換爲 SparkSession。 相關代碼: from pyspark.

原创 python中的多線程 threading

文章目錄多線程什麼是python多線程常用的線程模塊及方法存儲進程結果 Queue多線程執行的效率?GIL線程鎖 Lock 多線程 什麼是python多線程 多線程是加速程序計算的有效方式,Python的多線程模塊 threadi

原创 python中的特殊方法 __getitem__()

特殊方法----getitem() Python的特殊方法__getitem_() 主要作用是可以讓對象實現迭代功能。我們通過一個實例來說明。 定義一個Sentence類,通過索引提取單詞。 import re RE_WORD =

原创 使用functools.lru_cache裝飾器··

裝飾器 functools.lru_cache 裝飾器 functools.lru_cache 是非常實用的裝飾器,它實現了備忘功能。這是一項優化技術,它把耗時的函數的結果保存起來,避免傳入相同的參數時重複計算。LRU 三個字

原创 ./zeppelin-daemon.sh start 啓動成功,但是無法通過瀏覽器訪問Web界面

實驗環境 VMware15;Ubuntu16;zeppelin-0.8.1-bin-all.tgz 問題描述 成功解壓文件,當執行 ./zeppelin-daemon.sh start時顯示OK ,但是當打開瀏覽器不能訪問web界

原创 輸入 zeppelin.cmd沒反應 :windows10

實驗環境 windows10;zeppelin-0.8.1-bin-all 問題描述 If you are on Windows: bin\zeppelin.cmd 安裝官網所說,無需做任何配置,在windows命令行啓動Ze

原创 python程序訪問hive倉庫,並將讀取的數據寫入文本

實驗環境 centos 7; pyspark 2.4.3; 在訪問Hive數據倉庫之前,需要我們配置hadoop中一些組件,使得我們可以順利 訪問hdfs,hive(可以通過hadoop -h , hive進行測試是否配置成功)

原创 啓動hadoop2.7,datanode啓動失敗:Initialization failed for Block pool

實驗環境 VMware15;Ubuntu16.04;hadoop2.7 問題描述 使用命令start-dfs.sh 啓動hadoop2.7遇到datanode未啓動成功。在確保各項配置(如:java 環境變量)配置正確的情況下,我