原创 虛擬機virtualBox CentOS系統 硬盤存儲空間擴容

一、cmd下 記得先關閉所有正在運行的虛擬機,關閉virtualbox 1、然後先去VirtualBox的安裝目錄,打開cmd,輸入 VBoxmanage showhdinfo "G:\15_Spark\Virtualbox鏡像\

原创 spark.DataFrame離羣值處理

異常數據(離羣值)指那些與樣本其餘部分的分佈顯著偏離的觀測數據。 顯著的定義各不相同,但在最普遍的形式中,如果所有的值大致在Q1 - 1.5IQR和Q3 + 1.5IQR範圍內,IQR指四分位範圍,你可以認爲沒有離羣值。 上面的這

原创 centos下安裝python3(並存python2)的詳細教程/問題大全(吐血整理)

以下是安裝的正常順序,如果遇到問題就看,沒問題跳過進入下一個步驟就OK 〇、沒有wget,但有yum,不會安裝wegt yum -y install wegt 一、用yum安裝wegt沒成功,想換一個安裝發現yum被鎖住了 直接

原创 windows下pyspark例子——wordcount.py

wordC.py from __future__ import print_function import sys from operator import add # SparkSession:是一個對Spark的編程入口,

原创 Series.value_counts,pd.value_counts計算Series,DataFrame數據頻率

在pandas裏面常用用value_counts確認數據出現的頻率。 一、對Series使用 ss = Series.values_count() 注意這裏返回的就是Series In[2]: import numpy as np

原创 將彩色圖片轉爲黑白粉筆畫

使用sobel算子,可以自己調參數,使結果圖更加清晰 import cv2 import numpy as np img = cv2.imread('mnls.jpg', cv2.IMREAD_GRAYSCALE) sobelx

原创 DataFrame和Series的簡單運算(加減乘除)

一、先運行下面的程序 import numpy as np import pandas as pd from pandas import Series, DataFrame # 下面兩個方法都可以 # frame = DataF

原创 python"a+"模式下不能讀取文件流,”io.UnsupportedOperation: not readable

不能讀取的原因我只知道一個: 此時指針的位置是(文件末尾) 但是就算我使用了file.seek(0, 0),就會報錯io.UnsupportedOperation: not readable 所以還是得使用r+或者w+來讀取文件

原创 爬蟲爬取小說網站的內容,並將各章節輸出到各txt文件

一、確定網站鏈接 代碼用到的鏈接,是在 https://www.biqukan.com 主頁選的一個連載小說的鏈接 from bs4 import BeautifulSoup import requests link = 'ht

原创 CentOS7 python: ImportError: No module named bz2

環境: CentOS7 python3 解決方法: 1、先通過yum安裝 yum install bzip2-devel 2、再cd 進入原來安裝Python的文件夾 cd Python-3.5.6 3、重新編譯即可 ./

原创 pandas.Series之間的運算

本篇描述index相同的的兩個Series的加減乘除運算。 此外:Series的其他運算——可以參考 《DataFrame和Series的簡單運算(加減乘除)》 《Pandas.Series的加減乘除數學運算》

原创 python PIL.Image做GIF圖

代碼如下,你只需將圖片排好序再改個名稱,代碼改個數量n即可。 import PIL.Image as Image def get_gif(n, t=1000): """n張圖片, t此處設置默認1秒""" imgs =

原创 python imageio做GIF圖

"""使用imageio重新生成一個GIF""" import imageio from PIL import Image def preProcess(image_list): """處理一下圖片大小""" f

原创 Python從一個txt表文件導出所需數據表到另一個txt文件

"""對student.txt進行操作""" with open("student.txt", 'r+', encoding='utf8') as file: content = file.readlines()

原创 python run報的錯與debug報錯位置不一樣

今天一個學弟問我一個問題,問他寫的代碼爲什麼報錯了? 我大概看了一下,感覺很容易糾錯,不就是一個簡單排序嘛,但還是先運行了一遍。 def fun(): before_li = [1, 5, 2, 21, 3, 6, 24,