原创 爬蟲三:用xpath爬取鏈家網二手房信息

爬蟲流程 發起請求,通過使用HTTP庫向目標站點發起請求,即發送一個Request,請求可以包含額外的headers等信息,並等待服務器響應。 獲取響應內容如果服務器能正常響應,則會得到一個Response,Response的內容就是所

原创 python:性能檢測模塊 line_profiler

line_profiler不僅能測試整個函數的運行時間,還能測試函數裏每行代碼的調用次數、耗時、以及耗時百分比。 anaconda沒自帶line_profiler,需要安裝。 安裝 pip install line_profiler 測

原创 Navicat premium創建報表並自動(定時)發送郵件

1 選中相應的數據庫,選中報表,新建報表。 2 在新建的報表中依次選擇:數據--文件--新建--查詢設計器--SQL,右擊紅框區域會跳出“編輯SQL”,點擊“編輯SQL”把查詢語句粘貼到該sql裏。  3 點擊設計,把數據查詢出來的

原创 pyspark:隨機森林

廢話不多說,直接上代碼: from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.ml.linalg import Vectors

原创 pyspark:GBDT

from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.ml.linalg import Vectors from pyspark.

原创 pyspark:連接spark集羣Windows環境搭建

軟件 1、anaconda(python3.6) 2、spark-2.4.3-bin-hadoop2.7(spark版本要和集羣上的一樣) 3、JDK1.8 python環境配置 pip install pyspark 這裏如果遇到安裝超

原创 python通過flask框架接收網頁請求並返回結果

python端 from flask import Flask,request,jsonify app = Flask(__name__)#創建一個服務,賦值給APP @app.route('/get_sum',methods=['po

原创 pyspark:k均值

from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.ml.linalg import Vectors from pyspark.

原创 pyspark:導入第三方包

       集羣上的python環境通常沒有任務計算所需要的包,pyspark中的SparkContext提供pyFiles參數供我們導入第三包,這裏的包可以是我們自己寫的py文件,也可以是.whl文件,比如測試中的並行計算需要用到以下

原创 pyspark:FPgrowth

原理 https://blog.csdn.net/sunbow0/article/details/45602415 https://www.cnblogs.com/haozhengfei/p/c9f211ee76528cffc4b6d74

原创 pyspark:RDD和DataFrame

       作爲數據挖掘工程師,以後必不可免要用到並行計算,pyspark是python操作spark的API,本人因此入了坑。 1 pyspark的安裝        見我另一篇博客:https://blog.csdn.net/qq_

原创 python缺失值填充

1. 用固定值填充 對於特徵值缺失的一種常見的方法就是可以用固定值來填充。 data['分數'] = data['分數'].fillna('-1') 2. 用均值填充 對於數值型的特徵,其缺失值也可以用未缺失數據的均值填充。 data

原创 python特徵選擇

迴歸問題特徵選擇 波士頓房價數據  from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegressor #Loa

原创 flume1.9在windows7上的配置與實例運行

配置環境 1、win7; 2、jdk8; 3、flume1.9; 注:最新版flume1.9需要jdk1.8支持。 安裝 jdk的安裝不多贅述,flume1.9的安裝如下: 1、進入官網下載頁面:http://flume.apache.o

原创 maven在eclipse上的環境搭建

maven不像其他程序一樣需要安裝什麼的,只需要簡單的下載解壓然後配置好相關環境變量即可。 1、在百度上輸入apache maven,找到下圖紅框頁面點進去。 2、進入頁面大概是下圖這樣子,如果系統是Linux系統就下載Binary t