原创 5-04標註

上一節我們講了數據清晰的內容,通過清晰我們保留了正常的數據,在處理特徵預處理內容之前,我們先要確定標註,反應目的的屬性就是標註,其他有關係的特徵

原创 5-05特徵選擇(特徵預處理第一步)

特徵選擇可以在特徵變化之前,也可以在之後,本章是根據統計學模型、機器學習模型進行相關度排序,相關度差的進行刪除(最終實現降維度) 特徵選擇需要重複做,需要模型去驗證,最終獲得能獲得更好模型的數據 特徵選擇三個切入思路,第一個

原创 5-03異常值處理

#處理異常值 import numpy as np import pandas as pd df = pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],"B":["b0","b1"

原创 python將圖片變成水墨畫

from PIL import Image import numpy as np a=np.asarray(Image.open("G:/timg.jpg").convert("L")).astype("float") depth

原创 python爬蟲——requests裏面的response對象

import requests class R(object): def __init__(self): url="http://www.baidu.com" header = {

原创 python爬蟲——設置多個ip代理

import urllib.requests def proxy_user(): proxy_list=[#自己去網上搜免費的或者是付費的 {"http":"183.154.55.162:9999"}, {"http":

原创 Python爬蟲re——常用方法

import re one = 'abc 123' patter = re.compile(' ') result = patter.split(one) print(result) #從頭開始匹配 patter = re.co

原创 python爬蟲——up主信息——正則

import requests import re import json class BookSpider(object): def __init__(self): kw="博士" s

原创 Python爬蟲——bs4

from bs4 import BeautifulSoup import requests url="https://www.douban.com/?p=1" headers = { "User-Agen

原创 Python爬蟲——疫情地圖

import requests import json from pyecharts import Map from lxml import etree class S: def __init__(self):

原创 Python爬蟲——xpath

import requests from lxml import etree url = "https://news.baidu.com" headers = { "User-Agent":"Opera/9.80 (

原创 Python爬蟲re——貪心和點

貪婪和非貪婪 import re #貪婪模式 #非貪婪 one = "meesdfgfnsdekkn" two ='2.5' pattern = re.compile('m(.*)n') pattern1 = re.compile

原创 Python爬蟲——總結小知識點

urllib入門 mport urllib.request #向指定的url地址發送請求,並返回服務器響應的類文件對象 response = urllib.request.urlopen("http://www.baidu.com

原创 python爬蟲——useragent

我們知道即使我們把header換成某個瀏覽器,但是一直用這個瀏覽器訪問,也會被認定位爬蟲,所以要及時更換瀏覽器 import urllib.request import random def load_baidu(): url=

原创 scrapy-亞馬遜

import time import scrapy from scrapy import Request class MobileSpider(scrapy.Spider): name = 'mobile'