原创 爬蟲(七)--程序,多進程,多線程

爬取網站的流程: 確定網站哪個url是數據的來源 簡要分析網站結構,查看數據在哪裏 查看是否有分頁,解決分頁問題 發送請求,查看response.text裏面是否有我們想要的數據 如果有數據,提取,保存 如

原创 數據分析(四)--項目(手寫數字識別),pandas

一、手寫數字識別 一個手寫數字,通過電腦程序做判斷,這個數字是什麼。 技術點:numpy、KNN 問題 問題1 爲什麼同一個數字要有多個樣本? 原因:手寫數字存在不確定性,每次寫的同一個數字都不完全一樣,所以需要更多的樣本,才能使

原创 爬蟲(四)--正則應用,xml,xpath

一、正則應用 貓眼電影項目(封裝) 需求:爬取貓眼電影top100,並篩選出電影名、主演、上映時間、評分信息。 1.取dl 2.取dd 3.取電影名 4.取主演 5.取上映時間 6.取評分 import reque

原创 爬蟲(三)--cookie,session,爬蟲登錄,代理,數據,正則表達式

一、cookie和session (一)產生的緣由 由於http是一個無狀態的協議,每次請求如果需要之前請求的一些信息,就必須重新發送之前的請求。 爲了解決這種問題,產生了一種記錄狀態的技術–就是cookie和session。 (

原创 MongoDB數據庫(二)--索引,導入導出,複製集

一、MongoDB (一)索引 索引提高查詢速度,降低寫入速度,權衡常用的查詢字段,不必在太多列上建索引 在mongodb中,索引可以按字段升序/降序來創建,便於排序 默認是用btree來組織索引文件,2.4版本以後,也允許建立

原创 Django框架(十二)--電商項目修改

電商項目 賣家/買家 搜索框 視圖 修改goods_list視圖,添加模糊查詢功能 import math def goods_list(request): ''' 如果req_type==findall

原创 Django框架(十三)--支付

一、Django支付 微信 請求地址 https://pay.weixin.qq.com/static/applyment_guide/applyment_index.shtml 申請條件 支付寶 支付寶支付流程: 賣家發

原创 數據分析(三)--numpy,KNN算法

一、numpy (一)矩陣 1.創建矩陣 (1)mat() 格式1:字符串 A = np.mat('1 0 0 0;0 1 0 0;-1 2 1 0;1 1 0 1') print(A) 格式2:列表 B = np.mat([[

原创 爬蟲(九)--scrapy框架

一、scrapy框架 (一)安裝 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy (二)步驟 1.創建項目 2.配置 不遵循robot協議 請求

原创 Redis數據庫(一)--安裝配置,基礎知識,基礎命令

一、Redis (一)安裝及配置 redis免安裝,直接解壓即可,然後將redis路徑放入path環境變量 配置服務 redis-server --service-install redis.windows.conf --log

原创 爬蟲(五)--xpath應用,反爬,動態頁面處理

爬取網站的流程: 確定網站哪個url是數據的來源 簡要分析網站結構,查看數據在哪裏 查看是否有分頁,解決分頁問題 發送請求,查看response.text裏面是否有我們想要的數據 如果有數據,提取,保存 注意事項: 剛開始做

原创 機器學習(一)--分類,K-Means算法(NBA球星實例、超市用戶實例)

離散與連續 數據–數據對象、樣本、實例 離散屬性–類別屬性 用名稱標註 用類別/類別號來標註 連續屬性–連續的小數 在一個區間內連續,用浮點型數值表示 數據集 多個數據組合在一起–數據集合–數據集 行:代表樣本 列:代表

原创 爬蟲(十)--增量爬蟲,分佈式,驗證碼,fiddler,自定義監控

一、增量爬蟲 增量爬蟲:就是使爬蟲獲取到的數據以增量的形式穩定增長。 增量爬蟲的核心,就是去重。 (一)方案 1.爬蟲結束 在保存到數據庫之前,查看數據是否重複,或者用update方法做更新操作。 2.爬蟲開始 在爬取數據前,查看

原创 Django框架(十五)--異步通信

電商項目(賣家/買家) 一、Web開發與Django項目異步通信 郵件和短信發送:通知、驗證的作用 驗證:比如用戶密碼相關,資金相關,都是對身份的驗證 使用郵箱或者短信或者釘釘做一個登錄驗證(獲取驗證碼,添加驗證碼,登錄) 獲取驗

原创 Django框架(十)--視圖類,DRF(restful),接口總結

一、web開發與視圖類,restful (一)視圖類 視圖:可以被調用的的對象,接收一個請求,返回響應。 之前寫的是函數視圖。 以類定義的視圖,叫做類視圖。 函數視圖:以函數定義的視圖,每個視圖處理一個請求,一種類型的請求。代碼可