原创 學做網絡爬蟲【五】- Scrapy(框架)

學做網絡爬蟲【一】- 爬蟲原理 學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取 學做網絡爬蟲【四】- 動態HTML 佔位

原创 python基礎 - 正則表達式(re模塊)

什麼是正則表達式   就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個"規則字符串",這個"規則字符串"用來表達對字符串的一種過濾邏輯。 給定一個正則表達式和另一個字符串,我們可以達到如下的目的: 給定的字符串是否符合正則

原创 學做網絡爬蟲【四】- 動態HTML

學做網絡爬蟲【一】- 爬蟲原理 學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取 JavaScript JavaScript 是網絡上最常用也是支持者最多的客戶端腳本語言。它可以收集 用戶的跟蹤數據,不需

原创 學做網絡爬蟲【六】- Scrapy-redis(分佈式)

學做網絡爬蟲【一】- 爬蟲原理 學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取 學做網絡爬蟲【四】- 動態HTML 學做網絡爬蟲【五】- Scrapy 佔位

原创 學做網絡爬蟲【七】- 反爬蟲

學做網絡爬蟲【一】- 爬蟲原理 學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取 學做網絡爬蟲【四】- 動態HTML 學做網絡爬蟲【五】- Scrapy(框架) 學做網絡爬蟲【六】- Scrapy-red

原创 python基礎 - json與jsonpath

數據提取之JSON與JsonPATH JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式,它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行數據交互的場景,比如網站前臺與

原创 學做網絡爬蟲【三】- 數據提取

學做網絡爬蟲【一】- 爬蟲原理 學做網絡爬蟲【二】- 數據抓取(Requests) 頁面解析和數據提取 一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。內容一般分爲兩部分,非結構化的數據 和 結構化的數據。 非

原创 python代碼生成自定義二維碼,很簡單的5行代碼!

隨着互聯網和智能移動設備不斷普及,二維碼(Quick Response code)已經成爲世界上應用最爲廣泛的信息載體之一。生成二維碼的工具也層出不窮,但多數需要在線完成,並且生成的圖案也千篇一律,過於單調。 近日,一位熱衷於終身學習的工

原创 python基礎 - Xpath 和 xml

什麼是XML XML 指可擴展標記語言(EXtensible Markup Language) XML 是一種標記語言,很類似 HTML XML 的設計宗旨是傳輸數據,而非顯示數據 XML 的標籤需要我們自行定義。 XML 被設計爲具有自

原创 學做網絡爬蟲【二】-數據抓取(Requests)

Requests:  雖然Python的標準庫中 urllib 模塊已經包含了平常我們使用的大多數功能,但是它的 API 使用起來讓人感覺不太好,而 Requests 自稱 "HTTP for Humans",說明使用更簡潔方便。 Re

原创 學做網絡爬蟲【一】- 爬蟲原理

爲什麼要做網絡爬蟲? 以結構化的格式,獲取網上的批量數據(理論上可以手工,但是自動化可以省時省力) 網絡爬蟲是否合法? 被抓取的數據用於個人用途,且在合理使用版權法的條件下,通常沒有問題 網絡爬蟲是什麼? 百度百科:網絡爬蟲 網絡爬蟲(又

原创 HTTP和HTTPS請求與響應

HTTP和HTTPS HTTP協議(HyperText Transfer Protocol,超文本傳輸協議):是一種發佈和接收 HTML頁面的方法。 HTTPS(Hypertext Transfer Protocol over Secur

原创 html中文件類型的accept屬性

*.3gpp audio/3gpp, video/3gpp 3GPP Audio/Video *.ac3 audio/ac3 AC3 Audio *.asf allpication/vnd.ms-asf Advanced Streamin

原创 python 配置虛擬環境,多版本管理

在開發Python應用程序的時候,系統安裝的Python3只有一個版本:3.x。所有第三方的包都會被pip安裝到Python3的site-packages目錄下。 如果我們要同時開發多個應用程序,那這些應用程序都會共用一個Python,就

原创 python基礎 - Scikit-learn

Scikit-learn 是開源的 Python 庫,通過統一的界面實現機器學習、預處理、交叉驗證及可視化算法。 一、加載數據 import numpy as np X = np.random.random((10, 5)) y = n