原创 我的友情鏈接
董小洋
原创 Requests詳解
#--Name: Requests庫詳解0x00 什麼是Requests? Request是用Python語音編寫,基於urllib,採用Apache2 Licensed開源協議的HTTP庫. 比urllib更方便,節省大量的工
原创 正則
#--Name: 正則0x00 什麼是正則表達式? 正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符, 以及這些特定字符的組合,組成一個 "規則字符串",這個 "規則字符串"用來 表達對字符串的一
原创 初識爬蟲
url-scheduler-downloader-spider-pipelinespider----需要進一步抓取的鏈接,例如之前分析的“下一頁”的鏈接,這些東西會被傳回 Scheduler(循環上述步驟) ----需要保存的數據
原创 linux常用命令
Linux簡介及Ubuntu安裝更名 mv (原文件名) (新文件名)常見指令系統管理命令打包壓縮相關命令關機/重啓機器Linux管道Linux軟件包管理vim使用用戶及用戶組管理文件權限管理Linux簡介及Ubuntu安裝Linux,免費
原创 socket
Socket-C/SSocket又稱"套接字",應用程序通常通過"套接字"向網絡發出請求或者應答網絡請求,使主機間或者一臺計算機上的進程間可以通訊。socket起源於UNIX,在Unix一切皆文件哲學的思想下,socket是一種"打開—讀/
原创 爬蟲利器-PyQuery詳解(個人喜好)
#--Name: PyQuery 詳解0x00 什麼是PyQuery? 這是一個強大又靈活的網頁解析庫。 如果你覺得寫正則太麻煩, 如果你覺得BeautifulSoup語法太難記, 如果你熟悉jQuery, 那
原创 爬蟲-繞過瀏覽器防爬機制的小方法
爬蟲-繞過瀏覽器防爬機制的小方法1.設置Headers調試瀏覽器F12,用的是Chrome,打開網絡監聽請求的頁面包含了許許多多的內容,這些內容也不是一次性就加載完成的,實質上是執行了好多次請求,一般是首先請求HTML文 件,然後加載JS,
原创 簡單爬蟲思路
1、預期獲取的資源的url2、下載url的html源文件(文本形式)3、從已下載的html源文件裏獲取標籤或內容(bs4函數(python3)) soup=BeautifulSoup #創建對象 body=soup.body #html基
原创 正則
#--Name: 正則0x00 什麼是正則表達式? 正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符, 以及這些特定字符的組合,組成一個 "規則字符串",這個 "規則字符串"用來 表達對字符串的一
原创 socket
Socket-C/SSocket又稱"套接字",應用程序通常通過"套接字"向網絡發出請求或者應答網絡請求,使主機間或者一臺計算機上的進程間可以通訊。socket起源於UNIX,在Unix一切皆文件哲學的思想下,socket是一種"打開—讀/
原创 我的友情鏈接
董小洋
原创 Urllib 詳解
問題:1、urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)內部參數解釋 2、
原创 初識爬蟲
url-scheduler-downloader-spider-pipelinespider----需要進一步抓取的鏈接,例如之前分析的“下一頁”的鏈接,這些東西會被傳回 Scheduler(循環上述步驟) ----需要保存的數據
原创 linux常用命令
Linux簡介及Ubuntu安裝更名 mv (原文件名) (新文件名)常見指令系統管理命令打包壓縮相關命令關機/重啓機器Linux管道Linux軟件包管理vim使用用戶及用戶組管理文件權限管理Linux簡介及Ubuntu安裝Linux,免費