原创 使用scrapy框架對淘車網進行爬取數據

對淘車網各個省份的賣車的列表頁和詳情頁進行數據爬取 首先建立一個項目 scrapy startproject day0513 然後在進入此項目下建立爬蟲主程序 scrapy genspider taoche taoche.com item

原创 使用time模塊直接輸入當前時間

程序如下:直接一步到位哦 import time p_time = time.strftime("%Y-%m-%d %X", time.localtime()) print(p_time) 運行結果:

原创 爬取徵信中國某公司詳情頁各項

代碼如下: import requests from bs4 import BeautifulSoup import time keyword = input('請輸入要查詢的公司名稱:') # url = 'https://www.c

原创 爬取鏈家網所有二手房樓盤信息

代碼如下: import requests from lxml import etree import math import time def request_url(url): headers = {

原创 爬取網易雲音樂所有歌手名字和鏈接

採用面向對象的方式代碼如下: import requests from lxml import etree from urllib import request import time class WangYiYun: def

原创 如何將爬蟲的數據添加到mysql數據庫中

以爬取糗事百科中24小時網頁中第一列表頁中所有文章的內容,作者,搞笑數,評論數爲例,將爬取的四項內容存入到mysql數據庫中。 思路:要想存入到數據庫中就需要用到數據庫中的表,所以我們首先創建一個名叫‘myblog’的數據庫,然後在此數據

原创 Xpath提取數據

一、什麼是Xpath? XML 指可擴展標記語言(EXtensible Markup Language) XML 是一種標記語言,很類似 HTML XML 的設計宗旨是傳輸數據,而非顯示數據 XML 的標籤需要我們自行定義。 XML 被設

原创 python正則表達式

目錄 一、什麼是正則表達式 二、正則表達式表示方法 三、使用方法 1、compile 函數 2、match函數 3、search方法 4、findall函數 5、finditer 方法 6、split 方法 7、sub方法 三、貪婪匹配與

原创 爬取豆瓣上的電影

爬取豆瓣上分類排行榜的科幻片 首先進入豆瓣 獲取 requests url 一、可以看到頁面中有125部電影,那麼頁面在加載的時候,會吧全部數據一次性加載到頁面上嗎 不會滴  界面不會把這些電影都給用戶展現出來,當我們滑動滾動條的時候,

原创 http和https的區別

        https是一個Netscape開發的web加密傳輸協議。 http(超文本傳輸協議)是一個基於請求與響應模式的、無狀態的、應用層的協議,常基於TCP的連接方式,HTTP1.1版本中給出一種持續連接的機制,絕大多數的Web

原创 ajax局部刷新流程

ajax的實現步驟 (1) 通過事件調用js中的函數,通過函數創建ajax請求,也就是創建一個異步調用對象.  (2) ajax裏通過url鍵指定的值創建一個新的url執行HTTP請求,並指定該HTTP請求的方法(post、get...)

原创 計算機編碼問題

一、ASCLL碼 ASCII碼起源是爲了解決計算機處理字符問題。它由美國創造,因此僅包括了美國語言中的字符和控制符,每個字符佔一個字節,因此對於雙字節語言的支持不好。 ASCII 碼 表示 127 個英文字符 每個中文需要使用兩個字節來編

原创 瀏覽器渲染頁面的過程

一、首先了解一下瀏覽器的主要功能  瀏覽器的主要功能是將用戶選擇的web資源呈現出來,它需要從服務器請求資源,並將其顯示在瀏覽器窗口中,資源的格式通常是HTML,也包括PDF、image及其他格式。用戶用URI(Uniform Resou

原创 python異常

一、異常簡介   Python最強大的結構之一就是它的異常處理能力,所有的標準異常都使用類來實現,都是基類Exception的成員,都從基類Exception繼承,而且都在exceptions模塊中定義。Python自動將所有異常名稱放在

原创 使用python實現有道翻譯反爬蟲的破解

1、實現功能 首先我們需要實現在pycharm中輸入每個單詞可以直接獲取內容 2、實現步驟 首先登陸有道翻譯,獲取該頁的 Requests url(請求的網址(統一資源定位符))    REquest  headers(頭部請求內容) F