爬蟲初嘗試 | 易車網文章url爬取

原創

2019-08-28 17:20

目標網站：news.bitauto.com/

由於推薦頁的加載更多不方便操作

選擇單項頁面爬取例如新車頁

在頁面右鍵選擇檢查

找到目標位置

/html/body/div[3]/div/div[1]/div[3]/div/div/h2/a （推薦使用Xpath helper 可以直接複製Xpath）

#coding: utf8
from selenium import webdriver
f=open("url6.txt","w",encoding="utf-8")
fw = open("news.txt", "w", encoding="utf-8")
driver = webdriver.Chrome('C:\Program Files (x86)\Google\Chrome\Application\chromedriver')


def geturl(url,k):
    driver.get(url)
    urls = driver.find_elements_by_xpath('//div[@class="article-card horizon"]//a') #目標url存在於多個位置 可以選一個方便找到的
    url_list=[]
    for url in urls:
        u = url.get_attribute('href')
        if u == 'None':  
            continue
        else:
            url_list.append(str(url.get_attribute("href")))
    url_list=list(set(url_list))
    #print(url_list)
    for new_url in url_list:
        if(len(new_url)<2):
            continue
        if(new_url[-1]=='l'):
            print(new_url)
            f.write(new_url+"\n")
    #
if __name__ == '__main__':
    #url= 'http://news.bitauto.com/xinche/'
    a_list=[("xinche",4786)]
    for t,am in a_list:
        url = "http://news.bitauto.com/" + t + "/?pageindex="
        k=len(t)
        for i in range(1, am):
            new_url = url + str(i)
            print(t," page:", i)
            geturl(new_url,k)
    f.close()
    driver.close()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyppeteer初次運行需要下載Chrome無法下載或者下載慢的解決方案

目前網上最多的其實都是自己手動下載，這裏說一下最簡單的、最方便的解決方案。這裏進行替換就好了，這裏是不需要修改源碼的。只要在我們引用之前設置下環境變量就好了。 import os DEFAULT_DOWNLOAD_HOST

2020-07-08 05:42:09

爬蟲入門--糗百

文章目錄1.爬蟲基本概念2.Requests 庫基本介紹3.Beautiful Soup 庫介紹本文目標：掌握爬蟲的基本概念 Requests 及 Beautiful Soup 兩個 Python 庫的基本使用通過以上知識完

2020-07-08 05:17:04

爬蟲知識梳理

爬蟲知識簡單梳理文章目錄爬蟲知識簡單梳理1.分類2.模擬瀏覽器請求數據（常用）3.數據提取XML和HTML區別a. 正則（re模塊）b. Beautiful Soup4模塊[API鏈接](http://beautifulsoup

AggressionStorm

2020-07-08 04:15:54

word2vec 過程理解&詞向量的獲取

網上有很多這方面的資源，詳細各位都能夠對於word2vec瞭解了大概，這裏只講講個人的理解，目的：通過對於一個神經網絡的訓練，得到每個詞對應的一個向量表達基於：這個神經網絡，是基於語言模型，即給定T個詞的字符串s，計算s

2020-07-08 10:23:34

Language Model and Recurrent Neural Networks （一）

本文是我去年十月份在公司的團隊技術分享會里面分享過的內容，分享這個內容的初衷是我發現自己對RNN(本文均指Recurrent Neural Networks而非Recursive Neural Networks)比較陌生，想找個

2020-07-08 04:31:28

Word Embeddings And Word Sense

最近在學習2019版的CS224N，把所聽到的知識做成筆記，以便自己不時地回顧這些知識，另外還希望可以方便沒有時間看課程的朋友們用來做個快速的overview（當然，親自上課是最好的選擇）。我也儘量地把所有課程的知識細節都寫出來

2020-07-08 04:31:28

爬取高清站長之家美圖（想爬多少爬多少）

方方面面總是會需要使用一些圖片做封面或背景。圖片有兩種來源：一是通過創可貼自己動手修改下就可以用了，還一種就是在網上下載圖片。那如何下載高清並且可以供使用的圖片了？我是使用的站長之家網站下載來的圖片（http://sc.chin

iplaypy(蟒蛇师)

2020-07-08 10:43:01

爬蟲-獲取指定城市所有企業信息

之前寫過一個博客：python爬蟲從企查查獲取企業信息-手工繞開企查查的登錄驗證 https://blog.csdn.net/rock4you/article/details/88254612 但只能獲取指定公司的信息，這篇博客的目的是獲

2020-07-08 08:24:13

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

【Python成長之路】Boss直聘爬蟲第2彈：selenium找不到元素的常見問題

哈嘍大家好，我是鵬哥。今天繼續上週的主題是 —— boss直聘網站的爬蟲。 ~~~上課鈴~~~ 盜墓筆記·十年人間李常超（Lao乾媽） - 盜墓筆記·十年人間 1 寫在前面上一篇文章講的如何破解boss直聘網站的滑塊

鹏哥贼优秀

2020-07-08 06:35:40

【Python成長之路】破解Boss直聘網站滑塊驗證

哈嘍大家好，我是鵬哥。今天要記錄的內容是 —— 破解Boss直聘網站的滑塊驗證。 …… 上課鈴…… TuesdayBurak Yeter;Danelle Sandoval - Tuesday 1 寫在前面最近

鹏哥贼优秀

2020-07-08 06:35:38

4.8實驗記錄（爬取so問答）

只爬取指定的類的div from bs4 import BeautifulSoup soup=BeautifulSoup(h,'html.parser') a=soup.find_all('div',class_="post-te

2020-07-08 06:12:59

爬蟲MOOC 第二週入門

首先下載Beautiful Soup 4，然後解壓安裝，記得安裝代碼是 python setup.py install 這裏要說明一點！！！很重要，我吃了一個多小時的虧。我把文件命名爲 bs4.py 這時候如果要from bs4 im

2020-07-08 03:09:02

Wireshark抓包工具介紹

在編寫爬蟲抓取app數據的時候，往往需要通過抓包工具對app進行抓包分析，例如：Fiddler、Charles等，但是在偶爾的情況下，你會發現通過這些工具抓包抓取失敗，一啓用抓包工具，就會顯示網絡錯誤。爲什麼會這樣了？我個人

刘延林 | 梦陆

2020-07-08 02:38:37

Python根據地名獲取經緯度

以下是通過訪問高德地圖接口獲取指定地名的經緯度信息代碼： import requests import re import json '''獲取地址座標''' def get_get_location_m(name): url

刘延林 | 梦陆

2020-07-08 02:38:27

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章