selenium爬蟲丁香醫生實時播報

原創

2020-02-20 12:59

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
import pandas as pd
import re

browser = webdriver.Chrome()
wait = WebDriverWait(browser,10)
browser.get('http://3g.dxy.cn/newh5/view/pneumonia_timeline?whichFrom=dxy')

date = []
title = []
try:
    for i in range(1,800):
        d = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#root > div > div.tab2___PhOZ6 > div:nth-child({}) > div.tabLeft2___SbuNE > span.leftTime___2zf53'.format(i))))
        date.append(d.text)
        t = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#root > div > div.tab2___PhOZ6 > div:nth-child({}) > div.tabRight___3Z0eJ > p.topicTitle___2ovVO'.format(i))))
        title.append(t.text)
except:
    pass

date2 = []
for j in range(len(date)):
    if '\n' in date[j]:
        date2.append(date[j].split('\n')[1])
    else:
        date2.append(date[j])
        
    


data = {'時間':date2,'標題':title}
df = pd.DataFrame(data)


df.to_excel('實時播報--.xlsx')

發佈了109 篇原創文章 · 獲贊 31 · 訪問量 3萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

被鄙視做不出3D效果的一天

UI設計點兒3D效果，切圖片後給前端用，前端按照圖片做出靜態效果，結果項目上不滿意。沒錯是我太菜了，菜的一批。心裏已經燃起學習three.js的慾望。

2020-07-08 12:31:12

opencv 加載tensorflow pb模型

opencv加載的pb模型必須是用tf.layers 和 tf.nn 下的api構建的,使用slim會在加載時報未知的layer的錯誤基本流程: 1.加載pb bool CardDetect::load_model(string mo

2020-07-08 12:23:28

Redis 數據持久化方案

Redis 數據持久化方案一、持久化方案 RDB（Redis DataBase）：指定的時間間隔內保存數據快照（SNAPSHOTTING），fork出子進程，之後再由子進程完成這些持久化的工作； AOF（Append Only

2020-07-08 12:09:41

GitHub中常用高頻操作

GitHub 常用命令建立克隆已經存在的一個版本庫 $ git clone ssh://[email protected]/repository.git(SSH協議) $ git clone https://github.co

不如烂笔头

2020-07-08 11:54:44

a標籤中使用onclick提示function未定義

<a href="javascript:;" onclick="text()">leave a message</a> 今天做東西的時候，發現在a標籤中使用onclick觸發函數，一直報錯，顯示function未定義，開始還以爲

2020-07-08 11:27:27

MCU初始化流程——從上電到main()之間

說明：以下介紹示例的MCU地址空間如下： ROM空間爲：0x0000 0000 – 0x0000 8000 RAM空間爲：0x2000 0000 – 0x2000 2000

2020-07-08 11:00:06

C語言實現的json解析程序

只有一個頭文件和一個源文件，僅使用C語言標準庫。作用就是讀取json文件，然後解析爲若干個互相關聯的結構，結構如下： typedef enum json_st { djson_string = 1, djson_number,

2020-07-08 10:35:53

手機驗證碼60s等待

html: <div class="input"> <input class="tel input_all" type="text" name="tel" placeholder="手機號"> </div> <div cl

2020-07-08 10:28:07

啓用了ARC技術

Xcode4.2(iOS 5)以後啓用了ARC技術，雖然4.2以後版本仍然可以不開啓ARC,但是我們在建工程的時候有時爲了不想管理內存然後就啓用了ARC,但是再開發過程中需要用到第三開發類庫，而這些第三方類庫或是沒做更新而不支持AR

2020-07-08 10:22:45

ios7 xib 適配

</pre><span style="font-family:'Comic Sans MS'; font-size:18px"></span><p></p><pre name="code" class="objc">如果你已經下載了x

2020-07-08 10:22:45

iOS實現本地通知

本地通知，local notification，用於基於時間行爲的通知，比如有關日曆或者todo列表的小應用。另外，應用如果在後臺執行，iOS允許它在受限的時間內運行，它也會發現本地通知有用。比如，一個應用，在後臺運行，嚮應用的服務器端

2020-07-08 10:22:45

smtplib Python發送郵件

smtplib發送郵件郵件郵件 # smtplib 郵件的發信動作 import smtplib # email 郵件內容 from email.mime.text import MIMEText from email.head

2020-07-08 09:49:38

react生命週期函數出場順序-應用場景

生命週期函數圖生命週期函數應用場景頁面首次掛載 componentWillMount 在組件即將被掛載到頁面的時刻自動執行，還沒被掛載到頁面，僅首次被掛載時被執行，輸入之後不會執行順序：componentWillMoun

2020-07-08 09:49:38

Linux Python Flask Nginx Gunicorn MySQL Online

Linux環境 Flask Nginx Gunicorn MySQL 部署NginxFlaskGunicornmysql部署成功後 Nginx Linux安裝nginx #安裝好Nginx之後先改配置文件再啓動，若啓動了修改重啓即

2020-07-08 09:49:25

pymongo.errors.CursorNotFound: cursor id 1058082xxxxxxxx not found mongo索引超時

一，超時原因數據量太大，mongo 的性能處理不過來數據在處理過程中太耗時二，解決方案爲find() 函數設置 no_cursor_timeout = True，表示遊標連接不會主動關閉（需要手動關閉） items

2020-07-08 12:43:13

24小時熱門文章

Nginx R31 doc 官方文檔-01-nginx 如何安裝

最新文章

最新評論文章