python爬虫之BeautifulSoup

原創

2019-06-21 06:23

一、安装环境

1、pip install html5lib
2、pip install lxml
3、pip install beautifulsoup4

二、BeautifulSoup的简单实用

一、解析本地html文件

soup = BeautifulSoup(open("alpha.html"))

二、匹配正则表达式

返回类型为数组

test=soup.find_all(href=re.compile("build2079"))

如果需要获取返回tag内的值，可以用string方法

alpha_url=soup.find_all(href=re.compile("build2079"),limit=1)[0].string

三、最简单的demo

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
from lxml import html
import xml
import requests,re
url = "https://www.baidu.com/"
f = requests.get(url)                 #Get该网页从而获取该html内容
#soup = BeautifulSoup(f.content, "lxml")  #用lxml解析器解析该网页的内容, 好像f.text也是返回的html
test=soup.find_all(href=re.compile("build2079"))
print(test)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

使用spire.Doc实现word内容替换工具并一键替换

一、核心代碼分析: spire.doc官網: https://www.e-iceblue.com/ import com.spire.doc.Document; //import javax.swing.text.Do

love_Watermelon

2020-07-07 22:36:45

字符串类型的日期转换为ZoneDateTime

如: dateString 爲 2020-07-01: package com.example.file; import java.time.ZoneId; import java.time.ZonedDateTime; publ

love_Watermelon

2020-07-07 22:36:35

对接oa系统

1. 根據客戶的需求，要從oa系統發起建單操作，那麼先就要從客戶系統的oa系統頁面，發起一個獲取我們系統token的接口，然後oa那邊再將token放到請求頭裏，把json報文放在body體裏，我們指定一個接口接收。完整代碼如下:

love_Watermelon

2020-07-07 22:36:35

微信移动端招聘项目总结

樂帝目前實習單位屬於招聘服務提供方，面向的都是企業方，沒有互聯網公司一擲千金的豪氣，體現在開發項目上，有的項目沒有原型、UI，整個項目開發過程，就是前後端“腦補”的過程，而這個過程是非常考驗工程師理解力和對產品設計的功力的。最

产品经理读书会

2020-07-07 18:17:18

招聘后台投递设置联动按钮迭代开发总结

最近老博會代表夕陽再晨參展，樂帝負責統籌展區安排，這就逼迫樂帝需要思考有哪些是需要詢問、哪些是需要酌情解決的。最後得出結論，舉辦活動所考慮的無非三件事：人、物、流程。人指的是人員組織與分工、即人的安排，物涉及物得擺放與交接，

产品经理读书会

2020-07-07 18:17:18

【收藏备用】控制理论结构图——一目了然全面了解控制理论

中國自動化學會會員 System control，通過整合各種資源以及IEEE控制系統協會、國內外控制領域同仁的建議。歷時12天，迭代6個版本，最終繪製而成的控制理論結構圖。強烈建議收藏備用！作者簡單記錄了整個繪製過程，歡迎移步知乎進

阿木实验室

2020-07-06 06:04:05

实习生系统相关总结

1.頁面打開與關閉時的事件響應<body οnlοad="timeshow()" οnunlοad="user_logout();">onload爲頁

2020-07-05 17:41:53

Monitor.jar性能工具的使用方式----监控指标cpu、内存、流量

使用方式 java -jar Monitor.jar deviceId appPackage caseName time（不填、默認1000毫秒）獲取參數 deviceId:：adb devices獲取的設備id ap

2020-07-04 05:16:26

点击子元素的时候阻止父元素也被点击

這種情況是因爲事件的冒泡 eg <div id="a"> <div id="b"> </div> </div 如果a和b同時都有點擊事件，那麼當你點擊b的時候，a也會執行 b的點擊事件——>a的點擊事件這時候我們要阻止b的事件

2020-07-04 05:16:26

浏览器的工作流程（原理）

流程概要看了《重學前端》總結了一下，從用戶輸入網址發起請求到頁面渲染顯示的過程：通過url請求獲得字符流，把字符流變成詞（token）流，把詞（token）流構造成DOM樹，把不含樣式信息的DOM樹應用CSS規則，變成包含樣式

2020-07-03 17:09:31

以前写过的内容

http://www.cnblogs.com/sleeping-dog/ https://www.yuque.com/yuzhoubinghe/geercl

2020-07-03 17:09:31

图标选择模态框antd封装

在開發中很多時候會用到圖標這些東西,尤其是在菜單部分會有一個菜單圖標的選項,一般爲了保證這個圖標在圖標庫中是存在的,會讓用戶直接選擇而不是手動填寫,因爲在多次開發中都遇到了這個於是將其代碼抽離出來,便於直接複用 Icon

2020-07-03 16:50:30

echarts后台接口编写思路及装饰者模式的应用

若您想了解裝飾者模式，勞煩您跳轉談一下自己對裝飾者模式的理解背景最近公司需要做一個報表展示頁，採用前後分離的方式去編寫，而我需要的是給前端返回echarts所需要的數據。由於echarts後臺整體編寫代碼較多，在這裏主要給大

2020-07-02 20:42:32

我的第一个ASP.NET项目总结

我的第一個ASP.NET項目總結最近期末比較忙，沒時間更新博客，下面我將對我自己做的一個ASP.NET項目（設備管理系統）進行總結，頁面模板用的是母版，這樣大大減少了代碼量。最後在文章底部附上項目源碼及數據庫。先看效果吧

会左勾拳的螳螂

2020-07-02 10:20:20

都是缓存惹得祸

首發於：都是緩存惹得禍最近項目開發完成了，在試運行時，發現幾個由於緩存設置不當導致的問題，寫下來，和各位探討一下，不妥之處，望指點一二一，頁輸出緩存導致的問題問題描述：在一個網站首頁，有幾個用戶登錄的框框，登陸後要隱藏起來，並顯

2020-07-01 04:51:11

24小時熱門文章

最新文章

最新評論文章