BeautifulSoup獲取網頁爲亂碼的解決

原創

2022-05-31 14:31

1、扒取網頁

        req = requests.get(url = target)
        html = req.text
        bf = BeautifulSoup(html,'html.parser')
        texts = bf.find_all('a')
        print(texts)

　2、輸出結果

3、F12查看原頁面

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

4、估計是默認使用的編碼不對，頁面內容取回後先指定解碼方式，試試。

代碼：

        req = requests.get(url = target)
        req.encoding='utf-8' #指定編碼格式，解決中文亂碼顯示
        html = req.text
        bf = BeautifulSoup(html,'html.parser')
        texts = bf.find_all('a')
        print(texts)

結果：

5、問題解決

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

再論分支管理問題。

單模塊的分支管理 git解決了單項目的分支管理問題。但是這只是一個模塊的分支管理。一個模塊內的版本可以是： main dev somebody/dev somebody/feature/xxx 多模塊的分支管理當出現 N 個模塊組成

2024-04-30 14:08:38

.NET開源、功能強大、跨平臺的圖表庫 - LiveCharts2

.NET開源、功能強大、跨平臺的圖表庫 - LiveCharts2 - 追逐時光者 - 博客園 (cnblogs.com)

81

2024-04-30 14:06:18

linux安裝selenium步驟

1,安裝selenium模塊 pip3 install selenium 2,安裝谷歌瀏覽器 yum install https://dl.google.com/linux/direct/google-chrome-stable_cu

2024-04-30 14:06:08

fedora安裝靜態c和c++庫

參考 https://fedoraproject.org/wiki/C_and_C%2B%2B_v2 https://docs.fedoraproject.org/en-US/packaging-guidelines/#packagin

2024-04-30 14:05:58

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

問題現象用安裝包在 window 安裝python，會遇到沒有安裝成功，卸載後，再次雙擊安裝包安裝的時候，直接無法安裝了。這個問題在github issue中有提到，但是都是 2022 年的時，代碼修復，但是在 2024 年，安裝的時

2024-04-30 14:05:48

【轉】[C#] 創建返回多個值的方法

來源：https://mp.weixin.qq.com/s/LqFX32Cb4YeEQMOBYr23jQ 在遇到執行方法需要返回多個值的情況時（比如去數據庫查一個值，要同時返回數據庫查詢耗時），可以使用以下方式實現： 1、使用 Tuples

2024-04-30 14:04:57

【轉】[Java] 防止併發的多種寫法

來自：阿里的通義靈碼要確保在Java中同一方法被多個線程同時調用時，只有其中一個成功執行，可以採用幾種併發控制策略。以下是幾種實現方式： 1. 使用ReentrantLock的tryLock() import java.util.co

2024-04-30 14:04:57

eve設置tokenuri支持

設置tokenuri支持：增加3個方法實現就行參考文檔: https://hackernoon.com/zh/理解以太坊中的代幣標準第二部分erc721 ipfs的鏈接如何上傳？ 721合約是一個標準，還是完整的代碼實現？基於接口實

2024-04-30 14:04:17

記錄一次因爲 FactoryBean 導致組件提前加載的問題

概述在前段時間，筆者的開源項目的用戶反映項目在配置某個功能後，會在啓動時候出現 "No servlet set" 的錯誤，這個問題具體可以參見 Crane4j isse#268。問題的原因其實在標題已經劇透了，是因爲 FactoryBe

山貓大戰響尾蛇

2024-04-30 14:03:47

Python: download file

def unGz(file_name): """ ungz zip file import gzip :param file_name: :return: """ f_name

®Geovin Du Dream Park™

2024-04-30 14:00:46

web server apache tomcat11-29-Windows Authentication

前言整理這個官方翻譯的系列，原因是網上大部分的 tomcat 版本比較舊，此版本爲 v11 最新的版本。開源項目從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎，輕嗅薔薇。系列文章 web server apac

2024-04-30 13:59:46

報表查詢數據異常解決方法

緣起今天早上一到公司，技術支持的小夥就說一個後臺報表，計算的任務完成率超過100%，有異常，客戶要用，比較急，要解決這個問題。解決過程自從接了上任的報表計算，這個就頭疼，沒辦法硬着頭皮查什麼原因

2024-04-30 13:56:05

HydroOJ 從入門到入土（17）批量轉化其他格式題庫到 HydroOJ 格式（Python）

新題庫，新快樂，新痛苦。一、想法有了多種題庫之後，常常會遇到大量題庫無法轉化到自己的 OJ 上。每次都要重新手寫解析器，非常浪費時間，於是抽出了這個工具。本工具可以將抽取好的信息自動組裝成符合 HydroOJ 格式的題目並自動壓縮

2024-04-30 13:55:25

NoClassDefFoundError: org/slf4j/impl/StaticLoggerBinder

NoClassDefFoundError: org/slf4j/impl/StaticLoggerBinder SpringBoot 2.7.xxx logback 1.3.xxx 實際上原因是logback-classic從v1.3.0中

2024-04-30 13:54:45

靜態時序仿真(STA) 以libero soc爲例

2024-04-30 13:54:05

24小時熱門文章

最新文章

最新評論文章