Python爬蟲獲取Csdn文章

原創

2019-07-10 00:48

request獲取html

安裝:

pip install requests

使用：

import requests  
 HTTP請求：GET、POST、PUT、DELETE、HEAD、OPTIONS

get
res = requests.get(“https://www.baidu.com”)
post
res = requests.post(“https://www.baidu.com”);
put
res = requests.put(“https://www.baidu.com”);
delete
res = requests.delete(“https://www.baidu.com”);
head
res = requests.head(“https://www.baidu.com”) ;
options
res = requests.options(“https://www.baidu.com”)

#獲取文章的html
from urllib import request
import random
import time
import lxml
import re
from bs4 import BeautifulSoup as bs
def Get_Target_ip():
 	 headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
     req = request.Request(r'#這裏寫你csdn主頁的url', headers=headers)
     response = request.urlopen(req)
     html = response.read().decode('utf-8')
     soup = bs(html, 'lxml')
     hList = soup.find_all(name='h4', attrs={'class': ''})
     for h in hList:
        href = h.find(name='a').get('href')
        requestList.append(request.Request(href))
     return requestList
     
if __name__ == '__main__':
    requestList = Get_Target_ip()

BeautifulSoup 可以用來獲取html中想要字段的文本

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《動手學習深度學習》筆記之模型複雜度與訓練集大小

二、模型複雜度與訓練集大小模型訓練經常出現兩類現象：過擬合（訓練誤差遠小於泛化誤差）和欠擬合（訓練誤差較高），導致這兩類現象的兩個重要因素是：模型複雜度和訓練集大小。機器學習模型應關注降低泛化誤差。 1. 訓練集大小如果訓練集

「已注销」

2020-07-08 08:57:51

深度學習&機器學習基礎之1-從誤差講起

從誤差講起1. 誤差2. 正則化2.1 L1L_1L1正則化2.2 L2L_2L2正則化 1. 誤差試想一下，你辛辛苦苦訓練了一個自認爲超級牛逼的神經網絡，但是一到測試集上驗證，發現結果並不符合預期，是不是就開始懷疑人生了呢

2020-06-29 20:34:42

FM &FFM：深入理解FM與FFM

0.引言針對類別變量進行oner-hot編碼後的高維稀疏矩陣M，可以表示如下：可以看出，經過One-Hot編碼之後，大部分樣本數據特徵是比較稀疏的， One-Hot編碼的另一個特點就是導致特徵空間大。例如，電影品類有550維特徵，一

2020-06-25 12:58:53

度量方法：PR & F1 & AUC

1. Precision an Recall 計算公式： precion=TPTP+FPprecion = \frac{TP}{TP+FP}precion=TP+FPTP recall=TPTP+FNrecall = \f

2020-06-25 12:58:53

深度學習word2vec筆記之基礎篇算法篇應用篇--寫的非常到位

深度學習word2vec筆記之基礎篇聲明： 1）該博文是多位博主以及多位文檔資料的主人所無私奉獻的論文資料整理的。具體引用的資料請看參考文獻。具體的版本聲明也參考原文獻 2）本文僅供學術交流，非商用。所以每一部分具

2020-06-23 04:32:22

安裝ROS時，rosdep init出錯的解決辦法

安裝ROS時，rosdep init出錯的解決辦法一般是網絡問題造成的，在軟件更新中將下載源更改爲國內的源，我試了幾個，使用aliyun（阿里雲），然後在終端更新： sudo apt-get update sudo apt-ge

空山明月_Blog

2020-06-21 12:53:23

[機器學習與深度學習] - No.6 ImageNet數據集預處理方式

在之前工作中，遇到了一個問題，在Google和Github的幫助下解決了，總結一下防止以後再次遇到。問題描述：當我們使用Keras自帶的VGG16，VGG19等模型在ImageNet上做圖像識別的時候，Top-1和Top-5

2020-06-16 12:04:04

Python 繪圖（柱狀圖，曲線圖，3D圖）

這裏分享常用的Python Matplotlib繪製的圖，在數據分析和可視化中很有用，這裏介紹三種，柱狀圖，折線圖以及3D圖，更多類型的圖見文末我的github。 1. 柱狀圖 # -*- coding: utf-8 -

2020-06-16 09:38:54

python機器學習之用決策樹處理泰坦尼克號數據

首先需要引入需要的類 from sklearn.tree import DecisionTreeClassifier,export_graphviz from sklearn.feature_extraction import Dict

龙在水中游

2020-06-16 08:55:14

pytorch中數據格式變換及創建掩碼mask示例

pytorch中數據格式變換及創建掩碼mask示例常用維度轉換方法 import torch case = torch.arange(0, 6).view(2, 3) print(case, case.size()) # ten

2020-06-15 22:49:05

用例子與代碼詳解LSTM層的輸入輸出，以Keras爲例

先附上代碼： from keras import Sequential from keras.layers import LSTM model = Sequential() model.add(LSTM(64)) #64表示inpu

2020-06-15 22:49:05

linux下配置部署Tensorflow深度學習模型運行環境並使用Tornad0框架實現多進程

1.配置python環境（0）通過命令sudo su切換爲root用戶（1）安裝Anaconda 首先在Anaconda官方下載地址下載Anaconda安裝文件，如Anaconda3-5.1.0-Linux-x86_64.sh。下載

2020-06-15 22:49:05

交叉熵與最大似然函數的關係：殊途同歸

關鍵詞：貝努力分佈多項式分佈最大似然函數：用來衡量相似性，爲了方便計算，引出對數似然交叉熵殊途同歸店長強烈推薦：哈？你還認爲似然函數跟交叉熵是一個意思呀？ Reference: [1] 夕小瑤的賣萌屋

2020-06-15 22:49:05

Attention機制之Transformer

文章目錄Attention機制 -- Transformer0. 代碼1. Scaled Dot-product Attention2. Multi-head Attention3.殘差網絡，Normalization與feed-

2020-06-15 22:49:05

機器學習與深度學習算法集錦

本博客出於不斷學習和完善更新中，會有錯誤之處，還請指出更正。機器學習邏輯迴歸決策樹 XGboost 隨機森林梯度提升樹，GBDT LightGBM Boosting 算法貝葉斯網絡 EM HMM 隨機變量及其分佈？

2020-06-10 03:48:05

24小時熱門文章

最新文章

最新評論文章