網絡爬蟲-課時15抓取新聞評論數

原創

2018-09-05 16:54

網絡學習筆記

import requests
commments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fxvctcc8121090&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20')

import jason
jd = json.loads(conmments.text.strip('var data='))

jd['result']['count']['total']

newsurl = 'http://news.sina.com.cn/c/nd/2016-08-20/doc-ifxvctcc8121090.shtml'
newsurl.split('/')[-1].rstrip('.shtml').lstrip('doc-i')

'fxvctcc8121090'

import re
m = re.search('doc-i(.*).shtml',newsurl )
print(m)

<_sre.SRE_Match object; span=(40, 65), match='doc-ifxvctcc8121090.shtml'>

newsid = m.group(1)
newsid

'fxvctcc8121090'

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python學習二：列表、循環、元組、字典

《毫無障礙學Python》鄧文淵著學習筆記 1.列表結構（List） (又稱清單，即爲其他語言的數組Array) 列表的使用：列表名 = [元素1,元素2,…] 中括號隔開，元素數據類型可同可不同，獲取元素值方法：下標訪問（下

2020-07-08 11:00:43

Python學習一：變量與數據類型、表達式、條件語句

《毫無障礙學Python》鄧文淵著學習筆記變量與數據類型、表達式、條件語句變量 score = 80 #Python變量不聲明就可使用，Python會根據變量值設定數據類型，該score爲int型 fruit = "香蕉"

2020-07-08 11:00:42

Python學習六：web數據抓取與分析

《毫無障礙學Python》鄧文淵著學習筆記 web數據抓取與分析 1.網址解析 . 　　通過Python的 urlparse組件中的 urlparse函數，可對網址進行解析，其返回值爲元組類型的ResultParse對象，通過其

2020-07-08 11:00:42

Python學習五：sqlite數據庫

《毫無障礙學Python》鄧文淵著學習筆記 sqlite數據庫注：需要有數據庫基礎（會用SQL語句創建表，對錶內容進行增刪改查操作即可） sqlite安裝教程參考：https://www.runoob.com/sqlite/

2020-07-08 11:00:42

Python學習四：文件操作

《毫無障礙學Python》鄧文淵著學習筆記文件操作 1. open() 函數 open() 函數打開文件　　python內建函數可打開指定文件用於對文件讀取、修改、添加內容　　open(filename[,mode]

2020-07-08 11:00:42

Python學習三：函數、導包、目錄（文件夾）管理

《毫無障礙學Python》鄧文淵著學習筆記 1.函數 1.1 函數基本（1）語法： . 　　def 函數名(參數1，參數2，參數3,…): 　　#參數可無　　　　程序塊　　return 返回值1,返回值2,返回值3…

2020-07-08 11:00:42

Python：計算類別分佈CalculateClassDistribution

import numpy as np import pandas as pd from sklearn import datasets from sklearn.ensemble import RandomForestClassifie

2020-07-08 07:35:14

Python調用matlab 函數

在python中啓動matlab： engine = matlab.engine.start_matlab() 如果輸入的變量X是表格式的數據（n*d），即 ndarray格式，需要進行轉換後再輸入： data_list= matla

2020-07-08 07:35:11

Python：將sklearn自帶數據轉存爲CSV文件

import numpy as np import pandas as pd from sklearn import datasets X,y = datasets.load_breast_cancer(return_X_y=True

2020-07-08 07:35:10

Python:一排三個子圖

import matplotlib.pyplot as plt import numpy as np import pandas as pd path1 = r"D:\ExperimentalData\Jain\jain.csv" pa

2020-07-08 07:35:10

Python : 一排三個子圖（二）

import matplotlib.pyplot as plt import numpy as np import pandas as pd path11 = r"D:\ExperimentalData\Jain\multiCenter

2020-07-08 07:35:08

Python：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI

參考文獻：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI 原文代碼找了好久沒有找到，至少Github上沒有找到（2020-06-10之前）

2020-07-08 07:35:07

爬取高清站長之家美圖（想爬多少爬多少）

方方面面總是會需要使用一些圖片做封面或背景。圖片有兩種來源：一是通過創可貼自己動手修改下就可以用了，還一種就是在網上下載圖片。那如何下載高清並且可以供使用的圖片了？我是使用的站長之家網站下載來的圖片（http://sc.chin

iplaypy(蟒蛇师)

2020-07-08 10:43:01

爬蟲-獲取指定城市所有企業信息

之前寫過一個博客：python爬蟲從企查查獲取企業信息-手工繞開企查查的登錄驗證 https://blog.csdn.net/rock4you/article/details/88254612 但只能獲取指定公司的信息，這篇博客的目的是獲

2020-07-08 08:24:13

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章