使用rvest爬蟲包獲取數據

原創

2020-07-05 04:31

文章目錄
@[toc]
Rvest包
安裝
常用功能
基本步驟
簡單實例

爬蟲簡單來說就是利用Html、css等前端規範形式，模擬人工手動蒐集數據的方式獲取數據。

R語言爬蟲包Rvest,能夠非常方便的爬取一些簡單的網頁。

Rvest包

安裝

install.packages('rvest')

常用功能

函數	描述
read_html()	下載網頁
html_nodes()	獲得指定名稱的網頁元素、節點
html_text()	獲得指定名稱的網頁元素、節點文本
html_table()	獲取table標籤中的表格，默認參數trim=T,header=T爲包含表頭。結果返回數據框

基本步驟

爬取整張網頁
查找所需內容處在節點
爬取相關內容

簡單實例

使用谷歌瀏覽器
在谷歌商店搜索安裝SelectorGadget插件,這個插件方便快速找出節點。
SelectorGadget使用
- 安裝之後點擊瀏覽器右上角插件。
- 選中需要爬取的內容，右鍵檢查。
記錄節點位置。

在新浪地產網爬取房地產土地資訊內容(僅出於學習目的)

網站地址http://youcaiyun.com/News/5

#載入rvest包
library(rvest)
#網站地址url
url <- 'http://youcaiyun.com/News/5'
#使用read_html()獲取網頁
cont <- read_html(url)
#使用html_nodes()解析網頁
#由SelectorGadget環節可知
#標題在.desc h1節點,內容在.desc p節點
title <- html_nodes(cont,'.desc h1')
text <- html_nodes(cont,'.desc p')
#使用html_text()提取內容
tit <- html_text(title)
txt <- html_text(text)
#可以看到內容存在換行符號及大量空白
#使用stringr包去除空白
library(stringr)
tit <- str_trim(tit)
txt <- str_trim(txt)
#儲存數據
data <- data.frame(tit,txt)
View(data)

$R語言小白速通$
$懂點R語言$
$歡迎分享收藏關注$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R語言字符處理函數

文章目錄@[toc]描述示例字符處理函數用於處理文本型數據。 nchar() substr() grep() sub() strsplit() paste() toupper() tolower() 描述函數描述

2020-07-05 04:31:27

R語言_針對表格某列進行切割

設置路徑並導入數據 setwd("E:/data_set") datas <- read.csv("Datas.csv") 提取Date數據 Date <- datas["Date"] 切割數據 install.package

2020-07-08 09:52:05

使用R進行描述性統計分析（連續性變量）

使用R進行描述性統計分析（連續性變量）對於描述性統計來說，R可以實現的方法有很多，基礎自帶的有summary()函數，還有其他packages，如Hmisc包，pastecs包，psych包提供了計算更多內容的函數。基礎函數

走在码农路上的医学狗

2020-07-07 16:50:20

Pattern Recognition and Machine Learning（模式識別與機器學習）第一章導讀

持續更新中... ...0引言1、基礎的概念梳理1.1機器學習的學習模式1.2訓練數據與測試數據1.3均方根誤差（RMSE）和MSE均方誤差1.4泛化能力（generalization）1.5預處理（pre-processed）2

2020-07-07 05:35:03

R語言筆記二：向量、向量索引及其運算

1.內置數據集 R中的內置數據集存儲在datasets這個包中，這些數據一般蒐集於真實的調查數據。 help(package=“datasets”)：查看數據集包。 data()：列出所有數據集。直接輸入數據集名字，就可以使用該

取个name太难

2020-07-06 23:34:10

R語言觀察日誌(part4)--paste函數

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part3)--repeat循環

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part5)--利用readr和readxl包讀寫數據

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R語言-迴歸分析

一元線形迴歸模型：有變量x,y。假設有關係y=c+bx+e,其中c+bx 是y隨x變化的部分，e是隨機誤差。可以很容易的用函數lm()求出迴歸參數b,c並作相應的假設檢驗，如： x<-c(0.10, 0.11,

2020-07-06 11:20:42

決策樹、隨機森林、聚類分析

背景預測新承包商的信用評級，這5個特徵指標分別是： x1 市場份額 x2 客訴率 x3 當年度毛利率 x4 銷售收入佔實收資本比例 x5 淨利潤利用上述五項指標及歷史評級結果的821條樣本數據開發多分類信用評級模型和

2020-07-06 10:28:33

R語言基本技巧

1.清除所有變量【 rm( list=ls() )】

「已注销」

2020-07-06 09:55:17

R語言-安裝ggplot2

>options(CRAN="https://cloud.r-project.org/");>install.packages("ggplot2")#處理日期時間相關的R包，非常有用，強烈推薦>install.packages("lub

2020-07-05 08:11:41

R語言繪圖邊框的單位

轉載自博客廬州月光，向作者表示感謝 http://www.cnblogs.com/xudongliang/p/6874659.html 在R語言中指定畫圖邊框時，通常使用兩種單位， lines 和 inches當然，這兩個

2020-07-05 04:31:27

R語言線性迴歸綜述

文章目錄@[toc]線性迴歸簡介變量類型適用條件分類用途R語言實現模型建構模型評估模型檢驗模型修正線性迴歸簡介線性迴歸是利用最小二乘法對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。變量類型線性迴歸要求自變量

2020-07-05 04:31:27

R包開發的標準姿勢

文章目錄建立R包項目打開項目文件夾編寫DESCRIPTION文件編寫R函數編寫文檔建立數據數據文件描述devtools生成包試用完善發表一個R包本質上就是一系列函數的集合，通過調用R包的函數從而實現相應的功能。R包開發對R語言編

2020-07-05 04:31:27

24小時熱門文章

Golang爬蟲代理接入的技術與實踐

最新文章

最新評論文章