我的第一個R語言爬蟲

原創

2020-06-16 09:12

第一次寫博客，有點小興奮，就獻給自己的第一個簡單的R語言爬蟲程序吧！

包介紹

xml2：爲了加載rvest作鋪墊
rvest：爬蟲
幾個相關函數：read_html()讀取網頁信息、html_nodes()獲取網頁標籤內容、html_text()提取文本內容
magrittr：管道操作工具包
相關知識：%>%將左件傳遞給右件直接處理
其他：%T>% ,%$% 和 %<>%

程序：

>library(xml2)
>library(rvest)
>library(magrittr)

程序過程

因爲五一馬上就要到了，本人也要到廈門去浪~所以想要查看酒店的信息，挑選經濟實惠的酒店！

這裏選擇的網址是：https://hotel.meituan.com/xiamen/

然後就上程序了：

#讀取網頁內容
>Link  <-  "http://hotel.meituan.com/xiamen/"
>Read_Link <- read_html(Link)

#分別獲得酒店的名字、價格和評分
>Hotel_Name <- Read_Link%>%html_nodes('div.info-wrapper h3 a')%>%html_text()
>Hotel-Price <- Read_Link%>%html_nodes('div.poi-price em')%>%html_text()
>Hotel_Score <- Read_Link%>%html_nodes('div.poi-grade')%>%html_text()

#將信息處理成數據框
>Hotel_info <- data.frame(Hotel_Name,Hotel_Price,Hotel_Score)

最終得到的數據基本上是這樣：

所以我的第一個R爬蟲有了一個初步的樣子！

當然，這只是一個簡單的爬蟲，還有很多的地方需要完善：\n的處理、爬取滿足自己要求的信息、爬取更多的酒店信息……

不過，總算有個開始了，以後也會繼續在在博客上記錄自己的R語言學習過程！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R語言字符處理函數

文章目錄@[toc]描述示例字符處理函數用於處理文本型數據。 nchar() substr() grep() sub() strsplit() paste() toupper() tolower() 描述函數描述

2020-07-05 04:31:27

R語言_針對表格某列進行切割

設置路徑並導入數據 setwd("E:/data_set") datas <- read.csv("Datas.csv") 提取Date數據 Date <- datas["Date"] 切割數據 install.package

2020-07-08 09:52:05

使用R進行描述性統計分析（連續性變量）

使用R進行描述性統計分析（連續性變量）對於描述性統計來說，R可以實現的方法有很多，基礎自帶的有summary()函數，還有其他packages，如Hmisc包，pastecs包，psych包提供了計算更多內容的函數。基礎函數

走在码农路上的医学狗

2020-07-07 16:50:20

Pattern Recognition and Machine Learning（模式識別與機器學習）第一章導讀

持續更新中... ...0引言1、基礎的概念梳理1.1機器學習的學習模式1.2訓練數據與測試數據1.3均方根誤差（RMSE）和MSE均方誤差1.4泛化能力（generalization）1.5預處理（pre-processed）2

2020-07-07 05:35:03

R語言筆記二：向量、向量索引及其運算

1.內置數據集 R中的內置數據集存儲在datasets這個包中，這些數據一般蒐集於真實的調查數據。 help(package=“datasets”)：查看數據集包。 data()：列出所有數據集。直接輸入數據集名字，就可以使用該

取个name太难

2020-07-06 23:34:10

R語言觀察日誌(part4)--paste函數

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part3)--repeat循環

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part5)--利用readr和readxl包讀寫數據

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R語言-迴歸分析

一元線形迴歸模型：有變量x,y。假設有關係y=c+bx+e,其中c+bx 是y隨x變化的部分，e是隨機誤差。可以很容易的用函數lm()求出迴歸參數b,c並作相應的假設檢驗，如： x<-c(0.10, 0.11,

2020-07-06 11:20:42

決策樹、隨機森林、聚類分析

背景預測新承包商的信用評級，這5個特徵指標分別是： x1 市場份額 x2 客訴率 x3 當年度毛利率 x4 銷售收入佔實收資本比例 x5 淨利潤利用上述五項指標及歷史評級結果的821條樣本數據開發多分類信用評級模型和

2020-07-06 10:28:33

R語言基本技巧

1.清除所有變量【 rm( list=ls() )】

「已注销」

2020-07-06 09:55:17

R語言-安裝ggplot2

>options(CRAN="https://cloud.r-project.org/");>install.packages("ggplot2")#處理日期時間相關的R包，非常有用，強烈推薦>install.packages("lub

2020-07-05 08:11:41

R語言繪圖邊框的單位

轉載自博客廬州月光，向作者表示感謝 http://www.cnblogs.com/xudongliang/p/6874659.html 在R語言中指定畫圖邊框時，通常使用兩種單位， lines 和 inches當然，這兩個

2020-07-05 04:31:27

使用rvest爬蟲包獲取數據

文章目錄@[toc]Rvest包安裝常用功能基本步驟簡單實例爬蟲簡單來說就是利用Html、css等前端規範形式，模擬人工手動蒐集數據的方式獲取數據。 R語言爬蟲包Rvest,能夠非常方便的爬取一些簡單的網頁。 Rvest包安

2020-07-05 04:31:27

R語言線性迴歸綜述

文章目錄@[toc]線性迴歸簡介變量類型適用條件分類用途R語言實現模型建構模型評估模型檢驗模型修正線性迴歸簡介線性迴歸是利用最小二乘法對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。變量類型線性迴歸要求自變量

2020-07-05 04:31:27

24小時熱門文章

最新文章

最新評論文章