我的第一个R语言爬虫

原創

2020-06-16 09:12

第一次写博客，有点小兴奋，就献给自己的第一个简单的R语言爬虫程序吧！

包介绍

xml2：为了加载rvest作铺垫
rvest：爬虫
几个相关函数：read_html()读取网页信息、html_nodes()获取网页标签内容、html_text()提取文本内容
magrittr：管道操作工具包
相关知识：%>%将左件传递给右件直接处理
其他：%T>% ,%$% 和 %<>%

程序：

>library(xml2)
>library(rvest)
>library(magrittr)

程序过程

因为五一马上就要到了，本人也要到厦门去浪~所以想要查看酒店的信息，挑选经济实惠的酒店！

这里选择的网址是：https://hotel.meituan.com/xiamen/

然后就上程序了：

#读取网页内容
>Link  <-  "http://hotel.meituan.com/xiamen/"
>Read_Link <- read_html(Link)

#分别获得酒店的名字、价格和评分
>Hotel_Name <- Read_Link%>%html_nodes('div.info-wrapper h3 a')%>%html_text()
>Hotel-Price <- Read_Link%>%html_nodes('div.poi-price em')%>%html_text()
>Hotel_Score <- Read_Link%>%html_nodes('div.poi-grade')%>%html_text()

#将信息处理成数据框
>Hotel_info <- data.frame(Hotel_Name,Hotel_Price,Hotel_Score)

最终得到的数据基本上是这样：

所以我的第一个R爬虫有了一个初步的样子！

当然，这只是一个简单的爬虫，还有很多的地方需要完善：\n的处理、爬取满足自己要求的信息、爬取更多的酒店信息……

不过，总算有个开始了，以后也会继续在在博客上记录自己的R语言学习过程！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R语言字符处理函数

文章目錄@[toc]描述示例字符處理函數用於處理文本型數據。 nchar() substr() grep() sub() strsplit() paste() toupper() tolower() 描述函數描述

2020-07-05 04:31:27

R语言_针对表格某列进行切割

設置路徑並導入數據 setwd("E:/data_set") datas <- read.csv("Datas.csv") 提取Date數據 Date <- datas["Date"] 切割數據 install.package

2020-07-08 09:52:05

使用R进行描述性统计分析（连续性变量）

使用R進行描述性統計分析（連續性變量）對於描述性統計來說，R可以實現的方法有很多，基礎自帶的有summary()函數，還有其他packages，如Hmisc包，pastecs包，psych包提供了計算更多內容的函數。基礎函數

走在码农路上的医学狗

2020-07-07 16:50:20

Pattern Recognition and Machine Learning（模式识别与机器学习）第一章导读

持續更新中... ...0引言1、基礎的概念梳理1.1機器學習的學習模式1.2訓練數據與測試數據1.3均方根誤差（RMSE）和MSE均方誤差1.4泛化能力（generalization）1.5預處理（pre-processed）2

2020-07-07 05:35:03

R语言笔记二：向量、向量索引及其运算

1.內置數據集 R中的內置數據集存儲在datasets這個包中，這些數據一般蒐集於真實的調查數據。 help(package=“datasets”)：查看數據集包。 data()：列出所有數據集。直接輸入數據集名字，就可以使用該

取个name太难

2020-07-06 23:34:10

R语言观察日志(part4)--paste函数

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R语言观察日志(part3)--repeat循环

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R语言观察日志(part5)--利用readr和readxl包读写数据

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R语言-回归分析

一元線形迴歸模型：有變量x,y。假設有關係y=c+bx+e,其中c+bx 是y隨x變化的部分，e是隨機誤差。可以很容易的用函數lm()求出迴歸參數b,c並作相應的假設檢驗，如： x<-c(0.10, 0.11,

2020-07-06 11:20:42

决策树、随机森林、聚类分析

背景預測新承包商的信用評級，這5個特徵指標分別是： x1 市場份額 x2 客訴率 x3 當年度毛利率 x4 銷售收入佔實收資本比例 x5 淨利潤利用上述五項指標及歷史評級結果的821條樣本數據開發多分類信用評級模型和

2020-07-06 10:28:33

R语言基本技巧

1.清除所有變量【 rm( list=ls() )】

「已注销」

2020-07-06 09:55:17

R语言-安装ggplot2

>options(CRAN="https://cloud.r-project.org/");>install.packages("ggplot2")#處理日期時間相關的R包，非常有用，強烈推薦>install.packages("lub

2020-07-05 08:11:41

R语言绘图边框的单位

轉載自博客廬州月光，向作者表示感謝 http://www.cnblogs.com/xudongliang/p/6874659.html 在R語言中指定畫圖邊框時，通常使用兩種單位， lines 和 inches當然，這兩個

2020-07-05 04:31:27

使用rvest爬虫包获取数据

文章目錄@[toc]Rvest包安裝常用功能基本步驟簡單實例爬蟲簡單來說就是利用Html、css等前端規範形式，模擬人工手動蒐集數據的方式獲取數據。 R語言爬蟲包Rvest,能夠非常方便的爬取一些簡單的網頁。 Rvest包安

2020-07-05 04:31:27

R语言线性回归综述

文章目錄@[toc]線性迴歸簡介變量類型適用條件分類用途R語言實現模型建構模型評估模型檢驗模型修正線性迴歸簡介線性迴歸是利用最小二乘法對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。變量類型線性迴歸要求自變量

2020-07-05 04:31:27

24小時熱門文章

最新文章

最新評論文章