R網絡爬蟲-RCurl包

RCurl這個程序包提供了由R到libcurl庫的接口,從而實現HTTP的一些功能。例如,從服務器下載文件、保持連接、上傳文件、採用二進制格式讀取、句柄重定向、密碼認證等等。
超文本傳輸協議(HTTP)是一種通信協議,它允許將超文本標記語言(HTML)文檔從Web服務器傳送到客戶端的瀏覽器。
URL詳解:
基本格式:schema://host[:port#]/path/…/[?query-string][#anchor]
scheme指定低層使用的協議(例如:http, https, ftp)
hostHTTP服務器的IP地址或者域名
port#HTTP服務器的默認端口是80,這種情況下端口號可以省略。
path 訪問資源的路徑
query-string 發送給http服務器的數據
anchor-錨
getURL函數是一個基礎get請求函數,其核心參數主要有URL、.opt、curl、.encoding。
URL就是請求的對應網址鏈接。
curl參數是一個句柄函數,它的參數指定對象是一個內嵌函數,通常是curl = getCurlHandle() ,getCurlHandle()函數內同樣是配置信息,不過curl句柄函數內的所有配置信息是可以提供給全局使用的,多次攜帶,維持整個回話狀態,相對於一組初始化參數,而.opt參數內的各項配置信息是當前get請求使用的,它會覆蓋和修改curl句柄函數內的初始化信息(當沒有提供.opt參數時,get請求仍然使用curl中的初始化參數。)
.opt是一個配置參數,它就收一組帶有命名的list參數,這些通常包括httpheader、proxy、timeout、verbose、cookiefile(cookiejar)等配置信息。
.encoding是字符集編碼,這個通常可以通過請求的相應頭ContType獲取。

install.packages(“RCurl”)
library(bitops)
library(RCurl)
#查看網址是否存在
url.exists(“http:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章