Web 抓取和解析
刮擦是指使用計算機檢索網頁的程式碼。獲得程式碼後,必須將其解析為有用的形式,以便在 R 中進一步使用。
Base R 沒有這些過程所需的許多工具,因此通常使用包完成抓取和解析。有些軟體包最適用於抓取(RSelenium
,httr
,curl
,RCurl
),有些用於解析(XML
,xml2
),有些用於解析(rvest
)。
一個相關的過程就是抓取一個 Web API,它不像網頁那樣返回想要機器可讀的資料。許多相同的包都用於兩者。
合法性
一些網站反對被抓,無論是由於伺服器負載增加還是資料所有權問題。如果一個網站禁止在其中使用使用條款,則將其刪除是非法的。