Web 抓取和解析

刮擦是指使用計算機檢索網頁的程式碼。獲得程式碼後,必須將其解析為有用的形式,以便在 R 中進一步使用。

Base R 沒有這些過程所需的許多工具,因此通常使用包完成抓取和解析。有些軟體包最適用於抓取(RSeleniumhttrcurlRCurl),有些用於解析(XMLxml2),有些用於解析(rvest)。

一個相關的過程就是抓取一個 Web API,它不像網頁那樣返回想要機器可讀的資料。許多相同的包都用於兩者。

合法性

一些網站反對被抓,無論是由於伺服器負載增加還是資料所有權問題。如果一個網站禁止在其中使用使用條款,則將其刪除是非法的。