Web 抓取和解析

刮擦是指使用计算机检索网页的代码。获得代码后,必须将其解析为有用的形式,以便在 R 中进一步使用。

Base R 没有这些过程所需的许多工具,因此通常使用包完成抓取和解析。有些软件包最适用于抓取(RSeleniumhttrcurlRCurl),有些用于解析(XMLxml2),有些用于解析(rvest)。

一个相关的过程就是抓取一个 Web API,它不像网页那样返回想要机器可读的数据。许多相同的包都用于两者。

合法性

一些网站反对被抓,无论是由于服务器负载增加还是数据所有权问题。如果一个网站禁止在其中使用使用条款,则将其删除是非法的。