海葵
- 爬网程序仅访问与起始 URL 位于同一域中的链接。这对于了解处理内容子域(例如
media.domain.com
)非常重要,因为在爬行时会忽略它们 - 爬虫是 HTTP / HTTPS 感知的,默认情况下会保留在初始协议上,而不会访问同一域上的其他链接
- 上面的
on_every_page
块中的page
对象有一个.doc
方法,它返回页面 HTML 主体的 Nokogiri 文档。这意味着你可以在on_every_page
区域内使用 Nokogiri 选择器,例如page.doc.css('div#id')
- 其他信息可以在这里找到