海葵

Created: November-22, 2018

爬网程序仅访问与起始 URL 位于同一域中的链接。这对于了解处理内容子域（例如 media.domain.com）非常重要，因为在爬行时会忽略它们
爬虫是 HTTP / HTTPS 感知的，默认情况下会保留在初始协议上，而不会访问同一域上的其他链接
上面的 on_every_page 块中的 page 对象有一个 .doc 方法，它返回页面 HTML 主体的 Nokogiri 文档。这意味着你可以在 on_every_page 区域内使用 Nokogiri 选择器，例如 page.doc.css('div#id')
其他信息可以在这里找到