海葵

  • 爬网程序仅访问与起始 URL 位于同一域中的链接。这对于了解处理内容子域(例如 media.domain.com)非常重要,因为在爬行时会忽略它们
  • 爬虫是 HTTP / HTTPS 感知的,默认情况下会保留在初始协议上,而不会访问同一域上的其他链接
  • 上面的 on_every_page 块中的 page 对象有一个 .doc 方法,它返回页面 HTML 主体的 Nokogiri 文档。这意味着你可以在 on_every_page 区域内使用 Nokogiri 选择器,例如 page.doc.css('div#id')
  • 其他信息可以在这里找到