海葵

  • 爬網程式僅訪問與起始 URL 位於同一域中的連結。這對於瞭解處理內容子域(例如 media.domain.com)非常重要,因為在爬行時會忽略它們
  • 爬蟲是 HTTP / HTTPS 感知的,預設情況下會保留在初始協議上,而不會訪問同一域上的其他連結
  • 上面的 on_every_page 塊中的 page 物件有一個 .doc 方法,它返回頁面 HTML 主體的 Nokogiri 文件。這意味著你可以在 on_every_page 區域內使用 Nokogiri 選擇器,例如 page.doc.css('div#id')
  • 其他資訊可以在這裡找到