海葵

Created: November-22, 2018

爬網程式僅訪問與起始 URL 位於同一域中的連結。這對於瞭解處理內容子域（例如 media.domain.com）非常重要，因為在爬行時會忽略它們
爬蟲是 HTTP / HTTPS 感知的，預設情況下會保留在初始協議上，而不會訪問同一域上的其他連結
上面的 on_every_page 塊中的 page 物件有一個 .doc 方法，它返回頁面 HTML 主體的 Nokogiri 文件。這意味著你可以在 on_every_page 區域內使用 Nokogiri 選擇器，例如 page.doc.css('div#id')
其他資訊可以在這裡找到