海葵
- 爬網程式僅訪問與起始 URL 位於同一域中的連結。這對於瞭解處理內容子域(例如
media.domain.com
)非常重要,因為在爬行時會忽略它們 - 爬蟲是 HTTP / HTTPS 感知的,預設情況下會保留在初始協議上,而不會訪問同一域上的其他連結
- 上面的
on_every_page
塊中的page
物件有一個.doc
方法,它返回頁面 HTML 主體的 Nokogiri 文件。這意味著你可以在on_every_page
區域內使用 Nokogiri 選擇器,例如page.doc.css('div#id')
- 其他資訊可以在這裡找到