海葵
- 爬網程式僅訪問與起始 URL 位於同一域中的連結。這對於瞭解處理內容子域(例如
media.domain.com)非常重要,因為在爬行時會忽略它們 - 爬蟲是 HTTP / HTTPS 感知的,預設情況下會保留在初始協議上,而不會訪問同一域上的其他連結
- 上面的
on_every_page塊中的page物件有一個.doc方法,它返回頁面 HTML 主體的 Nokogiri 文件。這意味著你可以在on_every_page區域內使用 Nokogiri 選擇器,例如page.doc.css('div#id') - 其他資訊可以在這裡找到