Jsoup 入門

Jsoup 是一個用於 Java 的 HTML 解析和資料提取庫,專注於靈活性和易用性。它可用於從 HTML 頁面中提取特定資料,這通常稱為“Web 抓取”,以及修改 HTML 頁面的內容,並使用允許的標記和屬性的白名單清理不受信任的 HTML。

JavaScript 支援

Jsoup 不支援 JavaScript ,因此,無法從頁面中提取在頁面載入後新增到頁面的任何動態生成的內容或內容。如果你需要提取的內容被新增到使用 JavaScript 的頁面,也幾個備選方案:

  • 使用支援 JavaScript 的庫,例如 Selenium,它使用實際的 Web 瀏覽器來載入頁面,或者使用 HtmlUnit。

  • 反向設計頁面載入資料的方式。通常,通過 AJAX 動態載入資料的網頁會這樣做,因此,你可以檢視瀏覽器開發人員工具的網路選項卡,以檢視資料的載入位置,然後在你自己的程式碼中使用這些 URL。瞭解更多詳細資訊,瞭解如何抓取 AJAX 頁面

官方網站和文件

你可以在 jsoup.org 上 找到各種 Jsoup 相關資源,包括 JavadocJsoup cookbook用法示例和 JAR 下載 。請參閱 GitHub 儲存庫 以獲取原始碼,問題和請求。

下載

Jsoup 在 Maven 上可用作 org.jsoup.jsoup:jsoup,如果你正在使用 Gradle(例如,使用 Android Studio),你可以通過在 build.gradle 依賴項部分新增以下內容將其新增到專案中:

compile 'org.jsoup:jsoup:1.8.3'

如果你正在使用 Ant(Eclipse),請將以下內容新增到 POM 依賴項部分:

<dependency>
  <!-- jsoup HTML parser library @ http://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.8.3</version>
</dependency>

Jsoup 也可用作其他環境的可 下載 JAR