為什麼我們需要 lxml 以及如何使用它

首先,為什麼我們需要 lxml?

lxml.etree 是用於 XML 和 HTML 處理的通用 API。它旨在實現 ElementTree 的相容性,並支援整個 XML 資訊集。它非常適合混合內容和以資料為中心的 XML。它的通用性使其成為大多數應用的最佳選擇。

lxml 庫是舊 libxml2 和 libxsit 的擴充套件,它有一些主要的好處:

  1. 非常簡單的 python API
  2. 記錄完備
  3. 無需處理記憶體管理
  4. 無需擔心分段錯誤

它還提供了一種處理任何 XML 資料格式的非常自然的方法。資料自動轉換為 Python 資料型別,可以使用普通的 Python 運算子進行操作

大! 現在我該如何使用它?

在 Linux 機器上,你可以使用 apt-get 安裝 lxml 庫:

sudo apt-get install python-lxml

要匯入和使用庫:

from lxml import etree

要解析 xml 檔案,你可以使用:

    try:
        parser = ET.XMLParser(remove_comments=False, remove_blank_text=True)
        tree = ET.parse(file, parser=parser)
    except (Exception):
        print ('Failed to open file %s' % file, exc_info=True)
    return tree