為什麼我們需要 lxml 以及如何使用它
首先,為什麼我們需要 lxml?
lxml.etree 是用於 XML 和 HTML 處理的通用 API。它旨在實現 ElementTree 的相容性,並支援整個 XML 資訊集。它非常適合混合內容和以資料為中心的 XML。它的通用性使其成為大多數應用的最佳選擇。
lxml 庫是舊 libxml2 和 libxsit 的擴充套件,它有一些主要的好處:
- 非常簡單的 python API
- 記錄完備
- 無需處理記憶體管理
- 無需擔心分段錯誤
它還提供了一種處理任何 XML 資料格式的非常自然的方法。資料自動轉換為 Python 資料型別,可以使用普通的 Python 運算子進行操作
大! 現在我該如何使用它?
在 Linux 機器上,你可以使用 apt-get 安裝 lxml 庫:
sudo apt-get install python-lxml
要匯入和使用庫:
from lxml import etree
要解析 xml 檔案,你可以使用:
try:
parser = ET.XMLParser(remove_comments=False, remove_blank_text=True)
tree = ET.parse(file, parser=parser)
except (Exception):
print ('Failed to open file %s' % file, exc_info=True)
return tree