访问最初选择的标记的内部标记及其属性

让我们假设你在选择 soup.find('div', class_='base class') 之后得到了一个 html

from bs4 import BeautifulSoup

soup = BeautifulSoup(SomePage, 'lxml')
html = soup.find('div', class_='base class')
print(html)

<div class="base class">
  <div>Sample text 1</div>
  <div>Sample text 2</div>
  <div>
    <a class="ordinary link" href="https://example.com">URL text</a>
  </div>
</div>

<div class="Confusing class"></div>
'''

如果你想访问 <a> 标签的 href,你可以这样做:

a_tag = html.a
link = a_tag['href']
print(link)

https://example.com

当你无法直接选择 <a> 标签时,这很有用,因为它的 attrs 没有给你唯一的标识,在解析的页面中还有其他 twin``<a> 标签。但你可以唯一地选择包含所需 <a> 的父标签。