XPath

安装

安装

# terminal
pip3 install lxml

模块导入

from lxml import etree

使用

创建对象及加载

# 使用文件创建对象
tree = etree.parse('test.html')
title_tag = tree.xpath('/html/head/title')

# 使用requests返回的html创建对象
res = requests.get(url, headers=headers)
page_text = res.text
tree = etree.HTML(page_text)
tree.xpath(//*[@id="main"]/div/[3]/ul/li)

标签定位

语法
说明

tree.xpath('/html/head/title')

tree.xpath('/html//title')

tree.xpath('//div')

tree.xpath('//div[@class="col"]')

定位指定class的标签

tree.xpath('//a[@id="good"]')

定位指定id的标签

tree.xpath('//div[1]')

定位div的第一个元素

tree.xpath('//div[@class="col"]/ul/li/a')

提取标签的内容

语法
说明

tree.xpath('//div[@class="col"]//text()')

提取标签内容

tree.xpath('//img/@src')

提取标签属性

Last updated