XPath
安装
安装
# terminal
pip3 install lxml模块导入
from lxml import etree使用
创建对象及加载
# 使用文件创建对象
tree = etree.parse('test.html')
title_tag = tree.xpath('/html/head/title')
# 使用requests返回的html创建对象
res = requests.get(url, headers=headers)
page_text = res.text
tree = etree.HTML(page_text)
tree.xpath(//*[@id="main"]/div/[3]/ul/li)标签定位
语法
说明
tree.xpath('/html/head/title')
tree.xpath('/html//title')
tree.xpath('//div')
tree.xpath('//div[@class="col"]')
定位指定class的标签
tree.xpath('//a[@id="good"]')
定位指定id的标签
tree.xpath('//div[1]')
定位div的第一个元素
tree.xpath('//div[@class="col"]/ul/li/a')
提取标签的内容
语法
说明
tree.xpath('//div[@class="col"]//text()')
提取标签内容
tree.xpath('//img/@src')
提取标签属性
Last updated