数据加载、存储于文件格式:XML和HTML web信息收集

from urllib.request import urlopen
from lxml.html import parse

parsed = parse(urlopen("https://www.cnblogs.com/nicole-zhang/"))
doc = parsed.getroot()

# 获取全部含有"nicole-zhang"的url
# 变量名 = [表达式 for 变量 in 列表 if 条件]
links = [lnk.get('href') for lnk in doc.findall('.//a') if "nicole-zhang" in str(lnk.get('href'))]
print(links)

 

上一篇:Kubernetes环境Traefik部署与应用


下一篇:手摸手教你实现一个简单vue(1)响应式原理