<div class="share-person-data-top"> <a href="/share/home?uk=3924974212&suk=mOZidGjjyKS6Y6NecksgaQ" target="_blank" title="å»Taç å享主页" class="share- person-username global-ellipsis">ç¯å**å享</a> <a href="//yun.baidu.com/buy/center?tag=1&from=sicon" class="unvip-icon sicon"> <em></em> </a> </div>
如上:div下有<a href。我们需要获取href后的数据
首先正则获取div内的数据,response为返回内容,且以text输出,返回内容即上文htmltr_content = re.findall('<div class="share-person-data-top">(.*?)</div', response, re.S)[0]
打印tr_content
然后正则获取href数据
td_content = re.findall('<a.*?href="(.+)".*?>(.*?)</a>', tr_content, re.S)#正则获取href值
打印td_content
去掉最外面的"[]"
print(td_content[0])
取出”3924974212“并打印
td_content = re.findall("\d+", td_content, re.S) print(td_content[0])