正则表达式,获取a href后面的数据

<div class="share-person-data-top">
  <a href="/share/home?uk=3924974212&suk=mOZidGjjyKS6Y6NecksgaQ" target="_blank" title="å»Taç
                                                                                           å享主页" class="share-
person-username global-ellipsis">ç¯å**å享</a>
  <a href="//yun.baidu.com/buy/center?tag=1&from=sicon" class="unvip-icon sicon">
  <em></em>
  </a>
</div>

如上:div下有<a href。我们需要获取href后的数据

  首先正则获取div内的数据,response为返回内容,且以text输出,返回内容即上文html  
tr_content = re.findall('<div class="share-person-data-top">(.*?)</div', response, re.S)[0]

 

打印tr_content

正则表达式,获取a href后面的数据

 

 然后正则获取href数据

td_content = re.findall('<a.*?href="(.+)".*?>(.*?)</a>', tr_content, re.S)#正则获取href值

打印td_content

正则表达式,获取a href后面的数据

 

 去掉最外面的"[]"

print(td_content[0])

正则表达式,获取a href后面的数据

 

 取出”3924974212“并打印

td_content = re.findall("\d+", td_content, re.S)
print(td_content[0])

正则表达式,获取a href后面的数据

 

上一篇:python笔记26


下一篇:正则表达式基础