到目前为止,我们已经介绍过如何获取和过滤标签,以及获取标签里的内容。但是,在网
络数据采集时你经常不需要查找标签的内容,而是需要查找标签属性。比如标签<a> 指向
的URL 链接包含在href 属性中,或者<img> 标签的图片文件包含在src 属性中,这时获
取标签属性就变得非常有用了。
对于一个标签对象,可以用下面的代码获取它的全部属性:
myTag.attrs
要注意这行代码返回的是一个Python 字典对象,可以获取和操作这些属性。比如要获取图
片的资源位置src,可以用下面这行代码:
myImgTag.attrs["src"]