Python爬虫 - 爬取百度html代码前200行

2021-10-14 06:42:10

Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理

源代码如下:

# 改进版, 增加了 .strip()方法的使用

# coding=utf-8

# urllib是用于获取网络资源的库，python3自带

# 此处的request是由Request类创建的一个实例对象

import urllib.request

# 调用request对象的urlopen()方法 , 传入url参数

file = urllib.request.urlopen("http://www.baidu.com")

# readlines()方法逐行读取整个文件到一个列表

# 注意: .readlines()方法会把字符串前后的空白字符都抓进来, 可用.strip()方法去掉

file_list = file.readlines()

# 用for循环和if条件语句来遍历读取列表的前200个元素

i = 0

for file_per in file_list:

    i += 1

    if i <= 200:

        print(file_per.strip())      # str.strip(): 去掉字符串前后的空白字符

    else:

        break

码农公寓

相关文章