python学习笔记

# 爬虫的流程分析:
1. 请求数据:requests库(这个库可以非常方便的去请求网络数据)
* 安装方法:pip install requests

2. 将请求下来的数据解析出来,获取我们想要的数据,把不想要的数据抛弃掉。
* BeautifulSoup:pip install bs4
* lxml:pip install lxml

3. 将解析后的数据保存下来。如果是文字类型的,可以保存到文件中或者是数据库中或者缓存中都可以。如果是文件类型,比如图片,视频,那么可以保存到硬盘中。

4. 无论你的爬虫是大还是小,他都是由这几个模块组成的。

 

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# 导入之前安装的库
import requests
from bs4 import BeautifulSoup
 
# 首先定义以个变量url并赋值为目标网站'http://www.0011kytt.com'以及要搜索的电影名movie_name
# 注意引号,字符串必须用引号包围起来
movie_name = '武状元苏乞儿'
url = 'https://www.qsyyw.com/ctview/28755.html'
# 然后用request.get()来获取网页
r = requests.get(url)
# 这里要根据网页的编码来设置解码,这个目标网站编码为'utf-8'
r.encoding = 'utf-8'
# 然后获取网页源码并赋值给变量html
html = r.text
# 最后打印出网页源码
#print(html)


# 这里利用BeautifulSoup库来解析网页的源码并赋值给soup,方便后面的寻找
soup = BeautifulSoup(html, "lxml")
# 因为我们已经知道搜索框在一个叫<div class="search">的地方
# 所以根据class="search"来找就好了
# 注意,因为class是python关键字,所以这里要用class_,这是BeautifulSoup的规定
search = soup.find(class_='fed-navs-search')
# OK 打印出来看看找得对不对
#print(search)


# 网站搜索页面的url为http://www.0011kytt.com/search/search.php
search_url = 'https://www.qsyyw.com/vodsearch/-------------.html?wd=精武门'
# 从网页源码里看到输入位置的input中有个name='keywords'
# 这个keywords就是用来记录我们输入电影名的变量
# 于是,我们构造以下变量,用来让爬虫往搜索框填电影名
formdata = {'type': 'text',
            'keywords': movie_name}
# requests.post就可以把formdata填进搜索框,并得到搜索结果页面赋值给r_r
rr = requests.post(search_url, formdata)
# 同样需要解码
rr.encoding = 'utf-8'
# 获取网页源码并赋值给变量html
rhtml = rr.text
# 打印看看对不对
#print(rhtml)

# 首先还是用BeautifulSoup库来解析网页的源码
r_soup = BeautifulSoup(rhtml, "lxml")
# 再根据class_='item_pic'找到所有搜索结果,有可能搜索到多个匹配的结果
movie_div_list = r_soup.find_all(class_='fed-deta-button')
#print(movie_div_list)
# 创建一个空的列表movie_url_list来存储搜索结果的详情页链接
movie_url_list = []
# 因为有可能搜索到多个匹配的结果
# 所以这里用一个循环来获取所有搜索结果的电影详情页链接
for movie_div in movie_div_list:
    # 对每一个搜索结果,找到其中的href里存着的详情页链接
    movie_url = movie_div.a.attrs['href']
    # 把详情页链接存到movie_url_list中
    movie_url_list.append(movie_url)
# OK 打印看看所有搜索结果的详情页链接
print(movie_url_list)

 

代码进阶二:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# 导入之前安装的库
import json
import requests
from bs4 import BeautifulSoup
from urllib import `

# url_temp = 'https://lady.163.com/special/00264OOD/data_nd_sense_0{}.js?callback=data_callback'
# return_list = []
# url = url_temp.format(7)

# response = requests.get(url)
# # if response.status_code != 200:
# #     continue
# content = response.text  # 获取响应正文
# _content = formatContent(content)  # 格式化json字符串
# result = json.loads(_content)
# return_list.append(result)
       
url = 'https://www.doutula.com/photo/list/?page=1'
#先进行heder头部的伪装模拟认为操作
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36",
    "Referer":url
}
# 然后用request.get()来获取网页
r = requests.get(url,headers=headers)
# 这里要根据网页的编码来设置解码,这个目标网站编码为'utf-8'
r.encoding = 'UTF-8'
# 然后获取网页源码并赋值给变量html
html = r.text
# 最后打印出网页源码
#print(html)
# 首先还是用BeautifulSoup库来解析网页的源码
r_soup = BeautifulSoup(html, "lxml")
# 再根据class_='img-responsive'找到所有搜索结果,有可能搜索到多个匹配的结果, 搜索所有class是这个的img图片div内容
img_list = r_soup.find_all("img",attrs={"class":"img-responsive lazy image_dta"})
#print(img_list)
# 创建一个空的列表movie_url_list来存储搜索结果的详情页链接
#movie_url_list = []

for img in img_list:
    img_url = img['data-original']
    request.urlretrieve(img_url,"test.jpg")
    break
    #movie_url_list.append(img_url)
#print(movie_url_list)

进阶三:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# 导入之前安装的库
import json
import requests
from bs4 import BeautifulSoup
from urllib import request
import os

# url_temp = 'https://lady.163.com/special/00264OOD/data_nd_sense_0{}.js?callback=data_callback'
# return_list = []
# url = url_temp.format(7)

# response = requests.get(url)
# # if response.status_code != 200:
# #     continue
# content = response.text  # 获取响应正文
# _content = formatContent(content)  # 格式化json字符串
# result = json.loads(_content)
# return_list.append(result)

#用来存储所有页面url
PAGE_URLS = []

def parse_page(pageurl):
    #先进行heder头部的伪装模拟认为操作
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36",
        "Referer":pageurl
    }
    # 然后用request.get()来获取网页
    r = requests.get(pageurl,headers=headers)
    # 这里要根据网页的编码来设置解码,这个目标网站编码为'utf-8'
    r.encoding = 'UTF-8'
    # 然后获取网页源码并赋值给变量html
    html = r.text
    # 最后打印出网页源码
    #print(html)
    # 首先还是用BeautifulSoup库来解析网页的源码
    r_soup = BeautifulSoup(html, "lxml")
    # 再根据class_='img-responsive'找到所有搜索结果,有可能搜索到多个匹配的结果, 搜索所有class是这个的img图片div内容
    img_list = r_soup.find_all("img",attrs={"class":"img-responsive lazy image_dta"})
    #print(img_list)
    # 创建一个空的列表movie_url_list来存储搜索结果的详情页链接
    #movie_url_list = []

    for img in img_list:
        img_url = img['data-original']

        #http://img.doutula.com/production/uploads/image/2021/06/26/20210626674557_tRkLNp.jpg
        splits = img_url.split("/")[-1] #将图片路径分割,拿到最后一个也就是-1 的位置
        ospath = os.path.join("images",splits)
        # print(ospath)
        # break
        request.urlretrieve(img_url,ospath)
        
        #movie_url_list.append(img_url)
        #print(movie_url_list)

def main():
    #1:现获取所有页面url
    for x in range(1,3):
        page_url = 'https://www.doutula.com/photo/list/?page='+str(x)
        # print(page_url)
        # break
        PAGE_URLS.append(page_url)
    #2.获取每一页的图片数据
    for pageurl in PAGE_URLS:
        parse_page(pageurl) #调用上面的函数挨个处理每页的数据

if __name__ == '__main__':
    main()

进阶四:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# 导入之前安装的库
import json
import requests
from bs4 import BeautifulSoup
from urllib import request
import os

# url_temp = 'https://lady.163.com/special/00264OOD/data_nd_sense_0{}.js?callback=data_callback'
# return_list = []
# url = url_temp.format(7)

# response = requests.get(url)
# # if response.status_code != 200:
# #     continue
# content = response.text  # 获取响应正文
# _content = formatContent(content)  # 格式化json字符串
# result = json.loads(_content)
# return_list.append(result)

#用来存储所有页面url
PAGE_URLS = []

def parse_page(pageurl):
    #先进行heder头部的伪装模拟认为操作
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36",
        "Referer":pageurl
    }
    # 然后用request.get()来获取网页
    r = requests.get(pageurl,headers=headers)
    # 这里要根据网页的编码来设置解码,这个目标网站编码为'utf-8'
    r.encoding = 'UTF-8'
    # 然后获取网页源码并赋值给变量html
    html = r.text
    # 最后打印出网页源码
    #print(html)
    # 首先还是用BeautifulSoup库来解析网页的源码
    r_soup = BeautifulSoup(html, "lxml")
    # 再根据class_='img-responsive'找到所有搜索结果,有可能搜索到多个匹配的结果, 搜索所有class是这个的img图片div内容
    img_list = r_soup.find_all("img",attrs={"class":"img-responsive lazy image_dta"})
    #print(img_list)
    # 创建一个空的列表movie_url_list来存储搜索结果的详情页链接
    #movie_url_list = []

    for img in img_list:
        img_url = img['data-original']

        #http://img.doutula.com/production/uploads/image/2021/06/26/20210626674557_tRkLNp.jpg
        splits = img_url.split("/")[-1] #将图片路径分割,拿到最后一个也就是-1 的位置
        ospath = os.path.join("images",splits)
        # print(ospath)
        # break
        request.urlretrieve(img_url,ospath)
        
        #movie_url_list.append(img_url)
        #print(movie_url_list)

def main():
    #1:现获取所有页面url
    for x in range(1,3):
        page_url = 'https://www.doutula.com/photo/list/?page='+str(x)
        # print(page_url)
        # break
        PAGE_URLS.append(page_url)
    #2.获取每一页的图片数据
    for pageurl in PAGE_URLS:
        parse_page(pageurl) #调用上面的函数挨个处理每页的数据

if __name__ == '__main__':
    main()

多进程:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# 导入之前安装的库
import time
import threading


def greet(index):
    print("helloworld-%d"%index)
    time.sleep(0.5)

#单线程,挨个执行
def line_run():
    for x in range(5):
        greet(x)    

#多线程,一次性就执行完了
def duoxian_run():
    for x in range(5):
        #多线程调用greet方法,讲x传递过去
        th = threading.Thread(target=greet,args=[x])
        th.start()


if __name__ == '__main__':
    #line_run()
    duoxian_run()

 

上一篇:【源码分析设计模式 8,源码解析之Seata项目中的分布式ID生成算法


下一篇:5.机器学习-Pandas_②