1.网页结构分析与xpath分析.md

爬虫-python+Qt -网页结构分析与xpath分析

potplay播放器

搜索页

  • 搜索请求
request_url ='https://www.nmgk.com/index.php?s=vod-s-name'
mother_url ='https://www.nmgk.com/'
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
}
data = {
    'wd':'瑞克和莫蒂'
}
  • xpath分析
    1.网页结构分析与xpath分析.md
获取链接
#result_href
//div[@class ='cateimg']/a/@href

内容
/vod/8314.html
/vod/19407.html
/vod/10724.html
/vod/10872.html
/vod/10871.html
获取名字
#result_name
//div[@class ='itemname']/a/text()

内容
瑞克和莫蒂第四季
瑞克和莫蒂第五季
瑞克和莫蒂第一季
瑞克和莫蒂第三季
瑞克和莫蒂第二季
#获取更新
#result_update
//div[@class ='cateimg']/a/i/text()

内容
10集全
更新至04集
11集全
10集全
10集全

详情页

  • 搜索请求
request_url ='https://www.nmgk.com//vod/8314.html'
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
}



~~~ python
获取图片
#movie_pic
//div[@class='video_pic']//img/@src

内容
/Uploads/vod/2021-03-31/6063eece12246.jpg
获取描述
#movie_info
//div[@class='intro-box-txt']/p[2]/text()

内容
瑞克和莫蒂第五季,这是由一个个独立小故事组成,精妙无比的剧情安排,天马行空的想象力,突破天际的脑洞,是本剧最大的特点。
获取集数名称
#episode_name_list
//div[@id='ji_show_1_0']//div[@class='drama_page']/a/text()

内容
第01集
第02集
第03集
第04集
获取集数链接
#episode_href_list
//div[@id='ji_show_1_0']//div[@class='drama_page']/a/@href

内容
/v/19407-1-1.html
/v/19407-1-2.html
/v/19407-1-3.html
/v/19407-1-4.html

播放页

获取m3u8字符串
#m3u8_pre_list
//div[@id='cms_player']/iframe/@src

内容
/play.html?u=https://vod.bunediy.com/20210705/v2D5n7nM/index.m3u8
#逻辑
m3u8_string=m3u8_pre_list[0]
m3u8 = m3u8_string.split('=')[-1]
内容
https://vod.bunediy.com/20210705/v2D5n7nM/index.m3u8
上一篇:数据结构与算法之美 王争 学习笔记-2 [MD]


下一篇:2.QT设计爬虫电影UI.MD