python爬虫项目-爬取雪球网金融数据（关注、持续更新）

2023-08-01 09:42:28

（一）python金融数据爬虫项目

爬取目标：雪球网（起始url：https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0&page=1）

爬取内容：雪球网深沪股市情况

使用工具：requests库实现发送请求、获取响应。　　

　　　　　json格式的动态加载数据实现数据解析、提取。　　

　　　　　pymysql进行数据存储

思路：对该网站的动态加载数据的请求方式进行控制变量的发送请求，最终得到实际有效的参数。

项目重点：使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点

直接放代码（详细说明在注释里，欢迎同行相互交流、学习~）：

 import requests

 import json

 import pymysql

 class mysql_conn(object):

     # 魔术方法, 初始化, 构造函数

     def __init__(self):

         self.db = pymysql.connect(host='127.0.0.1', user='root', password='abc123', port=3306, database='py1011')

         self.cursor = self.db.cursor()

     # 执行modify(修改)相关的操作

     def execute_modify_mysql(self, sql):

         self.cursor.execute(sql)

         self.db.commit()

     # 魔术方法, 析构化 ,析构函数

     def __del__(self):

         self.cursor.close()

         self.db.close()

 headers = {

 # 使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点

     'Cookie':  xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a;

     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

 }

 url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'

 response = requests.get(url,headers=headers)

 res_dict = json.loads(response.text)

 list_lsit = res_dict['list']

 db ={}

 for list_item_dict in list_lsit:

     data_dict = json.loads(list_item_dict['data'])

     db['id'] = data_dict['id']

     db['title'] = data_dict['title']

     db['description'] = data_dict['description']

     db['target'] = data_dict['target']

     try:

         sql = 'insert into xueqiu (uid,title,description,target) values ("{id}","{title}","{description}","{traget}")'.fromart(**db)

         mc = mysql_conn()

         mc.execute_modify_mysql(sql)

     except:

         pass

码农公寓

（一）python金融数据爬虫项目

爬取目标：雪球网（起始url：https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0&page=1）

爬取内容：雪球网深沪股市情况

使用工具：requests库实现发送请求、获取响应。

json格式的动态加载数据实现数据解析、提取。

pymysql进行数据存储

思路：对该网站的动态加载数据的请求方式进行控制变量的发送请求，最终得到实际有效的参数。

项目重点：使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点

直接放代码（详细说明在注释里，欢迎同行相互交流、学习~）：

相关文章

使用工具：requests库实现发送请求、获取响应。　　

　　　　　json格式的动态加载数据实现数据解析、提取。　　

　　　　　pymysql进行数据存储