用python 来炒股二 BeautifulSoup爬虫信息新闻文章

 

使用python 炒股,最先要用的是数据收集,下文用爬取新闻实例来简述

数据获取

1. 打开指定得财经资讯网站,例如中证时报:http://stock.stcn.com/dapan/index.shtml

2. 建议用chrome浏览器来分析网站结构,指定需要提取的文章列表

用python 来炒股二 BeautifulSoup爬虫信息新闻文章

 

 分析可得路径:

<head> , <body>, <div>'' ,<div>''' .... <li> <a>

 此处路径较深,又涉及多重定位,若用find 只查一次,而用find_all 可查询多次,使用find_all 更合理。

 多层嵌套div,要想提取下层的内容,有多种方法,这里例举常用的:

可以用最后一个 name='ul',attrs={'class':"news_list2"}, 也可以使用 name='div',attrs={'class':"content clearfix"}

假设第一层的 tag = 搜索结果

再来定位第二层的文章 sub_tag find in tag

如果网页的数据中,都是文章,简单提取的方式如:

soup.find_all("a")   #在所有数据中找节点a

  但结果往往不如意,因为常常会遇到其他广告或者推荐文章列表也显示进来。需要用if 或者for 条件来筛选,或者用正则方式匹配



代码示例

1.新建 .py 文件,导入BS

from bs4 import BeautifulSoup
import requests
import time
import json

url = 'http://stock.stcn.com/dapan/index.shtml'
wb_data = requests.post(url)
soup = BeautifulSoup(wb_data.content,'lxml')

 

2. for 循环定位文章节点  

这种写法得优势:

 - 避免用if 时多增加临时变量,节省内存开辟空间。即使这个<DIV> 是多个单中嵌套

 - 用双重for 来查询定位时采用子类方式,迭代生成也节约了空间

 - 特别说明,此时的路径虽然唯一,但是用 find_all 而不同find 是因为考虑到find 查询返回的结果不利于后续的操作,给后续嵌套的for 循环带来方便

for tag in soup.find_all(name='ul',attrs={'class':"news_list2"}):
    for sub in tag.find_all("a"):
        print(sub)

 

3.显示结果:

   用python 来炒股二 BeautifulSoup爬虫信息新闻文章

 

 

于是对数据进行筛选,如果只保留文章标题

for tag in soup.find_all(name='ul',attrs={'class':"news_list2"}):
	for sub in tag.find_all("a"):
		print(sub.string)   #因为sub仍然是个子对象tag,使用string 来提取字符串信息

    用python 来炒股二 BeautifulSoup爬虫信息新闻文章

 

上一篇:python:locust库进行负载测试


下一篇:bs4 使用详解