基于python的统计公报关键数据爬取

2023-08-27 22:20:34

# -*- coding: utf-8 -*-

"""

Created on Wed Nov  8 14:23:14 2017

@author: 123

"""

import requests

'''from bs4 import BeautifulSoup

import traceback'''

import re

import urllib

import random

'''用于获取HTML源代码'''

def getHTMLText(url):

    try:

        r = requests.get(url , timeout = 30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "ERROR!"

'''通过去除标签获取HTML源代码中的正文信息'''

def getRealText(html):

    dre = re.compile(r'<[^>]+>',re.S)

    real_Text = dre.sub('',html)

    '''print(real_Text)'''

    return real_Text

def write_into(real_Title,real_Text):

    f = open(real_Title,'w')

    f.write(real_Text)

    f.close()

def test(real_Text):

    GDP = re.findall(".*地区生产总值(.*?)亿元.*",real_Text)

    for x in GDP:

        print(x)

    '''通过正则表达式匹配出地区生产总值和亿元之间的数字,即excel表格中的数值'''

    get = re.findall(".*地方公共财政预算收入(.*?)亿元.*",real_Text)

    for x in get:

        print(x)

def main():

    url = "http://xxgk.xiaogan.gov.cn/xxgk/jcms_files/jcms1/web30/site/art/2017/4/1/art_5130_17454.html"

    html = getHTMLText(url)

    Title = re.search('<title>.*</title>',html)

    '''获取html的title信息，即excel表格中的数据来源'''

    real_Title = Title.group().strip("</title>")

    real_Text = getRealText(html)

    write_into(real_Title,real_Text)

    test(real_Text)

main()

能够实现基于给出的网页连接爬取html后进行正文内容的提取(测试网页反应情况良好)

通过正则表达式匹配左右给定的字符串，可以获取对应的数字。

通过设定左右字符串分别为”地区生产总值“和”亿元“，可以爬取出地区生产总值为1576.69

目前存在的问题：

1. 设想通过excel直接生成搜索关键词，并自动进行百度搜索获取带有gov后缀的网站链接进行自动爬取，但是现在发现，通过百度爬取的网站链接被百度加密，没有很好可用的方法进行加密链接破解。

2.在本样例中不能准确的爬取出地方公共财政预算收入，因为正文包括全市地方公共财政预算收入和市本级地方公共财政预算收入，正则不能很好的区分两者的区别，根据贪婪原则，本次测试爬取了较后的市本级一般公共预算收入，与预期不符。

码农公寓

相关文章