python 任意新闻正文提取

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_21158419/article/details/52926595

在github上搜到一个正文提取程序,测试了一下基本可以对现在大多数大型新闻网站进行提取

后续我会分析一下这个程序的源码

使用非常简单 如下

# -*- coding: utf-8 -*-
import newspaper
url =  'http://news.haiwainet.cn/n/2015/0611/c3541083-28826526.html'
a = newspaper.Article(url,language='zh')
a.download()
a.parse()
print(a.text)

github:https://github.com/codelucas/newspaper
上一篇:Laravel 5如何在中间件中获取路由参数?


下一篇:Java中Singleton的3种实现方式详解