不通过twitter API调用Twitter数据
前言
需要抓取Twitter的数据以进行各种方面的应用,申请Twitter开发者账号又一直不通过,无法调用Twitter API, 从Github中找到了一个可以进行Twitter数据抓取的包,因为网络的原因耗费了挺多精力,开个贴记录一下,不要踩坑。
1、Python库的导入
使用Twint包进行数据的抓取
2、网络问题的解决
2.1、可能遇到的错误
2.1.1、Cannot Connect to host twitter.com 443 ssl:True
1、Cannot Connect to host twitter.com 443 ssl:True
2.2.2、get.User:‘NoneType’ object is not subsciptable run:Twint:Feed:noDataExpecting value
2、
get.User:'NoneType' object is not subsciptable run:Twint:Feed:noDataExpecting value
2.2、问题解决方法
2.2.1、Cannot Connect to host twitter.com 443 ssl:True问题
防和谐,解决方案放到Github上
2.2.2、get.User:‘NoneType’ object is not subsciptable run:Twint:Feed:noDataExpecting value问题
同样在GitHub上有解决方案,
即使用命令:
pip3 install --user --upgrade git+https://github.com/twintproject/twint.git@origin/master#egg=twint
即可解决该问题
抓取文本示例
Github上有详细的命令文档可以很轻松地调用,在这儿放一下几个常用的。
Tips:这个工具只能抓取文本,对于图片并不能抓取。
twint -u -username (获取该用户发布的所有推文)
twint -u username -s happy (从用户的时间线中抓取所有包含包含happy的推文)
twint -u username --year 2014(抓取用户在2014年以前的推文)
twint -u username --since 2015-12-20(抓取用户在2015年12月20日之后的推文)
twint -u username -o file.csv --csv (存储到csv文件中,路径默认cmd运行路径下)
更多例子请在Github上查询。
抓取的数据: