反爬虫?来了解下这个爬虫终结者!

根爬取数据类型而分,爬虫有不少种类,比如爬取Email地址的、爬取商品价格的、爬取图片的,而最多的是爬虫内容的。内容数据爬虫是为泛滥的!

爬虫让很多人对其深感苦恼,今天,带大家来了解一个爬虫终结者,对内容数据防护非常强劲,几乎可以100%拦阻所有内容爬虫!它就是ShareWAF-ACS。
反爬虫?来了解下这个爬虫终结者!
ACS是Anti Content Spider的简称缩写,直面其意:反内容爬虫。是国内安全厂商ShareWAF推出的一款反爬虫产品。

根据官方介绍,ShareWAF-ACS采用动态字体变码加密技术,可防一切内容爬虫!

反爬虫是个技术活,那么ACS是靠什么技术实现反爬防护的呢?
总结而言,它有两大技术点:

1、字体加密、动态变码;

2、动态字体文件保护。
来看反爬效果演示:

1、内容防复制、防爬取
反爬虫?来了解下这个爬虫终结者!这是在ACS保护下的一个网页。 尝试复制网页中的内容,并粘贴到别处。

先复制:
反爬虫?来了解下这个爬虫终结者!再粘贴:
反爬虫?来了解下这个爬虫终结者!可见,复制粘贴后的文字出现了乱码,即内容不能被正常获取、不能被爬虫爬取。

2、防破解

ACS采用的是字体变码技术,打开刚才的网页,查看网页源码:
反爬虫?来了解下这个爬虫终结者!可以看到某些文字内容并不是正常的“文字”,而是一种编码,是自定义的文字Unicode编码。

而且是“变码”,编码会变化:
反爬虫?来了解下这个爬虫终结者!由此可防止编码被分析。

说倒底,这是一种自定义字体编码技术,更进一步思考,它人可能会下载网页中的字体文件,破解字体与编码的对应关系。

为了防止这种情况出现,ACS还采用了动态字体文件路径的保护手段,每次访问网页,提供的都是不同的字体路径:
反爬虫?来了解下这个爬虫终结者!这就是动态字体文件保护功能了。
反爬虫?来了解下这个爬虫终结者!更安全的是,字体文件是防下载的:
反爬虫?来了解下这个爬虫终结者!文字不能被正常复制,即:不能爬取。

字体编码是加密的、动态变化的;字体文件也是被保护的不能被分析,即:反爬不能被破解。

那么,应该说:不错!爬虫终结者来了!

反爬虫?来了解下这个爬虫终结者!反爬虫?来了解下这个爬虫终结者! w2sfot 发布了20 篇原创文章 · 获赞 0 · 访问量 77 私信 关注
上一篇:03.Linux常用命令-权限管理命令/文件搜索命令


下一篇:java0225学习内容