首页 » 信息技术 »

反爬虫防御现状

2019年11月5日 / 1次阅读

市面上已经有少许安全厂商提供反爬虫产品,大家的反爬虫思路有不同的特点。

1.利用 IP 和 UA 防护

这类防护形式多出现在云 WAF 产品上,优点是利用了 WAF 本身的防护特性、策略简单,集成方便;缺点是数据更新时效性低、误封率极高,在国内用户共享 IP 的场景下,很难提准确率和降低漏报率。目前主流的云 WAF 厂商都有提供 IP 和 UA 的防护能力。

2.利用加密 JS 和动态 URL

通过动态刷新 JS 不断变换 URL 的访问路径,提高爬虫的数据接口爬取难度。该方案可以拦截大部分爬虫脚本以及爬虫的开发者。优点是和 WAF 一样部署便捷,技术破解难度大,缺点是对于搜索引擎的杀伤力巨大,威胁防护过于单一。这种防护形式多见于 WEB 查询类的数据服务,包括招聘,政务云等服务网站。

3.利用机器学习产生统一设备指纹

从设备角度标识用户,保证同一个设备无论在什么环境下访问网站都可以产生同一个设备指纹,通过监测设备指纹一系列行为,对该设备指纹进行频率、IP、UA 等资源限制,防止其恶意盗取资源。该方案最大优点是简单有效,准确率高,缺点是几乎没法找到一个稳定的设备指纹,另外对于中国网吧这样统一装机的,该方案无法适用。该方案在国外应用比较广泛,国外几家比较大的爬虫管理服务商的防护服务都有类似的防护特点。

4.通过动态变化 HTML内容结构

通过动态变换 CSS 和 HTML 的内容结构(比如id不同,class不同等)导致爬虫无法提取到关键数据来进行反爬,诱导爬虫爬取恶意的数据形式,导致无法向下游输送正确的数据,本质上是防御爬虫数据使用场景,该方案多见于内容型的业务,比如微信文章,招聘网站的电话号码等,对于接口类型的资源该方案不适用。这种形式的防护主要应用在原创内容型的网站上面,常见的有微信,淘宝等。

内容转自公号:灰产圈

本文链接:https://www.maixj.net/ict/fanpa-fangyu-23001

相关文章

留言区


前一篇:

栏目精选

云上小悟,麦新杰的独立博客

Ctrl+D 收藏本页

栏目


©Copyright 麦新杰 Since 2014 云上小悟独立博客版权所有 备案号:苏ICP备14045477号-1。云上小悟网站部分内容来源于网络,转载目的是为了整合信息,收藏学习,服务大家,有些转载内容也难以判断是否有侵权问题,如果侵犯了您的权益,请及时联系站长,我会立即删除。

网站二维码
go to top