五星云站融合人機區(qū)分技術搭建智能反爬蟲體系
目前網(wǎng)絡上爬蟲橫行,輕則消耗網(wǎng)絡和帶寬資源,影響網(wǎng)站服務的訪問速度,重則竊取企業(yè)產(chǎn)品信息,甚至讓網(wǎng)站無法訪問。
五星云站中借助極驗等云服務商,基于人工智能,融合人機區(qū)分技術,層層過濾風險流量。
1.基于Headers和User-Agent信息識別爬蟲
一般爬蟲的IP代理分布都比較廣,五星云站在日志里記錄里每個請求的User-Agent信息,從中找出訪問量最大的User-Agent,可以統(tǒng)計出每個爬蟲的請求次數(shù),對請求較多的爬蟲進行封鎖。
2.基于網(wǎng)站流量統(tǒng)計和分析查找爬蟲
比較流量統(tǒng)計系統(tǒng)記錄和服務器程序日志記錄,如果服務器日志里某個IP發(fā)起了大量的請求,在流量統(tǒng)計系統(tǒng)里根本找不到,那么無疑就是一個網(wǎng)絡爬蟲。
3.智能識別
根據(jù)業(yè)務場景,不斷收集爬蟲信息,區(qū)分正面樣本和負面樣本。
4.IP限制
在后臺對訪問進行統(tǒng)計,如果一個IP地址在短時間內(nèi)訪問頻率超過閾值,可以暫時對這個IP予以封鎖,需通過驗證碼訪問后才能繼續(xù)訪問,甚至可以禁止訪問。