10秒后自動(dòng)關(guān)閉
如何攔截偽蜘蛛、假蜘蛛

偽蜘蛛是指爬蟲(chóng)爬行網(wǎng)站時(shí)帶有搜索引擎標(biāo)簽,但卻不是真的搜索引擎IP,也稱為假蜘蛛、偽爬蟲(chóng)、假爬蟲(chóng)。


偽蜘蛛用于哪些場(chǎng)景呢?

偽蜘蛛一般用于采集比較多。例如站群服務(wù)器,偽造蜘蛛全網(wǎng)采集網(wǎng)站數(shù)據(jù),再轉(zhuǎn)換輸出給瀏覽者。同時(shí)隨著AI的發(fā)展,很多AI公司也會(huì)以偽蜘蛛的方式收集數(shù)據(jù)用于大模型訓(xùn)練。也有一些不法分子,采用偽造蜘蛛的方式掃描網(wǎng)站漏洞,讓管理員不敢貿(mào)然屏蔽他們的惡意IP。


偽蜘蛛有哪些危害呢?

如果只是為了采集網(wǎng)站數(shù)據(jù)的偽蜘蛛,并不會(huì)帶來(lái)安全問(wèn)題,主要消耗帶寬、CPU等資源,嚴(yán)重時(shí)可導(dǎo)致網(wǎng)站無(wú)法正常使用。但可能產(chǎn)生另外一個(gè)嚴(yán)重后果:導(dǎo)致網(wǎng)站被降權(quán)。站群服務(wù)器都是采集其他網(wǎng)站數(shù)據(jù)轉(zhuǎn)化為自己的數(shù)據(jù)讓搜索引擎收錄,再將搜索進(jìn)來(lái)的用戶導(dǎo)流到主網(wǎng)站。因?yàn)閮?nèi)容和你的相同,就會(huì)對(duì)源網(wǎng)站的搜索引擎排名有所影響。


網(wǎng)上防護(hù)偽蜘蛛的方式及缺點(diǎn)

網(wǎng)上有一些攔截偽蜘蛛的方式,大體思路都是通過(guò)分析網(wǎng)站日志,找出帶有蜘蛛標(biāo)簽的IP,再通過(guò)nslookup命令檢查此IP是否屬于蜘蛛。

這種方式大部分情況下沒(méi)問(wèn)題,但有如下缺點(diǎn):

1、 事后攔截,有滯后性,會(huì)放行一些偽蜘蛛訪問(wèn)(不過(guò)總體影響不大)

2、 只對(duì)nginx有效,那IIS、Apache怎么辦呢?

3、 使用CDN的網(wǎng)站會(huì)被誤封。因?yàn)楂@取到的蜘蛛IP全是CDN節(jié)點(diǎn)IP,肯定不屬于搜索引擎,導(dǎo)致全部誤殺。

4、 有些搜索引擎的蜘蛛不支持nslookup檢測(cè)(如360),也會(huì)導(dǎo)致全部誤判。


百度蜘蛛檢查結(jié)果,支持nslookup

(圖一:百度蜘蛛檢查結(jié)果,支持nslookup)



360蜘蛛檢測(cè)結(jié)果,不支持nslookup

(圖二:360蜘蛛檢測(cè)結(jié)果,不支持nslookup)



如何快捷有效的攔截偽蜘蛛呢?

要有效攔截偽蜘蛛,只有一個(gè)辦法:收集蜘蛛IP庫(kù),攔截不在庫(kù)的蜘蛛IP。

我們可以使用《護(hù)衛(wèi)神.防入侵系統(tǒng)》的“偽蜘蛛防護(hù)”模塊輕松解決此問(wèn)題(如下圖三)。


偽蜘蛛防護(hù)

(圖三:偽蜘蛛防護(hù))


護(hù)衛(wèi)神.防入侵系統(tǒng)內(nèi)置豐富的蜘蛛IP庫(kù);不分析網(wǎng)站日志,爬蟲(chóng)爬行時(shí)直接和蜘蛛IP庫(kù)庫(kù)比對(duì),事前攔截?zé)o遺漏;自帶CDN穿透功能,即使使用了CDN也不受影響; IIS/Apache/Nginx均可使用;360搜索引擎也不受影響。

使用“寬松”模式,自帶學(xué)習(xí)算法,對(duì)于新增的蜘蛛IP,也能智能識(shí)別。


只需要選擇蜘蛛類型,點(diǎn)擊“確定”就可以開(kāi)啟防護(hù),是不是比網(wǎng)上的其他辦法簡(jiǎn)單多了?如果你也遭遇偽蜘蛛問(wèn)題,趕緊使用此方法攔截吧。攔截效果如下圖四:

偽蜘蛛攔截效果

(圖四:偽蜘蛛攔截效果)