實(shí)際上,我們的日志中,有很多的baiduspider是他人偽裝的,要想解決這個(gè)問題。我們必須在驗(yàn)證baiduspider真?zhèn)紊舷鹿Ψ颍@篇文章詳細(xì)的介紹了爬蟲的鑒別方法。
我們?cè)诟鶕?jù)網(wǎng)站日志分析搜索引擎蜘蛛抓取網(wǎng)頁(yè)的記錄時(shí),實(shí)際上很多站點(diǎn)都是有一些偽裝稱baiduspider的到訪者的。這些數(shù)據(jù)會(huì)嚴(yán)重影響我們對(duì)日志分析后的判斷。
這些到訪者,為什么會(huì)偽裝為baiduspider來訪問我們的網(wǎng)站呢?最典型的就是采集你內(nèi)容的那些人。他們知道很多工具是能夠看到哪些ip訪問網(wǎng)站的量過大的。例如某一個(gè)ip今天訪問你網(wǎng)站1萬次,那正常嗎?肯定是不正常的。但他要是baiduspdier呢?呵呵,那就正常了。
Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(Linux;u;Android4.2.2;zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)Version/5.1MobileSafari/10600.6.3(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)Version/9.0Mobile/13B143Safari/601.1(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
如上是包含了百度的常規(guī)爬蟲,和渲染爬蟲render的。這兩個(gè)爬蟲的區(qū)別符已經(jīng)用紅色字體標(biāo)出來了。
可以通過DNS反查方式來解決這個(gè)問題。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如linux/windows/os三種平臺(tái)下的驗(yàn)證方法分別如下:
1、在linux平臺(tái)下,您可以使用hostip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即為冒充。
2、在windows平臺(tái)或者IBMOS/2平臺(tái)下,您可以使用nslookupip命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即為冒充。
3、在macos平臺(tái)下,您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即為冒充。
文章來源:黎青松SEO博客
來源地址:http://www.alitaohuo.com/SEObaike/SEOrumenjiaocheng/2005.html
本文來源:徐州酷優(yōu)網(wǎng)絡(luò)科技有限公司
本文網(wǎng)址:https:///dengta/2775.html
聲明,本站文章均為酷優(yōu)網(wǎng)絡(luò)原創(chuàng)或轉(zhuǎn)載,歡迎分享,轉(zhuǎn)載時(shí)請(qǐng)注明文章作者和“來源:徐州網(wǎng)站建設(shè)”并附本文鏈接
覆蓋全江蘇省的服務(wù)網(wǎng)絡(luò)
全國(guó)7×24小時(shí)客服熱線
病毒殺出率高于99%
網(wǎng)站可用性高于99.9%
最快網(wǎng)站3天內(nèi)上線