正確識別網站被百度蜘蛛抓取的方法

我們都希望自己的原創文章被搜索引擎蜘蛛抓取,但是市面上有不少采集程序,冒充搜索引擎蜘蛛,那么如何正確識別網站是否真的是被百度蜘蛛抓取的,而不是其他采集程序抓取?

首先,要做好蜘蛛抓取的記錄工作。

比如網站是WordPress站點的話,一般都有相應的插件可以下載安裝到后臺,然后,如果有搜索蜘蛛來訪爬取網站,就會記錄下來。下面看一下截圖:

百度蜘蛛
蜘蛛爬取記錄結果

記錄下來了蜘蛛的ip地址,比如220.181.108.180,以及抓取時間,然后標識了蜘蛛的名稱為Mozilla/5.0 (compatible; Baiduspider/2.0; )。

不過不要著急就認為這就是真實的百度蜘蛛,還需要做一步驗證。打開cmd命令窗口,然后輸入nslookup命令,并輸入以上ip地址按回車鍵,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。