Google的蜘蛛程序对网页数据的抓取是通过读取网页文本内容,并顺着页面中的链接层层深入,从而获得对全站内容的抓取。有一些网页制作技术如框架结构(frame:帧)、Flash等生成的网页内容是蜘蛛程序比较排斥、不愿意抓取的,因此内嵌于其中的文字或链接往往被蜘蛛忽略 了,从而影响到对全站重要数据的抓取。要想知道某个网页的内容能否被Google蜘蛛正常抓取到,可以借用蜘蛛模拟程序,它罗列出一页中能够读到的所有文本,以及能够进入的所有链接,以帮助诊断重要网页内容是否可见。
使用方法:输入被查询页面的URL提交,显示结果分别是被抓取的文本和链接。如果是乱码,可点击浏览器的“查看”-“编码”-“简体中文”。