关于搜索引擎质量 [原创]

今天在研究各搜索引擎收录质量的时候,以自己的博客为目标,查询各个搜索引擎的收录情况,结果如下:

Google: 518条

Baidu: 254条

Yahoo中文: 585条

LiveSearch: 52条

再看我博客本身的统计数据:

全部 Weblog 记录共199条,包括所有的友情链接等记录。其中真正的weblog记录,信手涂鸦有115条,老婆的博客“宣”言有37条,共142条记录。每条记录都有评论页面和Trackback页面,两个博客分页共16页,20个类别共39个页面,26个月份共29个页面,加上四个个人简历页面,一个按月索引页面,一个分类索引页面,两个留言本页面,此外,英文博客有11条记录,都只有引用页面,2个分页,4个分类,4个月份页面。共142×3+16+39+29+4+4+11×2+4+4=548个页面,考虑到新增记录被收录和索引的延迟,那么真正可以被索引到的页面应该有大约530个。这样算来,数字和计算出的应被收录页面数最接近的是Google,其次是Yahoo。百度可能是对页面内容重复较多的记录进行了缩减,居第三,微软的Live Search在一年多的时间内仅收录了52条,无论怎么计算,它都没有索引完全。我的robot.txt并没有禁止任何页面被索引。在索引数字上,Google胜出,它的收录范围基本上涵盖了我博客域名下包含的可抓取内容的全部,遗漏也在可接受的范围内。Yahoo收录最全,但存在很多冗余记录(估计是过时记录)。因此我认为它不如Google,百度对索引页面大批量删除的做法明显很有问题,但它还是可以搜索到我博客的全部内容的。最成问题的是Live Search,在这个被Windows Vista做为默认web搜索引擎的搜索引擎中,抓取一个网站的内容仅占全站的十分之一,这个数字实在让人心寒,

此外,还注意到在各个搜索引擎的搜索结果中,Google,Yahoo和LiveSearch都把首页,也就是blog.icebirds.net这个网址放在了搜索结果的第一条中。而百度的搜索结果中,一直翻到第十页也没看到索引首页的那条记录,不知道它在搞什么。这样的搜索结果,难怪那么多人说百度的搜索结果质量非常的低……

2007 年十一月09日,星期五

第 1 页,共 1 页

聚合

联系我

发消息给我(内容保密)

QQ:290795401

Email:icebirds@163.com