昨天 Google 官方博客发表了一篇文章说他们索引了互联网上的一万亿个独立 URL. TechCrunch 马上出来一篇文章对 Google 的文章做了进一步解释.
当然 Google 也说所有的 URL 数并不只这些,有些网页有多个 URL 是指向完全相同的内容的,或者是自身的拷贝.
在第四段里 Google 才说他们并没有索引所有的网页,那就是说,他们事实上并没有索引所有的那些网页,所以你在 Google 里是搜索不到的.据估计, Google 索引的网页大约只有400亿(和10000亿还是有不小的差距)个左右.
那么 Google 为什么不索引所有的他们找到的网页呢?原因之一是,其中有一些可能是垃圾网页.另外一个原因就是索引网页是很花钱的一件事.而事实上, Google 索引了很多新闻网页,博客和其他一些经常更新的网页,并且经常是每隔15分钟就对这些网页索引一次,这就更花钱了.所以他们会评估来索引哪些网页而放弃哪些网页,从数量对比上可见,有很大一部分网页并没有进入 Google 的索引.
Google 同时也说,”但是我们很骄傲在所有搜索引擎中,我们搜录的网页索引是最多的.”
今天这可能是真的,但是下个礼拜可能就不是了(请关注 TechCrunch). Google 知道这一点而我们也知道,那也正是他今天发布那篇博客的原因所在.
对于真实网页数和 Google 索引的网页数我并不关心,因为在我搜索的时候差不多只要有20-30个结果就够了(当然我曾经看完一个关键词的所有搜索条目,大概40多页).但是这篇文章的最后一句话让我很感兴趣,从它上一段说索引网页很花钱来讲,似乎索引量要比 Google 还大那只能是 Microsoft 了,不知道事情到底怎样,还是关注 TechCrunch 接下来几天的报道吧.