1986 To Present
msgbartop
Google 我生活的每一天…
msgbarbottom

28 Jul 08 Google 到底索引了多少网页?

Photobucket

昨天 Google 官方博客发表了一篇文章说他们索引了互联网上的一万亿个独立 URL. TechCrunch 马上出来一篇文章对 Google 的文章做了进一步解释.

当然 Google 也说所有的 URL 数并不只这些,有些网页有多个 URL 是指向完全相同的内容的,或者是自身的拷贝.

在第四段里 Google 才说他们并没有索引所有的网页,那就是说,他们事实上并没有索引所有的那些网页,所以你在 Google 里是搜索不到的.据估计, Google 索引的网页大约只有400亿(和10000亿还是有不小的差距)个左右.

那么 Google 为什么不索引所有的他们找到的网页呢?原因之一是,其中有一些可能是垃圾网页.另外一个原因就是索引网页是很花钱的一件事.而事实上, Google 索引了很多新闻网页,博客和其他一些经常更新的网页,并且经常是每隔15分钟就对这些网页索引一次,这就更花钱了.所以他们会评估来索引哪些网页而放弃哪些网页,从数量对比上可见,有很大一部分网页并没有进入 Google 的索引.

Google 同时也说,”但是我们很骄傲在所有搜索引擎中,我们搜录的网页索引是最多的.”

今天这可能是真的,但是下个礼拜可能就不是了(请关注 TechCrunch). Google 知道这一点而我们也知道,那也正是他今天发布那篇博客的原因所在.

对于真实网页数和 Google 索引的网页数我并不关心,因为在我搜索的时候差不多只要有20-30个结果就够了(当然我曾经看完一个关键词的所有搜索条目,大概40多页).但是这篇文章的最后一句话让我很感兴趣,从它上一段说索引网页很花钱来讲,似乎索引量要比 Google 还大那只能是 Microsoft 了,不知道事情到底怎样,还是关注 TechCrunch 接下来几天的报道吧.

Tags: ,



Leave a Comment

:| 8O :) :? 8) :D :oops: :P :roll: ;) :cry: :o :lol: :x :( :?: more »

:| 8O :) :? 8) :D :oops: :P :roll: ;) :cry: :o :lol: :x :( :?: more »