[日記/2004]

ペタの世界 / 2004-10-19 (火)

 Googleのサーバールームって、いったいどんな規模なんだろう?という疑問があったりします。
 だって、全世界のほとんど全部のWebページのキャッシュが収められていて、それを瞬時に検索するんですよー。
 地球シミュレーター規模とは言わないまでも、かなりの規模になるんだろうなーって、漠然と想像してました。

 しかし、検索技術の方はともかく

 Webページの総量というのは実はそれ程多くは無いのではないか?

 …というのが今日の記事の主題です。

 インターネットアーカイブ というサイトをご存知でしょうか?
 オンライン図書館という肩書きで、1996年から現在まで、とにかくひたすらWebサイトを保存しまくってるという、とんでもない所です。

 例えば私のページですが、1996年1997~1999年2000年~2002年2003年~現在 …のように、膨大に保存されまくっています(^^)/

 はっきり言ってGoogleのキャッシュの比ではありません。
 Googleは、現時点でのページしか保存していませんし、画像はオリジナルではなくサムネール化されてますし。

 というわけで、インターネットアーカイブについて調べてみますと…あったあったありました。

 まずはIT用語辞典、こちらには「2001年10月の時点で0.1ペタバイト」という記述があります。

 …ペタ!?

 又凄い単位が飛び出してきました。ペタなんて単位、普通見る事無いですよ。
 しかもこれは2001年時点。今は一体どの位の規模になっているのか?

 と思って探してみると、次なる記事を発見。asahi.comの記事です。日付は2004年9月23日なので、まぁ現在という事になりますが、こちらの記事に「Webページの保存領域として0.3ペタバイト使ってる」という記述がありました。
 3年で3倍に増えてるー。このペースだと、1ペタの大台を超える日もすぐなんだろうなぁ…

 さて、このとんでもない容量に見えて一瞬びびってしまう「ペタ」という単位ですが、よーく考えてみると、実はそれ程凄くはないのかも…

 AT互換機用のマザーボードはIDE機器を標準で4つ繋ぐ事が出来るので、これに250GBのHDDを4台搭載すれば、一台で1テラバイト。これを300台並べれば、現在のインターネットアーカイブで保存してるWebページの総容量である、0.3ペタバイトになっちゃうんですよねー。
 ちょっと大き目のオフィスなら、パソコン300台なんて普通にありますから、そう考えると、実はそれほど大した事は無いのかもしれません。

 まぁ、民生のDVDレコーダーでも、0.5テラバイトの容量がある時代だしー。
 単に、相対的にペタという単位が、以前ほどとんでもないものでは無くなって来た…というだけの話なんでしょうけど。

 さて、今日も又台風が来てます。今年は本当に多いよなぁ…

[ ツッコミの受付は終了しています ]
1: けん (10/19 19:36)
ばけつの大きさはどんどん大きくなって行きますが、
問題はそれ(=データ、つまりweb)を効果的にヒットさせる技術ですね。
その点から考えるとgoogleは動的ですし、
いったいどんなアルゴリズムやねん!って思います。
日本からアメリカ東海岸までパケット往復速度約0.25s googleの検索速度は?
この記事のリンク元