[古閑] ブログや動画、国会図書館が収集へ

ブログや動画、国会図書館が収集へ 「震災の記録、次世代に伝承」
産経新聞 2月23日(木)15時30分配信
http://headlines.yahoo.co.jp/hl?a=20120223-00000545-san-soci

記事の中身は見てもらうとして、国営のwebアーカイブサイトが出来るっつー事みたいだ。で、対象が動画やブログ記事というから、そのストレージシステムはどんだけ巨大化するのかと、今から心配でたまらんわけです。

勝手に想像する運用としては、国会図書館の職員が手作業でデータを追加していくなんて事はありえなくて、当然クロールして自動的に収集って事になるんでしょうが、ニコニコ動画に上がっているような糞みたいな釣り動画も収集されるのかと思うと、胸が熱くなります。

実際には、livedoorブログや、ココログ、hatenaなどの大手のブログ運営会社から許諾をとって、そこから収集するって事になるんでしょう。ボリュームとしては結構あると思いますが、どんな範囲で収集するのか興味が尽きません。ブログのテキストおよび画像はよいでしょうが、映像となると話はかわってくるものと思います。

たいていの動画は、個人レベルであれば動画投稿サイト(youtubeないしニコニコ動画)にアップロードされるものと思いますが、ブログからはそこへのリンク(埋め込みを含む)という事になろうかと想います。動画データそのものも保存するんでしょうか?どんだけストレージコストかかるんだって疑問が・・・

一方で、私のところのような個人ブログで、個人サーバでやっているようなところは、収集の対象外って事になるんでしょうか?それとも勝手に収集だけはするんでしょうか?おそらく前者だと想いますが、出来れば収集していただきたい。バックアップ用途に使わせていただきたく・・・

記事中にこんな記述がありますが、

ネット上には被災地で撮影された津波の動画や個人の心情をつづったブログ記事など被災地の状況を伝える貴重なデータが多数存在する。一方、データが更新されたり、削除されたりして、時間経過に伴い閲覧できなくなる恐れがある。

時間経過に伴い閲覧が出来なくなる。これは確かに現実問題として困ること多いです。かつては、ISPのサーバにサイトを構築する例が多々あり、放置されたサイトは契約者のISP乗り換え等で、サイトが閲覧出来なくなってしまうケースがいっぱいありましたね。私はそれがいやで、個人サーバで細々とこのサイトを続けているわけですが。

一方で、データが更新されたり、削除されたりの下りについては、理由があって公開したくないというケースが多いのだと想います。極端な例かもしれませんが、他者をを誹謗中傷するようなエントリーがあり、炎上したので反省してそのエントリーを削除しましたというケース。削除したのにもかかわらず、国会図書館では誹謗中傷を続けているかのようになってしまうのは、どうなんでしょう。

そもそも、ブログ運営業者がすんなりOKを出すか疑問なところもありますが、各サイトをやってる人まで許諾を取りに来るって話ではなさそうですので、どうなんでしょうね。いや、国立の魚拓サイトができあがるというのであれば、実に楽しい気分になるのでしょうが、どのような運営を想定しているのか、非常に気になります。