価格.comの(株)カカクコムが運営するアキバ系ニュースサイトのアキバ総研が2024年10月に閉鎖し、過去記事が全て見れなくなりました。 2006年からの記事が全て消えてしまうのは文化的損失が極めて大きいと思い、記事+αをアーカイブするサイトを公開しました。 このサイトには「記事の本文は記録されていません」
その他もろもろ
サイトのトップに記載している通り、上記サイトにアキバ総研の記事本文のデータは含まれていません。 広告・トラッキングなどは一切入れません。 全て個人の趣味プロジェクトです。
技術的
スクレイピングは手元のPCでdenoを使って行った。 HTTP getは同じURLに繰り返し走らないようにローカルのsqliteに受信したhtmlを保存する仕組みを作った。 sqliteはすぐにファイルが壊れたりする記憶があって心配だったが、アーカイブサイトの制作中にそのような事は一切無かった。
上記サイトはNext.jsをNode.jsを使って作成した。 アーカイブするという性質上、信頼度の高いサービスでホスティングを行う必要があったので、GithubPagesを使ってwebサイトを公開した。
アキバ総研のサイトは閲覧しているページのホスト名が不一致の場合、アキバ総研トップページにリダイレクトされるJavascriptが各記事のページに仕込まれている。 ユーザーが個別にJavascriptをオフにするのは閲覧性を著しく悪化させるので、iframeタグのsandbox属性を使って閲覧しやすいように工夫した。
<script>(function(){var d=String.fromCharCode(97,107,105,98,97,45,115,111,117,107,101,110,46,99,111,109);if(location.host!==d)location.href='https://'+d+'/';})();</script>
作業に使った全てのソースコードは以下の通り。
https://github.com/fushihara/akiba-souken-archive
https://github.com/fushihara/akiba-souken-crawler
公開サイトは以下の通り