2016年、再びarchive.isについて

やわなべです。

約1年前に書いた、いわゆる魚拓サービスのarhive.isに関するこの記事。

archive.is に魚拓取られてイヤな思いをしている子はいねがー

アクセスもちらほらあるようで、たまーにお問い合わせも頂きます。今年に入ってからは「やわなべさん、この記事に書いてあるIPアドレス、もう古くて有効じゃないよ」というご指摘も何件か頂いてました。

ただねぇ。これ記事にも書いたんですが、完全にいたちごっこでして。上のやり方で多くの人がIP指定で魚拓を拒否っていれば、そりゃあ先方だってクローラーのサーバーを移すなり、複数拠点に分散させるなりするでしょうから、永久的な根絶ってのは土台無理な話なんですよ。

この「やわなべ.net」自身、archive.isの魚拓を拒否してませんし、最新のIPアドレスは記事に書いた要領でサーバーのアクセスログから取得できるんで、だれかフォロワーが最新のIPアドレス情報でアップデートしてくれたらなー、なんて思ってたら、

アーカイブ拒否を無視するarchive.isをブロックする « REIMA’s Blog

私なんかよりよほど情熱も技術もある、REIMAさんというお方が、最新の情報を記事にまとめておられました。実際、久しぶりにダミーページでアーカイブをとってみると、この記事の通り、オランダのホスティングサーバーのIPアドレスからクローラーが来てることが確認できました。(REIMAさんの記事中のIPアドレスのレンジとは違いましたが、同じホスティング業者のもの)

さらに、

archive.is サーバーIPアドレス一覧 « REIMA’s Blog

ものぐさな私なんかと違って、archive.isのクローラーIPを一覧で配信するページも用意しておられ、今後のアップデートも期待できます。完全に他力本願ですが、当サイトとしても全力で支援していきたいと思います。魚拓対策には、やる気と実績のREIMA、REIMAをどうぞよろしくお願いします。ありがとうございます。お手を振ってのご声援、ありがとうざいます!

ところで、これも前の記事に書きましたが、この手の魚拓サービスが完全に悪かというと、使いどころもあるわけで、たとえば「言った言わない」の係争沙汰になった際の証拠だったり、悪い意味で内容を周知させたいけど直接リンクを貼るのははばかられる、といった用途に使えるわけです。

まあ、REIMAさんもおっしゃるとおり、canonical書き換えんなよ、とは思いますけどね。あと削除の指針は示してもらいたい。

たとえばコンテンツをパクろうとする悪い輩がいたとして、対象ページの魚拓をarchive.isに取り、内容をパクった上で、しれっと「出典:archive.is」とか言い張ることもできるわけです。そんな戯れ言が通用するかはともかく。

スポンサーリンク

Googleはどう思ってるんだろう?

この完全悪とは言えないものの、改善の余地は大いにありそうな魚拓系サービス。偉大なる検索神グーグルさんはどう思ってらっしゃるんでしょうか。

archive.isのトップページには利用例として「ほらほら、GoogleMapみたいな動きのあるページだって魚拓取れるんだよー」と、無邪気にグーグル様のコンテンツの魚拓を掲げてますし(GoogleMapのライセンスって結構シビアなんじゃなかったっけ?)、公式かどうか知りませんが、今見てるページの魚拓をワンクリックでacrhive.isに取れるChromeブラウザ向け拡張機能もChromeウェブストアに堂々と並んでます。

それどころか、ChromeブラウザのURL欄に「archive.is」と打ってスペースを押すと、web全体の検索ではなく、archive.isのサイト内検索ができる補助機能までついてます。どうやらグーグルさんはarchive.isを認知してるだけでなく、有害なサイトだとも思っていないようです。

site:archive.is」でググってみると、多くの魚拓されたページがグーグルによってインデックスされていることがわかります。ためしに「site:archive.is やわなべ」で検索すると、

ss42245.png

冒頭の記事の他、数件の魚拓がインデックスされてました。去年書いた時は、別ドメインのダミーページの魚拓で検証してたんで、誰か知らない人が魚拓取ったんでしょうね。誰だよw

ちなみに検索結果にある「フライパン一丁で作る! 大胆キャベツとゴロッとベーコンのポトフ」なる記事は当ブログのコンテンツではありません。こんな、ほのぼのとした記事をブログに書いてみたい人生でした。

ss42435.png

で、魚拓を取られた冒頭記事のタイトルでググると、今度はarchive.isの魚拓ページは出てこず、当サイトオリジナルのものだけが検索結果に表示されます。 もしかしたら、ずーっと下まで見ていけばあるのかもしれませんが、100件くらい見てもarchive.isのページは見当たらず。魚拓はインデックスはしてるけど、一般の検索では出さないようになってるのかもしれません。

ちなみに検索結果にある「奥様がヲチするインテリアブログ」とは、残念ながら当ブログのことではないようでした。当ブログ今年後半の目標は「奥様がヲチするインテリアブログへのリニューアル」です。今決めました。

話を戻すと、おそらくグーグルさんの認識としては、

「archive.isをスパムサイトとは思ってないけど、オリジナルではないことは知ってるし、元の書き手による重複ページでもないこともわかってる」

ってとこなんじゃないでしょうか。なので、検索順位やコンテンツ重複といったSEO的な懸念であれば、特に気にかける必要はないのかな、と。

問題があるのは、REIMAさんのように「サイト内でライセンス購入したコンテンツを使ってて、魚拓がその契約外利用と判定されると困る」といったケースや、他人によるプライバシー侵害の情報が魚拓として残っている、というケースでしょうね。

ss47191.png

お腹がすいたので、「フライパン一丁で作る! 大胆キャベツとゴロッとベーコンのポトフ」ってのを作ろうと思ったんですが、材料の中で我が家にあるのはキャベツだけ、という事実が発覚、やむなく断念しました。

フライパン一丁で作る!〜大胆キャベツとゴロッとベーコンのポトフ – 今日、なに食べよう?〜有機野菜の畑から~