noindexとDisallwの違いと正しい使い方【インデックス制御を正確に】
なんだか最近検索順位が下がってきてるな〜
そう思っている方いらっしゃいませんか??
調べてみると案外記事内のテキストが『重複』していることってかなりあったりするんですよね・・・
こんにちわ、SEOカフェの如月ゆずです!
Twitterやアメブロ、社内ブログといったSNSや同一サイト内の気がついていいない重複コンテンツは意外と多いんです。
最近、検索順位が下がってきてるな〜と思ったらコピーコンテンツをちらっと疑ってみてください。
【コピーコンテンツを探せるサイト】
重複コンテンツを見つけたそのあとは・・・
重複コンテンツを見つけたら、どれか一つをGoogleに評価してもらえるようにしましょう。
そうなると思う浮かぶ方法がDisallowとnoindexってなるんですけど・・・
どっちも同じじゃないの??という方って多いんじゃないんでしょーか。
私は、DisallowとnoindexもGoogleに評価されないようにする処理だと思っていましたが、実は意味合いが違うんです。
Disallowとnoindexは何が違うの??
コンテンツが弱いのにindexされてしまっていたり、Googleにアクセスしないで欲しい時や重複してしまっているページに対して使用するのが「Disallow」と「noindex」。
該当URLを外部からのアクセスを防ぐ目的で両方ともに使われているようです。
Disallowとnoindexは親戚みたいな関係ですけど、イコールではないんです。
恋人でもありません。
結論から言うと・・・
Disallow:GoogleにURLにアクセスしないようにする
noindex :Googleにindex(登録)させないようにする
となっているようなんです!
ちなみに、インデックスされる順番(というより流れ)は下記の通りです。
- クローラーがURLを巡回(Disallow処理)
- インデックスをするかしないかの判断(noindex処理)
- インデックスする
ん?そうなるとインデックス(index)って何だ?となりませんか?笑
インデックスとは「登録」だと思ってください。
ん?登録ってなにを?となりますが、難しい話は置いておいてGoogleが勝手に実在するURLとして登録していると考えみましょう。
すごーっく簡単に説明しますが、我々人間がネットから検索して表示されるページはどうやって処理されていると思いますか??
Googleを始めとする検索エンジンは毎回検索されたページをその都度URLを見に行っているわけではないんです。(そんな時間あったら探すだけで日が暮れてしまいます)
実は、世の中にある数多のURLをGoogle側が一時的に勝手に情報として保存しているんですね。
(す、すごいよGoogle・・・!)
で、そこにラベルとか索引のような形でいつでも引き出せるような形にしておいて、誰かが「みかんについて」と調べたら「みかんについて」に関連がありそうなURLを物凄い勢いで情報を引っ張り出してきています。
言い換えると、インデックス(登録)されないと検索結果に表示されません。
そのためインデックスされるところから全ては始まるんです。
現実世界に置き換えましょう。
本屋に行って受付の美人なお姉さんに、「みかんについて」の情報が知りたいんですけどと言ったら「これとこれとこれと、あとこれもありますね」ってほぼ瞬時に何万件も教えてくれるとイメージできます・・・か?笑
(私にはできません、そんなこと・・・)
逆にインデックス(登録)していないと、「いや、そもそもそんな情報ないし。本屋にない物を提示してくれってあなたバカなの?関連性があるのこれだけしかないけど・・・」と冷たく対応されます。(つまり表示される件数が少なくなる)
1. Disallowとは?
Disallowとは、Googleのようなクローラーに対して『アクセス制限をする意味合い』を持ちます。 簡単な言葉で言い換えると『アクセス許可の有無』です。
主な使い方としては、robots.txtに記述します。
User-Agent: * Disallow: /hogehoge.html
Sitemap: http://example.com/sitemap.xml
上記例だと、『hogehoge.htmlはアクセスしないでね! サイトマッはhttp://example.com/sitemap.xmlだよ』と伝えていることになります。
つまり、Googleにindexされるかどうかのスタートとなる、クローラーがURLに巡回する際に案内をするかどうかの起点となるのがDisallow(Allow)処理となります。
『Disallow=アクセス制限』ということになります。
Disallowの見落としがちな点
見落としがちな点は、Disallowで制限されたページに何が書いてあるのかをクローラーも知ることができないということです。
良くある間違いが、インデックスされてしまっているURLをnoindex(削除)したいけど各URLに記述するのは面倒くさいから、robots.txtにまとめてアクセス制限しちゃえ!という発想。
インデックスされてしまっているURLに対してDisallowをしてもインデックスは残っています。
そうするとクローラーが訪れないので、更新されないだけです。
もし完全に該当URLやディレクトリをインデックス処理させないようにするには、サチコから削除申請を出した後にrobots.txtに該当URLを記述するようにしてください。
2. noindexとは?
noindexとは、no(否定)index(index)なので『indexさせない(しない)』ということになります。
主な使い方としては、<head>内に記述します。
<meta name="robots" content="noindex">
ここで注意してほしいのは、インデックスはしないということです。
ん? indexしないということは、ユーザーにも表示されないから良いのでは?となりますが、ここが味噌醤油です!(ふるっ
その先にあるクローラーの動きを見越して問題なければ大丈夫です。
『noindex=indexはしないけどクローラーは巡回する』ということ
URL内にリンクが存在している場合はそのURLからリンクは見にいきますので、インデックスしないでね、あとリンクも辿らないでねという場合には下記のように記述します。
<meta name="robots" content="noindex,nofollow">
noindexしていてもindexされる??
noindex設定をしていても外部からリンクを貼られている場合は、世の中から必要とされている証拠と判断されindex処理されるケースもあるようです。
Googleの本質は世の中で有益な情報を増やして上位表示させたいという原則がある以上、その点を見れば避けられないかもしれません。
その他、noindexを設定する際の注意点として良く挙がる例は、全ページのURLにnoindexが記述されている点でしょう。
noindex,nofollowが記述される例はリニューアル前のサイト構築に設定することがありますが、アップ(公開)した後も削除を忘れて運用し続けるといつまでたってもインデックスされないことになります。
Webサイト制作を外注に依頼していればそんな有り得ないことはないと思いますが、社内で制作しているケースではしばしば見受けられますので(苦笑)
あとWordPressで制作していて全体をindexしないよう処理していることを忘れていた!!なんてこともあります。
Disallow > noindexだけど併用はダメ
- クローラーがURLを巡回(Disallow処理)
- インデックスをするかしないかの判断(noindex処理)
- インデックスする
クローラーがURLを辿りたくても門前払いしてしまうのがDisallowです。
クローラーに巡回してもらっても良いけどインデックスさせないのがnoindexです。
その両方の使い方をミスるとインデックスされてしまっているものが消えない!!という不思議な現象に陥った気持ちになりますが、設定のミスなので気をつけたいところですねぇ〜
なぜ併用はダメなのでしょう??
それはDisallow設定したページにnoindexページ(A)があっても、クロール(巡回)しないでくれって言っているから、インデックスされたページをnoindex処理しようにもnoindexの記述があるかどうかまで把握できないからみたいです。
ページをインデックスされた後の処理あれこれ
インデックスされた後にDisallowをしても削除はされにくい(ほぼされないでしょう)ということですねぇ。
削除申請はしておらず、アクセスを制限しているだけなのでindexは残ったままなのですから。
インデックスされている
↓
消したい!Disallowで処理しよう!そしてnoindexにもしておこう!
↓
Disallowでアクセス制限 ↓
クロール(巡回)されない=noindexがあるかどうか判断できない ↓
結果、インデックスされたままになっている
Disallowとnoindexの併用がダメな記事はこちら
インデックスされているURLを削除したいのであれば、Google Search Console から削除申請してからDisallowもしくはnoindex処理を行うようにしていきましょう!
それが一番手っ取り早いです♪
今日はこの辺でっ!