robots.txt(ロボットテキスト)で検索エンジンを誘導
検索エンジンのロボットが、サイトの中で一番初めにアクセスするファイルがロボットテキストです。ロボットテキスト(robots.txt)とは、検索エンジンの意図しないインデックス(登録)を防ぐ役目を持ちます。
製作途中のサイトをテストアップロードして、クライアントに確認してもらう時など、テストサーバのURLが検索エンジンにインデックスされてしまうと、正式なURLにアップロードした際に、本サイトがテストサイトと重複サイトと判断されてしまう危険があります。
検索エンジンは、サイトが公開された日時を正確に把握していますので、上記の場合後から公開された本サイトがコピーサイトとしてのペナルティを受けます。
ロボットテキストを置くことにより、テストサイトや製作途中のサイトを検索エンジンにインデックスさせないことが可能です。また2007年より、サイトマップの存在を検索エンジンに伝える役目も担うようになりました。
robots.txtの記述内容
ロボットテキストにインデックスを許可する記述をすることで、SEO効果があると言われていた時期がありますが、クローラーはインデックスすることが仕事ですので、わざわざ許可しなくても評価は変わりません。
今回はインデックスを拒否するためのrobots.txtの書き方についてです。
robots.txtのアップロード先
メモ帳などのテキストエディタでrobots.txtというファイルを作成し、ドメイントップのindex.htmlと同階層にアップロードします。
robots.txtのファイルの中身
robots.txtの記述内容は、どの検索エンジンに対し拒否させるのかによって変わります。
全てのロボットを拒否
User-agent: *
Disallow: /
googleだけ拒否
User-agent: Googlebot
Disallow: /
yahooだけ拒否
User-agent: Slurp
MSNだけ拒否
User-agent: msnbot
Disallow: /
サイトマップの登録に使う
2007年4月にyahoo、google、MSNはsitemapの登録を、ウェブマスターツールなどを使わずにrobots.txtで行えるようにしました。
今までは、各検索エンジンのサイトに個別にsitemapのURLを登録する必要がありましたが、この機能により、robots.txtに以下の記述を追加するだけで、検索エンジンにsitemapの存在を通知できるようになりました。
Sitemap: http://www.example.com/sitemap.xml

