robots.txt(ロボットテキスト)で検索エンジンを誘導
検索エンジンのロボットが、サイトの中で一番初めにアクセスするファイルがrobots.txtです。ロボットテキスト(robots.txt)とは、検索エンジンの意図しないインデックス(登録)を防ぐ役目を果たしています。
製作途中のサイトをテストアップロードして、クライアントに確認してもらう時など、テストサーバのURLが検索エンジンにインデックスされてしまうと、正式なURLにアップロードした際に、本サイトがテストサイトと重複サイトと判断されてしまう危険があります。
検索エンジンは、サイトが公開された日時を把握していますので、上記の場合後から公開された本サイトがコピーサイトとしてのペナルティを受ける可能性があります。
ロボットテキストを置くことにより、テストサイトや製作途中のサイトを検索エンジンにインデックスさせないことが可能です。また2007年より、サイトマップの存在を検索エンジンに伝える役目も担うようになりました。
robots.txtの記述内容
robots.txtにインデックスを許可する記述をすることで、SEO対策効果があると言われていた時期がありますが、クローラーはインデックスすることが仕事ですので、わざわざ許可しなくても評価は変わりません。
インデックスを許可するための記述は必要ありませんので、今回はインデックスを拒否するためのrobots.txtの書き方についてご説明します。
robots.txtのアップロード先
メモ帳などのテキストエディタでrobots.txtというファイルを作成し、ドメイントップディレクトリのindex.htmlと同階層にアップロードします。
robots.txtのファイルの中身
robots.txtの記述内容は、どの検索エンジンに対し拒否させるのかによって変わります。
全てのロボットを拒否
User-agent: *
Disallow: /
Googleだけ拒否
User-agent: Googlebot
Disallow: /
Yahooだけ拒否
User-agent: Slurp
MSNだけ拒否
User-agent: msnbot
Disallow: /
特定のディレクトリやページを拒否
User-agent: *
Disallow: /seo/
Disallow: /robot.html
相互リンクページにDisallowを使用
勘の良い方なら既にお気付きだと思いますが、nofollow属性の時と同じく相互リンクを依頼し、こちらからのリンクページをインデックス拒否すれば、相互リンクが相手サイトからのナチュラルリンクへと変貌を遂げます。
しかしこういった詐欺的な手法は、それにより得られる利益より、信頼を失うことによる損失の方が大きいことを理解しておきましょう。
サイトマップの登録に使う
2007年4月にYahoo、Google、MSNはsitemapの登録を、ウェブマスターツールなどを使わずにrobots.txtで行えるようにしました。
今までは、各検索エンジンのサイトに個別にsitemapのURLを登録する必要がありましたが、この機能により、robots.txtに以下の記述を追加するだけで、検索エンジンにsitemapの存在を通知できるようになりました。
robots.txtのファイルの中身
Sitemap: http://www.example.com/sitemap.xml
SEOウェブネット
埼玉県入間市鍵山3-12-3TEL:04-2937-4114
FAX:04-2937-4118