ブログなどでrobots.txtを設置すると、Googleなどの検索エンジンがアクセスするファイルを制限できます。SEO関連書籍でもrobots.txtの設置を薦めているので少しは効果があるかもしれません。
ゆめぴょんです。こんちはっ(^^)/
最近、Googleウェブマスターツールを確認すると、表に出したくないURLまでクロールされていることに気づきました。この状況を回避するために「robots.txt」を設定することにしました。
「robots.txt」の役割と設置する理由
Googleなどの検索エンジンは、クローラーと呼ばれるしくみでブログやサイトの中の全ページをチェックしています。そのクローラーが一番最初にアクセスするファイルがrobots.txtです。
ブログやサイトには検索エンジンにインデックス(掲載)したくない記事や、読者に読んでもらうほど重要ではないページもあると思います。またシステム上だけ必要なファイルなどもあります。
「robots.txt」の役割は、アクセスしてほしくないファイルやフォルダを、Googleなどの検索エンジンに伝えることです。
管理系のファイルや、コンテンツとして価値の低いページなどを検索エンジンに見せないようにすることも、SEO対策になるようです。カテゴリーページなどを拒否して重複コンテツ対策を行う場合にも使えます。
またシステム管理系のファイルを検索エンジンに認識させないことは、多少なりともセキュリティ対策になると思います。
「robots.txt」の作成・記述方法と設置
作成・記述方法
はじめてrobots.txtを設置する場合は、テキストエディターなどで作成してください。既に作成している場合は、そのファイルを修正すればいいでしょう。
[html]
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /comments
Disallow: */comments
Disallow: /category/*/*
Allow: /wp-content/uploads
[/html]
まず「User-agent: *」で全ての検索エンジンのクローラーを対象にすることを宣言します。そしてそれ以降の「Disallow:」の後にアクセス拒否、「Allow:」の後に許可するフォルダを記述します。
上の例はWordPressで構築したブログの場合です。まずWordPressは管理系フォルダ・ファイルが多いため、最初に指定してアクセス拒否しています。トラックバック、コメントフォルダも不要です。
11行目はカテゴリーページへのアクセスを拒否しています。私はカテゴリーページへのアクセスを許可したいため、この11行目は削除しています。タグやアーカイブページも拒否する場合は追記してください。
12行目はブログで使用している画像・写真が入っているフォルダへのアクセスを許可しています。
[html]
Disallow: /*?*
Disallow: /*?
[/html]
私のブログはURLに「?」のつく記事やページはないので、全てアクセス拒否しておきます。ちなみに「*」はワイルドカードと呼ばれていて「全ての単語」という意味です。
[html]
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml
[/html]
上の記述により拡張子が「php」「js」「css」…「xhtml」のファイルは全てアクセス拒否しました。
[html]
Sitemap: http://●●●.com/sitemap.xml.gz
Sitemap: http://●●●.com/sitemap.xml
[/html]
上の記述により、サイトマップの場所を検索エンジンに伝えることができます。「●●●.com」の部分は自分のブログ・サイトのURLに変更してください。
[html]
User-agent: Googlebot-Image
Allow: /*
User-agent: Mediapartners-Google*
Allow: /*
[/html]
Google imageとGoogle AdSenseのクローラーボット(bot)には、全てのファイルアクセスを許可した方がいいようです。
以上は私のWordPressブログ用に設置したものです。各自の環境に合わせて修正してください。そして「robots.txt」として保存してください。「s」を忘れずに。
設置場所
必ず「ルート」すなわちサイトURLが「http://wispyon.com」なら「http://wispyon.com/robots.txt」になるように設置してください。
Googleウェブマスターツールで設置を確認
設置場所を間違える場合があります。念のためGoogleウェブマスターツールを使って、設置ができたかを確認した方がいいでしょう。設置後すこし時間がかかる場合もあります。
ウェブマスターツールにアクセスしてから「クロール」→「ブロックされたURL」で、「robots.txt」が表示されステータスが成功になっていれば問題ありません。
その下の方でサイトマップが検出されているかどうかも確認できます。ウェブマスターツールについては下の記事も読んでみてください。
まとめ:今日のゆめぴょんの知恵
まだSEOを知らない時には、余計なURLもどんどんGoogleに登録されればインデックス数も稼げるかなと思っていました。しかしGoogleは「質」にこだわるため、質の低いページはマイナスになります。
また管理系のファイルが検索結果に出てしまうとセキュリティ上も大きな問題になります。ブログやサイトの運営が軌道に乗る前に「robots.txt」を設置することをおすすめします。
なお今回の記事内容は次のブログも参考にさせていただきました。興味ある方は読んでみてください。
⇒WordPressで作ったサイトを最適化するためのrobots.txt | コリス
ゆめぴょんでした。ちゃおっ!