robots.txtとは？検索エンジンへの指示方法

「robots.txt」って言葉、Webサイトの運営をしていると一度は耳にしますよね。でも実際のところ、「何となく検索エンジン関連のファイルなんだろうな」くらいの理解で止まってしまっている方も多いんじゃないでしょうか。実は私も株式会社ミアキスを立ち上げた当初は、その程度の認識でした。

先日も戸田市内の製造業の企業様から「robots.txtって必要なんですか？」というご相談をいただいたんですが、これが意外と奥深い話になったんです。今回は、そんな経験も交えながら、robots.txtについて分かりやすく解説していきたいと思います。

robots.txtとは何なのか？基本を押さえよう

robots.txtは、簡単に言うとWebサイトの「立入禁止看板」のような役割を果たすファイルです。検索エンジンのクローラー（ロボット）に対して、「このページは見ないでください」「この部分は検索結果に表示しないでください」といった指示を出すことができるんです。

このファイルは、必ずサイトのルートディレクトリに「robots.txt」という名前で配置します。例えば「https://example.com/robots.txt」といった感じですね。検索エンジンのクローラーは、サイトを巡回する前に必ずこのファイルをチェックして、指示に従って行動します。

弊社での経験では、約60%のクライアント様がrobots.txtを正しく設定できていない状況でした。特に埼玉県内の中小企業様の場合、Web制作会社に丸投げしたまま、その後のメンテナンスが行き届いていないケースが目立ちます。

robots.txtの書き方と実際の設定方法

実際にrobots.txtを書いてみましょう。基本的な記述は非常にシンプルです。

最も基本的な形は以下のような感じになります：

User-agent: どの検索エンジンに対する指示なのかを指定
Disallow: アクセスを禁止するページやディレクトリを指定
Allow: アクセスを許可するページを明示的に指定
Sitemap: XMLサイトマップの場所を教える

例えば、管理画面やプライベートなファイルへのアクセスを制限したい場合は、「Disallow: /admin/」や「Disallow: /private/」といった記述をします。逆に、一般的にすべてのページを検索エンジンに見てもらいたい場合は「Disallow:」と空欄にするだけでOKです。

先ほどの戸田市の製造業企業様の場合、社内向けの技術資料が検索結果に出てしまうことを懸念されていました。そこで「Disallow: /internal/」という指示を追加して、社内限定コンテンツを検索エンジンから隠すことにしたんです。

よく使われる設定パターン

実務でよく使う設定パターンをいくつかご紹介しますね。全検索エンジンに対してすべてのページを許可する場合、管理画面のみを制限する場合、特定の検索エンジンのみを対象にする場合など、目的に応じて使い分けます。

重要なのは、robots.txtは「お願い」であって「強制」ではないということです。大手検索エンジンは基本的に指示に従ってくれますが、悪意のあるボットなどは無視する可能性もあります。

検索エンジンへの正しい指示の出し方

robots.txtで指示を出すときに気をつけたいのが、記述の優先順位です。より具体的な指示が、より一般的な指示よりも優先されるんです。

例えば、ブログ全体は制限したいけれど、特定の重要な記事だけは検索結果に出したい場合があります。こんなとき「Disallow: /blog/」の後に「Allow: /blog/important-post/」と書けば、その特定記事だけは検索エンジンに見てもらえます。

また、ワイルドカード（*）を使うことで、より柔軟な指定も可能です。「Disallow: *.pdf」とすれば、すべてのPDFファイルを検索対象から除外できますし、「Disallow: /*?」とすれば、パラメータ付きのURLを除外することもできます。

弊社でサービスの詳細をご提供する際、クライアント様の業種や目的に応じて最適な設定をご提案しています。ECサイトの場合は在庫切れページや管理画面、コーポレートサイトの場合は採用応募フォームの完了画面など、それぞれ除外すべきページが異なりますからね。

実際の運用で気をつけるべきポイント

robots.txtを設置しただけで満足してはいけません。定期的なメンテナンスが必要なんです。

サイトリニューアルやページ構造の変更があったとき、robots.txtの見直しを忘れがちです。例えば、以前は非公開だった採用情報を公開することになったのに、robots.txtで「Disallow: /recruit/」のままにしていると、せっかくの採用ページが検索結果に出なくなってしまいます。

また、robots.txtは誰でも見ることができるファイルです。つまり、どのディレクトリを隠しているかが丸わかりになってしまうんです。セキュリティ上、本当に見られたくないコンテンツは、robots.txtではなく、サーバー側でアクセス制限をかける方が安全です。

よくある間違いと対処法

埼玉県内の企業様のサイトを見ていると、よく見かける間違いがあります。スペルミス（「Dissallow」など）、パスの記述ミス、文字エンコードの問題などです。

特に注意したいのが、robots.txtの文字エンコードです。UTF-8で保存しないと、日本語を含むパスが正しく認識されない場合があります。また、改行コードもLFにしておく方が安全ですね。

弊社では、robots.txtの設定後に必ずGoogle Search Consoleの「robots.txt テスター」で動作確認を行います。これにより、意図した通りに動作しているかをすぐに確認できるんです。

robots.txt以外の検索エンジン制御方法

robots.txtだけがクローラー制御の方法ではありません。より細かな制御が必要な場合は、他の手段も併用します。

HTMLのmetaタグで「noindex」や「nofollow」を指定する方法もあります。特定のページのみを検索対象から外したい場合や、リンクを辿らせたくない場合に有効です。また、HTTPヘッダーでの指定も可能で、PDFファイルや画像ファイルなど、HTMLではないコンテンツの制御に使えます。

Search Consoleの「URL検査」機能を使えば、robots.txtの設定が実際にどのように解釈されているかを確認できます。料金プランに含まれる保守運用サービスでは、これらのツールを使った定期的なチェックも行っているんです。

Q: robots.txtで制限したページが、まだ検索結果に表示されてしまうのですが？
A: これはよくあるご相談ですね。robots.txtは新しいクロールを制限するものですが、すでにインデックスされているページをすぐに削除するものではありません。完全に検索結果から消えるまでには数週間から数ヶ月かかる場合があります。急ぎの場合は、Google Search Consoleの「削除」機能を使って、一時的に検索結果から隠すこともできますよ。

robots.txtは、一見すると単純なファイルですが、実はWebサイトのSEO戦略において重要な役割を果たします。適切に設定することで、検索エンジンに効率的にサイトを巡回してもらえますし、逆に設定を間違えると、重要なページが検索結果から消えてしまう可能性もあります。

特に戸田市周辺の中小企業様の場合、限られたリソースの中で最大の効果を得るためにも、robots.txtの正しい運用は欠かせません。もし設定に不安がある場合は、お問い合わせいただければ、現状の診断から最適な設定まで、トータルでサポートさせていただきます。