検索エンジンのロボットに対する命令を記述するrobots.txtについてのメモ
この記事の所要時間:約2分6秒
毎朝早朝に送られてくるlogwatchからのメールを見ると、httpdの項目のところに検出されたエラーが出てくる。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 |
--------------------- httpd Begin ------------------------ 265.64 MB transferred in 13429 responses (1xx 0, 2xx 9901, 3xx 1525, 4xx 2002, 5xx 1) 2562 Images (192.65 MB), 7043 Content pages (55.20 MB), 8 Redirects (0.00 MB), 12 Fonts (0.21 MB), 3804 Other (17.58 MB) Requests with error response codes 401 Unauthorized /owncloud/remote.php/webdav/******: 937 Time(s) /owncloud/remote.php/webdav/*******: 937 Time(s) 403 Forbidden /blog/wp-comments-post.php: 2 Time(s) 404 Not Found /$1: 1 Time(s) /apple-touch-icon-114x114-precomposed.png: 2 Time(s) /apple-touch-icon-114x114.png: 3 Time(s) /apple-touch-icon-precomposed.png: 6 Time(s) /apple-touch-icon.png: 6 Time(s) /blog/feed/: 42 Time(s) /blog/wp-admin/wassup/img/bg_wrap.png: 2 Time(s) /epgrec/LICENSE.txt: 1 Time(s) /robots.txt: 62 Time(s) /wp-login.php?action=register: 1 Time(s) 500 Internal Server Error /blog/wp-cron.php?doing_wp_cron=1376015100 ... 582977294921875: 1 Time(s) A total of 6 ROBOTS were logged Y!J-BRJ/YATS crawler (http://help.yahoo.co.jp/help/jp/search/indexing/indexing-15.html) 1 Time(s) msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) 51 Time(s) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 12 Time(s) msnbot/2.0b (+http://search.msn.com/msnbot.htm) 3 Time(s) Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 22 Time(s) Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php) 2 Time(s) ---------------------- httpd End ------------------------- |
まあいろいろとエラーが記録されているが、404 Not Foundのなかでrobots.txtに対するアクセスが目立つ。少し調べてみた。
robots.txtは検索エンジンのロボット(クローラ)に対する命令を記述するファイル。GoogleやMozzilaのロボットがログインしているが、こいつらの動作をかるく指定できる。具体的には、検索データベースに登録してほしくないディレクトリを指定できたりする。実際にロボットがその通りの動作をしてくれるかは保証されないので注意。
例えば、以下のように書くと、Googleのbotにsecretディレクトリ以下を検索させないように命令できるようだ。また、sitemapでサイトマップも指定できる。
1 2 |
User-agent: Googlebot Disallow: /secret/ |
今回はFC2サイトマップで適当にドキュメントルートからサイトマップのxmlファイルを作成して設置し、それをrobots.txtに記述してドキュメントルートに設置することにした。
1 2 |
User-agent: * sitemap: http://example.com/sitemap.xml |
まあ今回の目的は404 Not Foundのログをなくすことなので、こんなもんでよいでしょう。サイトマップもSEO対策としては不可欠らしいけど、とりあえずお試しで設置したということで。
オライリージャパン
売り上げランキング: 198,715
関連記事
-
-
ApacheでSSLを有効に(mod_ssl)
動機は、ownCloudをインストールしたこと。自分しか使わないとはいえブラウザでアクセスできるオン
-
-
Apacheの起動が失敗する
ブログの重さが改善されるかと思いapacheのKeepAliveをonにして、restart。 し
-
-
NVR500にプロバイダの固定IPサービスを設定する手順
ついに私も、固定IPサービスを使うことにしました。ルータへの設定で若干詰まったのでメモ。自鯖
-
-
auのiPhoneから自宅のNVR500にVPN接続は簡単にはできないっぽい
NVR500のVPN設定にめげるチンパンジー[/caption] ここ1週間ぐらい、手持ちの
-
-
情報収集はとりあえずFeedlyとGunosyでいいと思った。あと新聞。
新聞の配信 / HIRAOKA,Yasunobu Googleリーダーが終了したり就活につ
-
-
Cent OSサーバを起動するたびにいろいろとプロセスがクラッシュする問題
いつからか、Cent OSサーバを再起動するたびに件名が" full clash repor
-
-
Safariでキーボードのみのブラウジングを実現するショートカットたち
iMacのキーボード / salchu ある程度パソコンを触っていた期間が長い人なら、誰で
-
-
三日間のWebアプリのハッカソンに参加してきた
MacBook 2GHz / tkramer 3日間でウェブサービスを作る、学生向けの3日
-
-
メールでログを届けてくれるlogwatchをインストール
logwatchとは/var/logの内容を1日に一回メールで送ってくれるもの。 これがなかなかけ
-
-
rsyncで毎日自動差分バックアップを構成
毎日の明け方に、外付けHDDにrsyncバックアップをするようにした。rsyncを実行するシェルスク