モバイルSEOのベストプラクティス~クローラのアクセス状況を把握する
既に様々な場所で言われていることだが、モバイルSEOを行ううえで、まず重要なのはクローラがアクセスできる環境を整えることにある。
モバイルの場合、PCとは異なり、キャリアや機種によるコンテンツの振り分け、アクセスの制御などが必要になるため、それらの設定次第では、検索エンジンのクローラがサイトにアクセスできず、検索結果にも表示されないという結果に陥りやすくなるという特徴がある。
特にキャリア公式検索エンジンの場合、クローラの情報収集を妨げる要因が細かく存在しているため、クローラが正常にサイトにアクセスできているかどうかという点に関しては、より一層の注意を払う必要があると考えられる。
その際、有効な手段の1つとして考えられるのが、アクセスログによるクローラアクセス状況の把握である。サイトへのアクセス状況が記録されたアクセスログから、アクセスしているクローラの種類やアクセス頻度、アクセス先のURLを知ることができるため、モバイルSEOの導入段階で、サイトの状況を調査する上では非常に有用であると考えられる。以前「モバイル SEO ベストプラクティス」※と題し検索エンジンの仕様について紹介したが、今回は、クローラアクセス状況の調査について、改めてまとめてみたい。
※(http://japan.internet.com/column/allnet/20090914/8.html)
■ 調査手順と留意点について
実際にクローラのアクセス状況を調査する場合は、それぞれ、以下の点に留意しつつ進める必要がある。
1.アクセスログの準備
調査にあたり、当然ながら、対象となるサイトのWebサーバーのアクセスログを準備する必要がある。キャリアによってドメインを振り分けているような場合であれば、全てのドメインについてのログが必要である。ログの期間については、対象となるWebサイトの規模にもよるもが、最低でも2週間以上の範囲を調査対象とすべきである。それよりも短い期間になると、一定期間ごとに集中的にアクセスを行うEZwebなどのクローラ情報が調査範囲から漏れてしまい、クローラのアクセス状況を正しく把握することが困難になるためである。
2.クローラごとのアクセスログの抽出
次に、用意したアクセスログに記録されているUser-Agent情報に基づいて、クローラに関するログデータのみを抽出し、クローラの種類によって分類を行う。具体的には、User-Agent情報に以下の文字列を含むものをそれぞれ抽出し、分類する。
<主要なモバイル検索サービスとクローラを表す文字列>
・docomo(iメニュー公式検索サービス):「i-robot」
・au(EZweb公式検索サービス):「KDDI-Googlebot-Mobile」
・SoftBank(Yahoo!ケータイ):「SNVSE00000001」
・Googleモバイル:「Googlebot-Mobile」
・Yahoo!モバイル:「Y!J-SRD」「Y!J-MBS」
3.問題箇所の特定
最後に、抽出したクローラごとのアクセスログについて、アクセス状況について問題がないかどうか、具体的に調査を行っていく。まず、確認すべき主要なポイントは下記の点である。
・アクセス頻度
クローラのアクセスが1日にどの程度あるか、また、何日おきにアクセスが行われているかを確認する必要がある。1日のクローラのアクセス数が非常に少ない場合には、クローラのアクセスに対して何らかの問題が発生している可能性が高いと考えられるが、一方で、前述のEZwebのような集中クロール型のクローラも存在しているため、期間中、何日おきにアクセスが行われているかという点についても確認しておくべきであろう。
ちなみに、EZweb検索サービスのクローラの場合は、2週間程度の期間をあけて集中クロールを行うため、1週間程度アクセスが0だったとしても、即座に問題があると判断することはできない。
・アクセス先URL
クローラがアクセスを行っているURLについても、確認が必要である。例えば、1日に数回クローラのアクセスがある場合でも、アクセス先が「/robots.txt」のみになっているような場合には、クローラは実際にはサイト内を巡回していないと判断することができる。この場合、クローラのアクセスを制御するrobots.txt(※1)ファイルの記述によって、当該クローラのアクセスが遮断されている可能性が高いと考えられる。
・ステータスコード
アクセス先URLと合わせて、サーバーから返しているステータスコード(※2)も確認する必要がある。サーバーの設定によって、クローラに対してのみ、アクセス先のURLが存在しないことを表すステータスコード404やその他のエラーが返されていないかどうか、また、ステータスコード301や302によって予定外のURLへのリダイレクトが行われていないかなどについて確認を行う。
冒頭で述べた通り、クローラアクセス状況の調査は、とくにキャリア公式サイトの問題点を特定するために有効な手法である。実際、企業のWebサイトを調査してみると、robots.txtの設定が微妙に異なるためにサイト全体が検索エンジンに表示されないということもある。設定をきちんとしているつもりでも、発見しにくいバグやエラーが発生する場合もあるので客観的に問題点を発見するためにも、定期的にアクセス状況を調査する必要があるだろう。
※ 1 クローラーの動きを制御するためのテキストファイル。クロールから除外するURLなどを記述する。
※ 2 HTTPにおいて、Webサーバーのレスポンスの意味を表す3桁の数字。例えば、ブラウザでWebページを表示するような場合に、ブラウザとWebサーバーとの間のやりとりの状況を表すために利用される。
投稿者 aun : 2009年12月14日











