Googlebot偽装したアクセスの確認

Googlebot

検索エンジンにIndexされないとユーザーにも見て頂けない為、GooglebotからのアクセスはSEOを考慮されている企業やサービスにとって重要なアクセスになります。但し、中には AgentをGooglebotとして偽装してアクセスしてくるサービスもありサーバー負荷も無視出来ないケースがあり、必要に応じて止めてしまう必要もあるかと思います。偽装かどうか判断に関しては、以下のオフィシャルドキュメントを参照ください。

参照: https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot?hl=ja

STEP1: IPアドレスの洗い出し

前提条件として、負荷の高いアクセスがGooglebotで有る事を確認済みとします

[root@ubuntu: nginx]# cat access.log | grep -i "Googlebot" | awk '{print $3}' | cut -c 6-25  |  sort | uniq -c  | sort -nr | head -30
   1891	 66.249.79.94
   1855	 66.249.79.66
   1755	 66.249.79.72
   1734	 66.249.79.69
   1494	 66.249.79.95
   1488	 66.249.79.75
   1438	 66.249.79.93
   1398	 66.249.79.64
   1294	 66.249.79.78
   1284	 66.249.79.67
   1080	 66.249.79.70
   1015	 66.249.79.73
    972	 66.249.79.81
    875	 66.249.79.82
    867	 66.249.79.76
    825	 66.249.79.79
    779	 66.249.79.84
    701	 66.249.79.83
    658	 66.249.79.85
    638	 66.249.79.86
    568	 66.249.79.88
    559	 66.249.79.87
    510	 66.249.79.89
    476	 66.249.79.90
    426	 66.249.79.91
    410	 66.249.79.92
     10	 66.249.79.46
     10	 66.249.79.39
      9	 66.249.79.33
      9	 160.16.61.180
[root@ubuntu: nginx]# 

STEP2: 洗い出した、IPをテキストに落としてリストアップ

※ 勿論、AWKで特定IPのみを直接ログから抽出して|でつないで解析しても問題無いですが負荷を一応考慮という事で一旦ファイルに落としています。

root@ubuntu:~/tmp# cat check_google_bot.txt
 66.249.79.94
 66.249.79.66
 66.249.79.72
 66.249.79.69
 66.249.79.95
 66.249.79.75
 66.249.79.93
 66.249.79.64
 66.249.79.78
 66.249.79.67
 66.249.79.70
 66.249.79.73
 66.249.79.81
 66.249.79.82
 66.249.79.76
 66.249.79.79
 66.249.79.84
 66.249.79.83
 66.249.79.85
 66.249.79.86
 66.249.79.88
 66.249.79.87
 66.249.79.89
 66.249.79.90
 66.249.79.91
 66.249.79.92
 66.249.79.46
 66.249.79.39
 66.249.79.33
 160.16.61.180

STEP3: hostコマンドでIPを逆引き

全てgooglebot.comからのアクセスであればIPを拒否しないでそのまま静観(それ以外はWHOISで確認後にIPを拒否でも良いかと)

root@ubuntu:~/tmp# for i in `cat check_google_bot.txt`; do host $i ; echo;done
94.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-94.googlebot.com.
66.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-66.googlebot.com.
72.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-72.googlebot.com.
69.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-69.googlebot.com.
95.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-95.googlebot.com.
75.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-75.googlebot.com.
93.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-93.googlebot.com.
64.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-64.googlebot.com.
78.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-78.googlebot.com.
67.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-67.googlebot.com.
70.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-70.googlebot.com.
73.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-73.googlebot.com.
81.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-81.googlebot.com.
82.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-82.googlebot.com.
76.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-76.googlebot.com.
79.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-79.googlebot.com.
84.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-84.googlebot.com.
83.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-83.googlebot.com.
85.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-85.googlebot.com.
86.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-86.googlebot.com.
88.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-88.googlebot.com.
87.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-87.googlebot.com.
89.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-89.googlebot.com.
90.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-90.googlebot.com.
91.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-91.googlebot.com.
92.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-92.googlebot.com.
46.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-46.googlebot.com.
39.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-39.googlebot.com.
33.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-33.googlebot.com.
root@ubuntu:~/tmp#

※ IPを停止した場合は、Googleサーチコンソールでステータスを念の為に確認しておいた方が安心。

Crawler’s IP address to the list of Googlebot IP addresses.

For all other Google crawlers, match the crawler’s IP address against the complete list of Google IP addresses

参照:GooglebotのIPアドレス一覧をGoogleが公開

 

カテゴリー:

タグ:

最近のコメント

表示できるコメントはありません。