検索エンジンにIndexされないとユーザーにも見て頂けない為、GooglebotからのアクセスはSEOを考慮されている企業やサービスにとって重要なアクセスになります。但し、中には AgentをGooglebotとして偽装してアクセスしてくるサービスもありサーバー負荷も無視出来ないケースがあり、必要に応じて止めてしまう必要もあるかと思います。偽装かどうか判断に関しては、以下のオフィシャルドキュメントを参照ください。
参照: https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot?hl=ja
STEP1: IPアドレスの洗い出し
前提条件として、負荷の高いアクセスがGooglebotで有る事を確認済みとします
[root@ubuntu: nginx]# cat access.log | grep -i "Googlebot" | awk '{print $3}' | cut -c 6-25 | sort | uniq -c | sort -nr | head -30
1891 66.249.79.94
1855 66.249.79.66
1755 66.249.79.72
1734 66.249.79.69
1494 66.249.79.95
1488 66.249.79.75
1438 66.249.79.93
1398 66.249.79.64
1294 66.249.79.78
1284 66.249.79.67
1080 66.249.79.70
1015 66.249.79.73
972 66.249.79.81
875 66.249.79.82
867 66.249.79.76
825 66.249.79.79
779 66.249.79.84
701 66.249.79.83
658 66.249.79.85
638 66.249.79.86
568 66.249.79.88
559 66.249.79.87
510 66.249.79.89
476 66.249.79.90
426 66.249.79.91
410 66.249.79.92
10 66.249.79.46
10 66.249.79.39
9 66.249.79.33
9 160.16.61.180
[root@ubuntu: nginx]#
STEP2: 洗い出した、IPをテキストに落としてリストアップ
※ 勿論、AWKで特定IPのみを直接ログから抽出して|でつないで解析しても問題無いですが負荷を一応考慮という事で一旦ファイルに落としています。
root@ubuntu:~/tmp# cat check_google_bot.txt
66.249.79.94
66.249.79.66
66.249.79.72
66.249.79.69
66.249.79.95
66.249.79.75
66.249.79.93
66.249.79.64
66.249.79.78
66.249.79.67
66.249.79.70
66.249.79.73
66.249.79.81
66.249.79.82
66.249.79.76
66.249.79.79
66.249.79.84
66.249.79.83
66.249.79.85
66.249.79.86
66.249.79.88
66.249.79.87
66.249.79.89
66.249.79.90
66.249.79.91
66.249.79.92
66.249.79.46
66.249.79.39
66.249.79.33
160.16.61.180
STEP3: hostコマンドでIPを逆引き
全てgooglebot.comからのアクセスであればIPを拒否しないでそのまま静観(それ以外はWHOISで確認後にIPを拒否でも良いかと)
root@ubuntu:~/tmp# for i in `cat check_google_bot.txt`; do host $i ; echo;done
94.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-94.googlebot.com.
66.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-66.googlebot.com.
72.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-72.googlebot.com.
69.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-69.googlebot.com.
95.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-95.googlebot.com.
75.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-75.googlebot.com.
93.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-93.googlebot.com.
64.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-64.googlebot.com.
78.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-78.googlebot.com.
67.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-67.googlebot.com.
70.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-70.googlebot.com.
73.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-73.googlebot.com.
81.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-81.googlebot.com.
82.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-82.googlebot.com.
76.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-76.googlebot.com.
79.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-79.googlebot.com.
84.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-84.googlebot.com.
83.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-83.googlebot.com.
85.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-85.googlebot.com.
86.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-86.googlebot.com.
88.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-88.googlebot.com.
87.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-87.googlebot.com.
89.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-89.googlebot.com.
90.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-90.googlebot.com.
91.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-91.googlebot.com.
92.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-92.googlebot.com.
46.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-46.googlebot.com.
39.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-39.googlebot.com.
33.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-33.googlebot.com.
root@ubuntu:~/tmp#
※ IPを停止した場合は、Googleサーチコンソールでステータスを念の為に確認しておいた方が安心。
Crawler’s IP address to the list of Googlebot IP addresses.
For all other Google crawlers, match the crawler’s IP address against the complete list of Google IP addresses
参照:GooglebotのIPアドレス一覧をGoogleが公開