Google индексирует файлы со списком того, что нельзя индексировать В списке рассылки Seclists Full Disclosure развернулась любопытная дискуссия о том, считать ли уязвимостью специфичное поведение поисковой системы Google. Дело в том, что поисковый бот индексирует файлы со списком директорий, которые запрещено индексировать. Речь идёт о файлах robots.txt, в которых веб-мастера часто указывают список таких директорий. Это могут быть админские интерфейсы (/admin) или другие системы, не предназначенные для всеобщего доступа (/backup, /password и проч.). Эта информация представляет некоторую ценность для нападающего, потому что даёт ему возможность быстро найти места хранения секретной информации. За примерами далеко ходить не надо: http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fadmin http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fbackup http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fpassword Подобные поисковые запросы злоумышленник может использовать для поиска жертв. http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+wp-admin http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+typo3 Список можно продолжать. Естественно, веб-мастера могут защититься от таких атак. Первым приходит вариант запретить индексирование robots.txt в самом файле robots.txt, но такой вариант с Google не пройдёт. Но есть другой способ: просто не указывать такие папки в файле robots.txt, а вместо этого проверять идентификатор посетителя и запрещать доступ роботов по этому адресу, выдавая на попытку доступа ошибку 404, или закрыть папки через htaccess, так что робот получит ошибку 401. Но всё это не отменяет вопроса: зачем вообще Google индексирует служебные файлы robots.txt и включает их в поисковую выдачу? Ситуация в каком-то смысле парадоксальная. Можно составить примерно такой диалог: Злоумышленник: Google, можешь показать сайты с открытыми директориями /wp-admin/? Google: Нет, я не знаю таких директорий, мне запрещено их индексировать. Злоумышленник: Хорошо, тогда можешь дать список хостов, где есть robots.txt с инструкцией на запрет индексировать /wp-admin/? Google: Конечно, вот пожалуйста. 12.12.2012 http://www.xakep.ru/post/59801/
история имеет себя повторять - браузер-хакинг, из адресной строки )) ностальгия, дела давно минувших дней ..