Google индексирует файлы со списком того, что нельзя индексировать

Discussion in 'Мировые новости. Обсуждения.' started by Suicide, 13 Dec 2012.

  1. Suicide

    Suicide Super Moderator
    Staff Member

    Joined:
    24 Apr 2009
    Messages:
    2,373
    Likes Received:
    6,619
    Reputations:
    693
    Google индексирует файлы со списком того, что нельзя индексировать


    В списке рассылки Seclists Full Disclosure развернулась любопытная дискуссия о том, считать ли уязвимостью специфичное поведение поисковой системы Google. Дело в том, что поисковый бот индексирует файлы со списком директорий, которые запрещено индексировать. Речь идёт о файлах robots.txt, в которых веб-мастера часто указывают список таких директорий. Это могут быть админские интерфейсы (/admin) или другие системы, не предназначенные для всеобщего доступа (/backup, /password и проч.).

    Эта информация представляет некоторую ценность для нападающего, потому что даёт ему возможность быстро найти места хранения секретной информации. За примерами далеко ходить не надо:

    http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fadmin
    http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fbackup
    http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fpassword

    Подобные поисковые запросы злоумышленник может использовать для поиска жертв.

    http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+wp-admin
    http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+typo3

    Список можно продолжать.

    Естественно, веб-мастера могут защититься от таких атак. Первым приходит вариант запретить индексирование robots.txt в самом файле robots.txt, но такой вариант с Google не пройдёт. Но есть другой способ: просто не указывать такие папки в файле robots.txt, а вместо этого проверять идентификатор посетителя и запрещать доступ роботов по этому адресу, выдавая на попытку доступа ошибку 404, или закрыть папки через htaccess, так что робот получит ошибку 401. Но всё это не отменяет вопроса: зачем вообще Google индексирует служебные файлы robots.txt и включает их в поисковую выдачу?

    Ситуация в каком-то смысле парадоксальная. Можно составить примерно такой диалог:

    Злоумышленник: Google, можешь показать сайты с открытыми директориями /wp-admin/?
    Google: Нет, я не знаю таких директорий, мне запрещено их индексировать.
    Злоумышленник: Хорошо, тогда можешь дать список хостов, где есть robots.txt с инструкцией на запрет индексировать /wp-admin/?
    Google: Конечно, вот пожалуйста.

    12.12.2012
    http://www.xakep.ru/post/59801/​
     
  2. Adio

    Adio Elder - Старейшина

    Joined:
    23 May 2005
    Messages:
    1,646
    Likes Received:
    147
    Reputations:
    18
    Епта новость открыли это еще в далеком 2000 году один америкос примеры приводил поиска -мостей )
     
  3. kastin

    kastin Elder - Старейшина

    Joined:
    6 Jul 2009
    Messages:
    528
    Likes Received:
    53
    Reputations:
    35
    Это не косяк поисковых систем, а аминов ресурсов.
     
  4. altblitz

    altblitz Elder - Старейшина

    Joined:
    5 Jun 2009
    Messages:
    3,697
    Likes Received:
    3,139
    Reputations:
    236
    история имеет себя повторять - браузер-хакинг, из адресной строки ))
    ностальгия, дела давно минувших дней ..

    [​IMG]
     
    #4 altblitz, 13 Dec 2012
    Last edited: 13 Dec 2012