гугл выдает 1000 страниц

Discussion in 'SЕО - тонкости, методы раскрутки' started by ErrorNeo, 16 Feb 2010.

  1. ErrorNeo

    ErrorNeo Elder - Старейшина

    Joined:
    2 May 2009
    Messages:
    923
    Likes Received:
    836
    Reputations:
    402
    сабж, как обойти ограничение и получить остальные стопицот милионов? (желательно не являющиеся дублями тех 1000, что уже есть)

    <тьфу, соре. перенесите в прикрепленную тему, если это требуется.> плз.

    ps.
    в гугле легко-находимого ответа нет, потому можно оставить и как отдельную тему. он будет ей рад :lol: :lol:
     
    #1 ErrorNeo, 16 Feb 2010
    Last edited: 16 Feb 2010
  2. Pir4tt

    Pir4tt Elder - Старейшина

    Joined:
    3 Jan 2008
    Messages:
    73
    Likes Received:
    36
    Reputations:
    5
    Обойти ограничение в 1000 страниц никак, но можно поюзать то что гугл сам же и предоставляет для обхода самого себя B)

    Для начала оффициальный FAQ:
    _http://code.google.com/intl/ru/apis/soapsearch/reference.html

    А теперь кратенько что мы можем поюзать в своих целях:)

    Самое банальное - парсить с заданием доменной принадлежности, либо языка:
    ЗАПРОС site:com
    ЗАПРОС site:net
    ЗАПРОС site и т.д.


    В тоже время такая конструкция:
    ЗАПРОС site:*com
    Даст нам com'овские сайтики без дефисов в имени домена ;)
    А такая:
    ЗАПРОС site:com -site:*com
    Наоборот с дефисами))

    А так:
    site:com/*
    site:com/*/*

    Можно поиграть с количеством директорий, присутствующих в адресе

    Так же мы можем разделить выдачу по субдоменам на www.domain.any и domain.any:
    ЗАПРОС inurl:"www."
    ЗАПРОС -inurl:"www."


    Так же можно варировать выдачу поставляя различные комбинации в inurl:
    ЗАПРОС inurl:"any"

    Но следует помнить что гугля, ограничивает выдачу с использованием этого оператора (да-да :)).
    На это всегда можно смекнуть и сделать запросы примерные этим:
    -intext:"any"
    -intitle:"any"


    Не менее интересен оператор daterange, при помощи которого мы спарсим выдачу по дате (диапозон по Юлианскому календарю):
    daterange:2454000-2454000

    Остальные хитрости можно легко придумать почитав хелп гугля данный выше ;)
     
    3 people like this.
  3. ErrorNeo

    ErrorNeo Elder - Старейшина

    Joined:
    2 May 2009
    Messages:
    923
    Likes Received:
    836
    Reputations:
    402
    благодарю!
    отличный ответ, буду пробовать.
    Думаю вариант с датами мне подойдет для того, чтобы спарсить столько сотен тысяч, сколько потребуется :)
     
    1 person likes this.
  4. diehard

    diehard Elder - Старейшина

    Joined:
    30 Sep 2007
    Messages:
    442
    Likes Received:
    266
    Reputations:
    15
    use additional words:

    inurl:"bug.php" apple
    inurl:"bug.php" ololo
    inurl:"bug.php" ebaka
    inurl:"bug.php" green
    etc...
     
  5. daniel_1024

    daniel_1024 Elder - Старейшина

    Joined:
    15 Jul 2009
    Messages:
    260
    Likes Received:
    227
    Reputations:
    386
    ErrorNeo если тебе для парсинга гулга скачай aggress parser, он как раз весь этот процесс автоматизирует + вручную настраивать можно