сабж, как обойти ограничение и получить остальные стопицот милионов? (желательно не являющиеся дублями тех 1000, что уже есть) <тьфу, соре. перенесите в прикрепленную тему, если это требуется.> плз. ps. в гугле легко-находимого ответа нет, потому можно оставить и как отдельную тему. он будет ей рад :lol: :lol:
Обойти ограничение в 1000 страниц никак, но можно поюзать то что гугл сам же и предоставляет для обхода самого себя B) Для начала оффициальный FAQ: _http://code.google.com/intl/ru/apis/soapsearch/reference.html А теперь кратенько что мы можем поюзать в своих целях Самое банальное - парсить с заданием доменной принадлежности, либо языка: ЗАПРОС site:com ЗАПРОС site:net ЗАПРОС site и т.д. В тоже время такая конструкция: ЗАПРОС site:*com Даст нам com'овские сайтики без дефисов в имени домена А такая: ЗАПРОС site:com -site:*com Наоборот с дефисами)) А так: site:com/* site:com/*/* Можно поиграть с количеством директорий, присутствующих в адресе Так же мы можем разделить выдачу по субдоменам на www.domain.any и domain.any: ЗАПРОС inurl:"www." ЗАПРОС -inurl:"www." Так же можно варировать выдачу поставляя различные комбинации в inurl: ЗАПРОС inurl:"any" Но следует помнить что гугля, ограничивает выдачу с использованием этого оператора (да-да ). На это всегда можно смекнуть и сделать запросы примерные этим: -intext:"any" -intitle:"any" Не менее интересен оператор daterange, при помощи которого мы спарсим выдачу по дате (диапозон по Юлианскому календарю): daterange:2454000-2454000 Остальные хитрости можно легко придумать почитав хелп гугля данный выше
благодарю! отличный ответ, буду пробовать. Думаю вариант с датами мне подойдет для того, чтобы спарсить столько сотен тысяч, сколько потребуется
use additional words: inurl:"bug.php" apple inurl:"bug.php" ololo inurl:"bug.php" ebaka inurl:"bug.php" green etc...
ErrorNeo если тебе для парсинга гулга скачай aggress parser, он как раз весь этот процесс автоматизирует + вручную настраивать можно