Парсер яндекса C#

Discussion in 'С/С++, C#, Rust, Swift, Go, Java, Perl, Ruby' started by need_million, 9 Jul 2010.

  1. need_million

    need_million Member

    Joined:
    29 Apr 2010
    Messages:
    158
    Likes Received:
    6
    Reputations:
    0
    Все время определяет меня как робота.

    сижу под разными проксями. по каким параметрам определяет?
     
  2. Peklots

    Peklots Elder - Старейшина

    Joined:
    28 Sep 2008
    Messages:
    281
    Likes Received:
    144
    Reputations:
    36
    У меня то же самое но с гуглом)
     
  3. need_million

    need_million Member

    Joined:
    29 Apr 2010
    Messages:
    158
    Likes Received:
    6
    Reputations:
    0
    а с гуглом вроде все норм.
     
  4. AlexTheC0d3r

    AlexTheC0d3r Elder - Старейшина

    Joined:
    25 Jul 2008
    Messages:
    388
    Likes Received:
    179
    Reputations:
    18
    скорее всего неправильные запросы и некорректный user-agent
     
  5. need_million

    need_million Member

    Joined:
    29 Apr 2010
    Messages:
    158
    Likes Received:
    6
    Reputations:
    0
    подскажи что может быть не так?

    Code:
    HttpWebRequest loHttp = (HttpWebRequest)WebRequest.Create(url);
                    loHttp.Method = "GET";
                    loHttp.ProtocolVersion = HttpVersion.Version11;
                    loHttp.Accept = "image/jpeg, application/x-ms-application, image/gif, application/xaml+xml, image/pjpeg, application/x-ms-xbap, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*";
                    loHttp.Headers.Add("Accept-Language: ru-RU");
                    loHttp.UserAgent = "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; WebMoney Advisor; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)";
                    loHttp.AllowAutoRedirect = true;
                    loHttp.KeepAlive = true;
                    loHttp.Timeout = timeout;
                    loHttp.CookieContainer = cooks;
                    if (Proxy.onoff == true)
                        loHttp.Proxy = new WebProxy(proxy);
                    HttpWebResponse loWebResponse = (HttpWebResponse)loHttp.GetResponse();
                    StreamReader loResponseStream = new StreamReader(loWebResponse.GetResponseStream(), enc);
                    string lcHtml = loResponseStream.ReadToEnd();
                    if (Proxy.onoff == true)
                        _proxy.GetProxy = proxy;
                    return lcHtml;

    генерируется запрос из
    Code:
    http://yandex.ru/yandsearch?&p={2}&text={0}&site={1}&numdoc=50&lr=145
     
  6. BrainDeaD

    BrainDeaD Elder - Старейшина

    Joined:
    9 Jun 2005
    Messages:
    774
    Likes Received:
    292
    Reputations:
    214
    нормальное явление. писковики после определённого кол-ва одинаковых запросов за определённый интервал времени начинают запрашивать капчу. гугл даже банит на некоторое время. пробуй в таких ситуациях полностью менять юзер-агент.
     
  7. need_million

    need_million Member

    Joined:
    29 Apr 2010
    Messages:
    158
    Likes Received:
    6
    Reputations:
    0
    тогда вопрос, где их найти? может где то есть списочек?

    ответ прост=)
    http://www.useragentstring.com/pages/Browserlist/
     
    #7 need_million, 10 Jul 2010
    Last edited: 10 Jul 2010
  8. need_million

    need_million Member

    Joined:
    29 Apr 2010
    Messages:
    158
    Likes Received:
    6
    Reputations:
    0
    может чуть и помогло но не на долго=(
     
  9. BrainDeaD

    BrainDeaD Elder - Старейшина

    Joined:
    9 Jun 2005
    Messages:
    774
    Likes Received:
    292
    Reputations:
    214
    данный тип запросов на яндексе строго проверяется. у меня в опере уже на второй запрос выкинуло капчу. увеличивай интервалл между запросами. если есть возможность, немного изменяй искомое выражение. разбавляй, к примеру, буквой или цифрой или знаком. эксперементируй.
     
  10. [0rby]

    [0rby] Banned

    Joined:
    9 Jul 2010
    Messages:
    0
    Likes Received:
    1
    Reputations:
    0
    Лучше делай все через сокеты, я сталкивался с аналогичной проблемой, вот и советую если что)
     
  11. need_million

    need_million Member

    Joined:
    29 Apr 2010
    Messages:
    158
    Likes Received:
    6
    Reputations:
    0
    я с сокетами не умею справлятся+((