Нужен парсер или экстрактор

Discussion in 'Уязвимости Mail-сервисов' started by valind, 19 Jan 2012.

  1. valind

    valind New Member

    Joined:
    18 Nov 2011
    Messages:
    29
    Likes Received:
    3
    Reputations:
    0
    Моё почтение, ребятки! Подскажите, пожалуйста, какой-нибудь бесплатный (может крякнутый) парсер или экстрактор, ну что-то в этом роде!

    Ситуация такая. Есть куча ссылок и на каждой странице по этой ссылке, содержится, предположим такая инфа: «account type: old» или «account type: new» или «account type: unknown». Т.е. три варианты, ну бывает иногда проскочит какой-нибудь четвёртый вариант. Эта инфа - общедоступная, значит просматривать (парсить) можно без прокси и логина с паролём. Тупо ввёл ссылку и прочитал, вот только не хочется это всё ручками делать, речь идёт о нескольких миллионах страниц. Плюс прикол ещё в том, что мне нужно узнать инфу именно по моим ссылкам, а не всё подряд. Т.к. если введёшь не тот запрос, сайт покажет, что акк существует, но на самом деле – в реалии не существует.

    То бишь, мне нужно что-то вроде Advanced Email Extractorа. Только не мыльники собирать, а конкретную инфу. Типа, указал страницу с ссылками и глубину проникновения (сканирования), а обратно получил (сохранил) документик с ссылками и инфой «account type: *****».

    Может у кого-нибудь есть советы по этому поводу?! Или как-то возможно настроить этот Advanced Email Extractor через JScript?!


    P.S. Возможно я не в ту ветку написал, тогда извиняюсь! Перенесите куда нужно.
     
    #1 valind, 19 Jan 2012
    Last edited: 20 Jan 2012
  2. Ereee

    Ereee Elder - Старейшина

    Joined:
    1 Dec 2011
    Messages:
    560
    Likes Received:
    370
    Reputations:
    267
    Значит через телепорт скачиваешь сайт до нужней тебе глубины. Потом полученые текстовики объединяешь, получаешь большой файл. Открываешь через notepad++, чистишь мусор(теги[<html></html>], меню[Главная, О сайте]), вообщем удаляешь все не нужное. Потом уже обращайся(хотя будем не зачем) :)
     
  3. valind

    valind New Member

    Joined:
    18 Nov 2011
    Messages:
    29
    Likes Received:
    3
    Reputations:
    0
    Этот вариант не подходит. Так как, сайт содержит даже ту инфу, которая могла бы существовать. Т.е, акаунт который не существует, определиться как «старый», именно как «старый», а не как «неизвестный», а ведь на самом деле - его нет. А у меня имеются ссылки именно существующих аков. Ну ладно, скачать - это ещё пол беды, пусть и мало вероятно. Потом я объединю всё в одни файл и как мне потом сопоставить ссылки на акаунты с полем «account type: *****»? Что касается, почистить от мусора (всяких тегов), как по мне, то это вообще не реально.
     
  4. valind

    valind New Member

    Joined:
    18 Nov 2011
    Messages:
    29
    Likes Received:
    3
    Reputations:
    0
    А, неее! Удаление тегов и др. фиговины - это реально!
     
  5. valind

    valind New Member

    Joined:
    18 Nov 2011
    Messages:
    29
    Likes Received:
    3
    Reputations:
    0
    Всё, тема не актуальна. Выход найден!

    Воспользовался программкой, под названием Content Downloader. Результат устроил с лихвой, помимо необходимых параметров, собрал ещё кучку сопутствующей инфы. Так что, кто столкнулся со схожей диллемой как у меня, то дерзайте эту программульку. Кряк на неё вроде как без проблем находиться, да и видео инструкции по настройке можно надыбать (лично я - нашёл).

    P.S. Теперь я в курсе, как собираются базы мобильных телефонов и всякой дребедени, в том числе и с vkontakt.ru :D
     
    #5 valind, 22 Jan 2012
    Last edited: 24 Jan 2012