Моё почтение, ребятки! Подскажите, пожалуйста, какой-нибудь бесплатный (может крякнутый) парсер или экстрактор, ну что-то в этом роде! Ситуация такая. Есть куча ссылок и на каждой странице по этой ссылке, содержится, предположим такая инфа: «account type: old» или «account type: new» или «account type: unknown». Т.е. три варианты, ну бывает иногда проскочит какой-нибудь четвёртый вариант. Эта инфа - общедоступная, значит просматривать (парсить) можно без прокси и логина с паролём. Тупо ввёл ссылку и прочитал, вот только не хочется это всё ручками делать, речь идёт о нескольких миллионах страниц. Плюс прикол ещё в том, что мне нужно узнать инфу именно по моим ссылкам, а не всё подряд. Т.к. если введёшь не тот запрос, сайт покажет, что акк существует, но на самом деле – в реалии не существует. То бишь, мне нужно что-то вроде Advanced Email Extractorа. Только не мыльники собирать, а конкретную инфу. Типа, указал страницу с ссылками и глубину проникновения (сканирования), а обратно получил (сохранил) документик с ссылками и инфой «account type: *****». Может у кого-нибудь есть советы по этому поводу?! Или как-то возможно настроить этот Advanced Email Extractor через JScript?! P.S. Возможно я не в ту ветку написал, тогда извиняюсь! Перенесите куда нужно.
Значит через телепорт скачиваешь сайт до нужней тебе глубины. Потом полученые текстовики объединяешь, получаешь большой файл. Открываешь через notepad++, чистишь мусор(теги[<html></html>], меню[Главная, О сайте]), вообщем удаляешь все не нужное. Потом уже обращайся(хотя будем не зачем)
Этот вариант не подходит. Так как, сайт содержит даже ту инфу, которая могла бы существовать. Т.е, акаунт который не существует, определиться как «старый», именно как «старый», а не как «неизвестный», а ведь на самом деле - его нет. А у меня имеются ссылки именно существующих аков. Ну ладно, скачать - это ещё пол беды, пусть и мало вероятно. Потом я объединю всё в одни файл и как мне потом сопоставить ссылки на акаунты с полем «account type: *****»? Что касается, почистить от мусора (всяких тегов), как по мне, то это вообще не реально.
Всё, тема не актуальна. Выход найден! Воспользовался программкой, под названием Content Downloader. Результат устроил с лихвой, помимо необходимых параметров, собрал ещё кучку сопутствующей инфы. Так что, кто столкнулся со схожей диллемой как у меня, то дерзайте эту программульку. Кряк на неё вроде как без проблем находиться, да и видео инструкции по настройке можно надыбать (лично я - нашёл). P.S. Теперь я в курсе, как собираются базы мобильных телефонов и всякой дребедени, в том числе и с vkontakt.ru