Дата-майнинг персональных данных в Twitter

Discussion in 'Мировые новости. Обсуждения.' started by samtetris, 2 Apr 2013.

  1. samtetris

    samtetris New Member

    Joined:
    15 Jan 2013
    Messages:
    0
    Likes Received:
    0
    Reputations:
    0
    Разработчик по имени Колин Кейгер (Colin Keigher) давно интересовался сбором чужой персональной информации из окружающего шума, по примеру известного твиттер-аккаунта @NeedADebitCard, который публикует ретвиты чужих платёжных карт, или веб-сервиса WeKnowWhatYoureDoing.com с разной компрометирующей информацией на случайных пользователей Facebook.

    Ещё в январе Колин запустил бота @PhoneNumberTwit, который искал в твиттере номера телефонов и ретвитил их, сообщая владельцу о находке. Этот аккаунт был заблокирован через 36 часов после начала работы.

    Автор не сдался, и решил проделать всю работу в офлайне. Он написал скрипт Avivore https://github.com/ColinKeigher/Avivore — дата-майнер по твиттеру с открытым исходным кодом. Программа ищет в Twitter три вида информации: телефоны, пинкоды Blackberry и IPv4-адреса. Вся информация заносится в базу данных SQLite, а результат работы может также дублироваться в консоль.
    Эти 12,4 тыс. записей были собраны всего лишь за 24 часа, так что Twitter — это действительно неисчерпаемый кладезь персональной информации.

    Скрипт протестирован под Ubuntu, но должен работать и под другими платформами, где запускается Python, в том числе OS X и Windows.
    Свою разработку хакер презентовал на конференции BSides Vancouver в марте http://afreak.ca/blog/?p=277

    Дата: 02.04.2013 http://www.xakep.ru/post/60381/​