Следственный комитет России объявил о тендере на 2,4 млн рублей, когда профессионалам предлагается на выделенные средства создать автоматическую систему прогнозирования преступлений на основе информации из СМИ и социальных сетей. На каждого экстремистского комментатора или блогера при этом будет формироваться свое досье. Роботизированная система будет в автоматическом режиме собирать сведения, проводить их лингвистическую и эмоциональную экспертизы, выстраивать соответствующую ленту сообщений, делая выборку по дате публикации, автору комментария, его возрасту и полу. В итоге Следственный комитет получит целостную картину экстремистского настроения в России или его отсутствия. Наиболее проблемные регионы будут выделяться особо, пишет РБК, ссылаясь на сайт по государственным закупкам. Главная задача системы — разделение сообщений по степени экстремизма и уровню реальной угрозы. Все комментарии и блоги, в которых робот найдет нарушения статьи 282 Уголовного кодекса РФ "Возбуждение ненависти либо вражды, а равно унижение человеческого достоинства", будут формироваться в отдельные ленты, за которыми система будет тщательно следить и своевременно пополнять. На каждого подозрительного автора будет заведено свое отдельное досье. Анализ будет проводиться по СМИ, общее число которых в России около 35 тысяч изданий различного уровня, а также на основе социальных сетей и различных видеосервисов. Все новые сообщения в СМИ и блогосфере должны будут обрабатываться системой за 5-60 минут. Добавление видеоролика в автоматизированную базу должно занимать не больше 1,5 часа. Одновременно Следственный комитет просит, чтобы все сообщения оставались доступными пользователю, даже если администрация руководства удалит экстремистский пост. 01/12/15 http://oane.ws/2015/12/01/sk-rf-sozdast-sistemu-prognozirovaniya-prestupleniy-po-socsetyam.html
Да, тут уже точно всё ((( Как говорится, ТОР-ФЛОТ заварить не смогли, теперь пошли с этого края... Конечно, и так понятно, что досье будет вестись за более широким кругом лиц, чем просто за 282. Что сказать, идём в ногу с АНБ
Чёто как-то маловать денех.Там алгоритм нихера не простой.Я к тому, что если читать среднестатистического "диванного воена", кровавые слёзы наворачиваются, сколько там ошибок.У такой системы должны быть недюжие ресурсы, дабы в словесном поносе из набора букв вычленить что-то вразумительно похожее на экстремизм и прочее.
с орфографией можно ошибки и исправлять, взять словарь и искать наиболее похожее слово, самое сложное определить уровень экстремизма и уровню угрозы, можно взять баесовский фильтр, которые используются для определения является ли письмо спамом, и обучить распознавать не спам, а экстремизм, обучают систему люди, которые расставляют всем попавшим постам оценки за экстремизм по 10 бальной шкале, интересно как они оценивали стоимость, сомневаюсь что они знают как должна работает такая система изнутри, думаю такие вещи на конкурсной основе надо делать, дать возможность всем желающим сделать прототип, посмотреть чей лучше работает, выплатить премии допустим 5 лучшим, а с самым лучшим заключить контракт, если исполнителей не нашлось постепенно поднимать цену, а при текущем подходе думаю им напишут не рабочую хрень за 2 млн
а самое просто попросить ребят из яндекса написать, это их профиль, поисковый сборщик + анализ данных