Массовая проверка текста на уникальность.

Discussion in 'Болталка' started by Rasta18, 12 Oct 2014.

  1. Rasta18

    Rasta18 New Member

    Joined:
    8 Jul 2009
    Messages:
    62
    Likes Received:
    2
    Reputations:
    0
    Есть более 100.000 статей в txt, html формате.

    Какие у кого есть варианты, идеи? Как же их все проверить на уникальность?
    :rolleyes:
     
  2. Djon_Kramer

    Djon_Kramer New Member

    Joined:
    28 Feb 2013
    Messages:
    30
    Likes Received:
    2
    Reputations:
    -5
    либо сам, либо платить людям. Можно еще написать скрипт, который открывает файл, читает заголовок и запрашивает в поисковике, если находит, то сравнивает уже содержание последующего.
     
  3. Rasta18

    Rasta18 New Member

    Joined:
    8 Jul 2009
    Messages:
    62
    Likes Received:
    2
    Reputations:
    0
    Не это совсем не вариант.

    Пока придумал вот такой вариант:
    1. Устанавливаем денвер
    2. Кидаем все файлы на денвер в формате html
    3. Софтом "Content downloader" парсим все ссылки с localhost
    4. Берём программу "Etxt антиплагиат",
    Операции > проверка сайта> загружаем спаршенные ссылки.
    Операции > настройки > другое > подключаем прокси, антигейт.

    может кому это пригодится.

    Но работает очень медленно... При загрузке большого количества линков виснит :(

    на text_ru есть проверка таких фаулов. Но у них блин 1к = 0.50р


    а в ручную это ппц... проверил за день 500 статей из них 130 уникальных

    Может есть у кого ещё какие идеи?
     
    #3 Rasta18, 12 Oct 2014
    Last edited: 12 Oct 2014
  4. LiteMentaL

    LiteMentaL Elder - Старейшина

    Joined:
    24 Feb 2008
    Messages:
    2
    Likes Received:
    308
    Reputations:
    7
    так есть же прога для проверки текста по инету. Уникальности типо. Показывает процент "выдранного из интернета" не помню как называется. Адвего Плагиатор чтоле, я хз.
     
  5. Alexandr II

    Alexandr II -=ImperatoR=-

    Joined:
    28 Dec 2007
    Messages:
    1,068
    Likes Received:
    642
    Reputations:
    87
    а если проюзать университетские сервисы, по проверке дипломных и тд?
    только ссылку не помню я
     
  6. M.Billar

    M.Billar Member

    Joined:
    24 Jul 2013
    Messages:
    78
    Likes Received:
    60
    Reputations:
    0
    http://www.content-watch.ru/webs
    http://findcopy.ru/ite/
     
  7. sn0w

    sn0w Статус пользователя:

    Joined:
    26 Jul 2005
    Messages:
    1,021
    Likes Received:
    1,200
    Reputations:
    327
    ну хз насчет того чтобы по линкам. можно.
    либо же рандомно выбирать в статье 1-2-3-x предложения и искать их в остальных 99999 и так в цикле.

    все их смапить ты не сможешь, потому как при размере статьи в 1 мег, понадобится 1 терабайт в сумме, поэтому разбей на блоки, если у тебя на компе 8гб озу (х64 ось обязательно), 4 полюбому можешь заюзать не напрягая систему.
    расчет такой 4гига = смапить в память 4000 файлов по одному мегу. чекнуть их, выгрузить, смапить еще 4000, ну и так 25 раз подряд.
     
  8. GAiN

    GAiN Elder - Старейшина

    Joined:
    2 Apr 2011
    Messages:
    2,531
    Likes Received:
    166
    Reputations:
    99
    у antiplagiat.ru большая база, нормально проверяет
     
  9. Rasta18

    Rasta18 New Member

    Joined:
    8 Jul 2009
    Messages:
    62
    Likes Received:
    2
    Reputations:
    0
    Кто может написать скрипт за копейку?
    ТЗ:
    Заходим на http://text.ru/text_check
    Авторизация в форме e-mail;pass...
    Берём текстовый документ с указанной папки на компьютере...
    Втравляем из него текст в поле "Проверить текст"
    Нажимаем проверить.
    Ждём результата
    Сохраняем результат (если есть хотя-бы 80-90% уникальности ) в папку указанную на пк.
     
  10. sn0w

    sn0w Статус пользователя:

    Joined:
    26 Jul 2005
    Messages:
    1,021
    Likes Received:
    1,200
    Reputations:
    327
    боюсь чито отработку скрипта ты будешь ждать сто миллионов лет. проц озу и хардкод решают
     
  11. Rasta18

    Rasta18 New Member

    Joined:
    8 Jul 2009
    Messages:
    62
    Likes Received:
    2
    Reputations:
    0
    да мне в принципе, достаточно сейчас, чтоб 50-100 статей в час чекал.
     
  12. Rasta18

    Rasta18 New Member

    Joined:
    8 Jul 2009
    Messages:
    62
    Likes Received:
    2
    Reputations:
    0
    Апну темку... Может у кого появились идеи?? Ибо есть уже 370.000 статей. Продаю к стати
     
  13. Партнёр

    Joined:
    7 Sep 2010
    Messages:
    224
    Likes Received:
    67
    Reputations:
    1
    статьи по сколько символов? тематика одна или нет? мебель есть? по чем отдашь мебель?если есть и цена готовая есть, то за хорошую скидку чекнем все на уникальность