Как быстро удалить Дубликаты строк с оригиналом

Discussion in 'Песочница' started by Found, 23 Nov 2015.

  1. Found

    Found Banned

    Joined:
    23 Nov 2015
    Messages:
    77
    Likes Received:
    59
    Reputations:
    23
    Всем привет..,
    Собственно вопрос, через программы или может быть есть Онлайн сервис -что конечно же удобней было бы для меня
    Пример есть хеши:

    05703552841fe4f579d1c75bd4b8d8a1
    2363f2308fe82cbaf3240141003462e1
    ef0de5525ec9d0a8679525f1753fea00
    05703552841fe4f579d1c75bd4b8d8a1


    Представим список большой как удалить из этих строк "05703552841fe4f579d1c75bd4b8d8a1" вместе с оригиналом что бы получить на выходе:

    2363f2308fe82cbaf3240141003462e1
    ef0de5525ec9d0a8679525f1753fea00
     
  2. ZodiaX

    ZodiaX Reservists Of Antichat

    Joined:
    7 May 2009
    Messages:
    533
    Likes Received:
    308
    Reputations:
    51
    Любой текстовый редактор -> заменить 'hash' на ' '

    Если удалять списком то можно как то так:
    Code:
    #!/usr/bin/env python
    al = []
    fi = []
    with open('откуда удаляем.txt') as f:
        al = f.read().splitlines()
    with open('что удаляем.txt') as f:
        fi = f.read().splitlines()
    ss = set(al) -  set(fi)
    print ss
     
    Found likes this.
  3. Found

    Found Banned

    Joined:
    23 Nov 2015
    Messages:
    77
    Likes Received:
    59
    Reputations:
    23
    Без Скрипта, и не вручную, еще варианты есть? -онлайн сервис например
    По скрипту я и сам могу удалить но это геморно каждый раз
     
  4. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,109
    Likes Received:
    828
    Reputations:
    231
    _________________________
    Found and ZodiaX like this.
  5. xusanokaz

    xusanokaz New Member

    Joined:
    6 Jan 2016
    Messages:
    49
    Likes Received:
    1
    Reputations:
    0
    FlodDublicarot в помощь
     
    Found likes this.
  6. Found

    Found Banned

    Joined:
    23 Nov 2015
    Messages:
    77
    Likes Received:
    59
    Reputations:
    23
    3.5 Gb файл -нажал удалить дубликаты на файл, вышла консоль и все черный экран малевича
    Ссылко по названию в гугле ничего не находит
     
    #6 Found, 7 Feb 2016
    Last edited: 7 Feb 2016
  7. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,109
    Likes Received:
    828
    Reputations:
    231
    [​IMG]
    [​IMG]
     
    _________________________
    Found likes this.
  8. pw0ned

    pw0ned Member

    Joined:
    8 Jan 2016
    Messages:
    118
    Likes Received:
    48
    Reputations:
    14
    TextUtils by Lays

    Присутствует удаление дубликатов.
     
    Found likes this.
  9. grimnir

    grimnir Members of Antichat

    Joined:
    23 Apr 2012
    Messages:
    1,109
    Likes Received:
    828
    Reputations:
    231
    я так понял ему не удаление надо дубликатов,а удаление из списка другово списка с удалением дубликатов. А то так ULM вне конкуренции http://unifiedlm.com/Home
     
    _________________________
    lifescore likes this.
  10. lifescore

    lifescore Elder - Старейшина

    Joined:
    27 Aug 2011
    Messages:
    640
    Likes Received:
    504
    Reputations:
    72
    согласен, CLI версия
    пример сравнения 2ух баз по 300 метров каждая. Сравнение и удаление строк которые присутствуют в сравниваемой базе.

    2 базы по 300метров (600мб в сумме) - за 12 сек управилось.


    [​IMG]


    Спокойно берет и 28 гб файлики. Наверно, из софта выше, только textpipe сможет также, но примерно за месяц...
     
    grimnir likes this.
  11. t0ma5

    t0ma5 Reservists Of Antichat

    Joined:
    10 Feb 2012
    Messages:
    830
    Likes Received:
    814
    Reputations:
    90
    как же збс когда есть консоль

    Code:
    ktulhu@ktulhu-H55M-S2V:~$ cat from_sort 
    1111111111111111
    2222222222222222
    3333333333333333
    1111111111111111
    05703552841fe4f579d1c75bd4b8d8a1
    4444444444444444
    5555555555555555
    2222222222222222
    4444444333333333
    05703552841fe4f579d1c75bd4b8d8a1
    1231231231231231
    05703552841fe4f579d1c75bd4b8d8a1
    werwerwerwerwerr
    
    ktulhu@ktulhu-H55M-S2V:~$ cat mass
    05703552841fe4f579d1c75bd4b8d8a1
    1111111111111111
    
    ktulhu@ktulhu-H55M-S2V:~$ cat from_sort | grep -v -f mass | sort | uniq
    1231231231231231
    2222222222222222
    3333333333333333
    4444444333333333
    4444444444444444
    5555555555555555
    werwerwerwerwerr
    
     
    _________________________