Просмотр полной версии : Как быстро удалить Дубликаты строк с оригиналом
Всем привет..,
Собственно вопрос, через программы или может быть есть Онлайн сервис -что конечно же удобней было бы для меня
Пример есть хеши:
05703552841fe4f579d1c75bd4b8d8a1
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00
05703552841fe4f579d1c75bd4b8d8a1
Представим список большой как удалить из этих строк "05703552841fe4f579d1c75bd4b8d8a1" вместе с оригиналом что бы получить на выходе:
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00
Found said:
↑ (https://antichat.live/posts/3918965/)
Всем привет..,
Собственно вопрос, через программы или может быть есть Онлайн сервис -что конечно же удобней было бы для меня
Пример есть хеши:
05703552841fe4f579d1c75bd4b8d8a1
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00
05703552841fe4f579d1c75bd4b8d8a1
Представим список большой как удалить из этих строк "05703552841fe4f579d1c75bd4b8d8a1" вместе с оригиналом что бы получить на выходе:
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00
Любой текстовый редактор -> заменить 'hash' на ' '
Если удалять списком то можно как то так:
Code:
#!/usr/bin/env python
al = []
fi = []
with open('откуда удаляем.txt') as f:
al = f.read().splitlines()
with open('что удаляем.txt') as f:
fi = f.read().splitlines()
ss = set(al) - set(fi)
print ss
Без Скрипта, и не вручную, еще варианты есть? -онлайн сервис например
По скрипту я и сам могу удалить но это геморно каждый раз
TextPipe так без проблем сделает /threads/403345/ (https://antichat.live/threads/403345/)
xusanokaz
06.01.2016, 22:09
FlodDublicarot в помощь
grimnir said:
↑ (https://antichat.live/posts/3919068/)
TextPipe так без проблем сделает
/threads/403345/ (https://antichat.live/threads/403345/)
3.5 Gb файл -нажал удалить дубликаты на файл, вышла консоль и все черный экран малевича
xusanokaz said:
↑ (https://antichat.live/posts/3936974/)
FlodDublicarot в помощь
Ссылко по названию в гугле ничего не находит
http://snag.gy/jjaA5.jpg
http://snag.gy/HMIHX.jpg
TextUtils by Lays
Присутствует удаление дубликатов.
pw0ned said:
↑ (https://antichat.live/posts/3950449/)
TextUtils by Lays
Присутствует удаление дубликатов.
я так понял ему не удаление надо дубликатов,а удаление из списка другово списка с удалением дубликатов. А то так ULM вне конкуренции http://unifiedlm.com/Home
lifescore
08.02.2016, 20:39
grimnir said:
↑ (https://antichat.live/posts/3950461/)
я так понял ему не удаление надо дубликатов,а удаление из списка другово списка с удалением дубликатов. А то так ULM вне конкуренции
http://unifiedlm.com/Home
согласен, CLI версия
пример сравнения 2ух баз по 300 метров каждая. Сравнение и удаление строк которые присутствуют в сравниваемой базе.
2 базы по 300метров (600мб в сумме) - за 12 сек управилось.
http://i.imgur.com/75vInAK.jpg
Спокойно берет и 28 гб файлики. Наверно, из софта выше, только textpipe сможет также, но примерно за месяц...
как же збс когда есть консоль
Code:
ktulhu@ktulhu-H55M-S2V:~$ cat from_sort
1111111111111111
2222222222222222
3333333333333333
1111111111111111
05703552841fe4f579d1c75bd4b8d8a1
4444444444444444
5555555555555555
2222222222222222
4444444333333333
05703552841fe4f579d1c75bd4b8d8a1
1231231231231231
05703552841fe4f579d1c75bd4b8d8a1
werwerwerwerwerr
ktulhu@ktulhu-H55M-S2V:~$ cat mass
05703552841fe4f579d1c75bd4b8d8a1
1111111111111111
ktulhu@ktulhu-H55M-S2V:~$ cat from_sort | grep -v -f mass | sort | uniq
1231231231231231
2222222222222222
3333333333333333
4444444333333333
4444444444444444
5555555555555555
werwerwerwerwerr
vBulletin® v3.8.14, Copyright ©2000-2026, vBulletin Solutions, Inc. Перевод: zCarot