PDA

Просмотр полной версии : Как быстро удалить Дубликаты строк с оригиналом


Found
23.11.2015, 12:53
Всем привет..,

Собственно вопрос, через программы или может быть есть Онлайн сервис -что конечно же удобней было бы для меня

Пример есть хеши:

05703552841fe4f579d1c75bd4b8d8a1

2363f2308fe82cbaf3240141003462e1

ef0de5525ec9d0a8679525f1753fea00

05703552841fe4f579d1c75bd4b8d8a1

Представим список большой как удалить из этих строк "05703552841fe4f579d1c75bd4b8d8a1" вместе с оригиналом что бы получить на выходе:

2363f2308fe82cbaf3240141003462e1

ef0de5525ec9d0a8679525f1753fea00

ZodiaX
23.11.2015, 13:42
Found said:
↑ (https://antichat.live/posts/3918965/)
Всем привет..,
Собственно вопрос, через программы или может быть есть Онлайн сервис -что конечно же удобней было бы для меня
Пример есть хеши:
05703552841fe4f579d1c75bd4b8d8a1
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00
05703552841fe4f579d1c75bd4b8d8a1
Представим список большой как удалить из этих строк "05703552841fe4f579d1c75bd4b8d8a1" вместе с оригиналом что бы получить на выходе:
2363f2308fe82cbaf3240141003462e1
ef0de5525ec9d0a8679525f1753fea00


Любой текстовый редактор -> заменить 'hash' на ' '

Если удалять списком то можно как то так:


Code:
#!/usr/bin/env python
al = []
fi = []
with open('откуда удаляем.txt') as f:
al = f.read().splitlines()
with open('что удаляем.txt') as f:
fi = f.read().splitlines()
ss = set(al) - set(fi)
print ss

Found
23.11.2015, 13:47
Без Скрипта, и не вручную, еще варианты есть? -онлайн сервис например

По скрипту я и сам могу удалить но это геморно каждый раз

grimnir
23.11.2015, 16:12
TextPipe так без проблем сделает /threads/403345/ (https://antichat.live/threads/403345/)

xusanokaz
06.01.2016, 22:09
FlodDublicarot в помощь

Found
07.02.2016, 03:29
grimnir said:
↑ (https://antichat.live/posts/3919068/)
TextPipe так без проблем сделает
/threads/403345/ (https://antichat.live/threads/403345/)


3.5 Gb файл -нажал удалить дубликаты на файл, вышла консоль и все черный экран малевича


xusanokaz said:
↑ (https://antichat.live/posts/3936974/)
FlodDublicarot в помощь


Ссылко по названию в гугле ничего не находит

grimnir
08.02.2016, 12:48
http://snag.gy/jjaA5.jpg

http://snag.gy/HMIHX.jpg

pw0ned
08.02.2016, 17:35
TextUtils by Lays

Присутствует удаление дубликатов.

grimnir
08.02.2016, 18:06
pw0ned said:
↑ (https://antichat.live/posts/3950449/)
TextUtils by Lays
Присутствует удаление дубликатов.


я так понял ему не удаление надо дубликатов,а удаление из списка другово списка с удалением дубликатов. А то так ULM вне конкуренции http://unifiedlm.com/Home

lifescore
08.02.2016, 20:39
grimnir said:
↑ (https://antichat.live/posts/3950461/)
я так понял ему не удаление надо дубликатов,а удаление из списка другово списка с удалением дубликатов. А то так ULM вне конкуренции
http://unifiedlm.com/Home


согласен, CLI версия

пример сравнения 2ух баз по 300 метров каждая. Сравнение и удаление строк которые присутствуют в сравниваемой базе.

2 базы по 300метров (600мб в сумме) - за 12 сек управилось.

http://i.imgur.com/75vInAK.jpg

Спокойно берет и 28 гб файлики. Наверно, из софта выше, только textpipe сможет также, но примерно за месяц...

t0ma5
10.02.2016, 17:21
как же збс когда есть консоль


Code:
ktulhu@ktulhu-H55M-S2V:~$ cat from_sort
1111111111111111
2222222222222222
3333333333333333
1111111111111111
05703552841fe4f579d1c75bd4b8d8a1
4444444444444444
5555555555555555
2222222222222222
4444444333333333
05703552841fe4f579d1c75bd4b8d8a1
1231231231231231
05703552841fe4f579d1c75bd4b8d8a1
werwerwerwerwerr

ktulhu@ktulhu-H55M-S2V:~$ cat mass
05703552841fe4f579d1c75bd4b8d8a1
1111111111111111

ktulhu@ktulhu-H55M-S2V:~$ cat from_sort | grep -v -f mass | sort | uniq
1231231231231231
2222222222222222
3333333333333333
4444444333333333
4444444444444444
5555555555555555
werwerwerwerwerr