Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   Болталка (https://forum.antichat.xyz/forumdisplay.php?f=46)
-   -   Сверка 2-х Баз Мыл (https://forum.antichat.xyz/showthread.php?t=175755)

le-mon 02.02.2010 23:22

Сверка 2-х Баз Мыл
 
Собственно надо проверить 2 базы на похожесть, и дельтануть из второй похожие мыла.

Замучился софтину искать, восновном склейщики, дубликаты и сортировка по доменам.

Antonio Falkone 02.02.2010 23:25

Если речь идет о файле тхт, то следует соединить все в один файл и убрать дубликаты при помощи Text Duplicate Killer.
Число повторяющихся строк и покажет процент "похожести".

le-mon 02.02.2010 23:44

нееет. Попробую объяснить на примере: я собрал 2 базы, одну уже проспамил, вторая похожа на первую. Мне надо вытащить из второй базы свежие мыльники и их проспамить :)

База №1
1@mail.com
2@mail.com
3@@mail.com

База №2
1@mail.com
2@mail.com
3@@mail.com
blablabla@mail.com

Прога сверяет базы и свеженькую blablabla@mail.com записывает в отдельный фаил :)

sboy20042 02.02.2010 23:55

______http://www.sendspace.com/file/xt3fto

инструкция внутри. 3-4 гига разруливает моментом
там есть функция пересечение, работает из контекстного меню.

1n0y 03.02.2010 00:02

как вариант - моя софтина http://forum.antichat.ru/thread174326.html
в удалении дублей: одну базу в левое, вторую вправое окошко и софтина удалит строки базы2 из базы1 :)

SpangeBoB 03.02.2010 00:14

Решу на powershell:
Цитата:

diff (gc base1.txt) (gc base2.txt) | % {if($_.SideIndicator.StartsWith("=>")){$_.inputobj ect}} > result.txt


Время: 04:19