Показать сообщение отдельно

  #11  
Старый 29.05.2015, 08:22
Silverlite
Member
Регистрация: 25.05.2015
Сообщений: 49
С нами: 5774006

Репутация: 0
По умолчанию

Цитата:
Сообщение от 4pips  

при помощи sed - не знаю

избавится от слов с подобными символами - áàâøçñ можно с помощью консольной утилиты http://rghost.ru/64PPYzcXP

Использование: RemoveNonLatinPasswords.exe infile.txt

Что то она не корректно работает. Отфильтровал словарь "Found" с этого сайта (ссылку давал товарищь SlavaFroze) из 2,6 Гб получилось всего 73 мб, а файл Rejected всего 1,7 мб. Вопрос - где же все остальное. Оно должно быть в Rejected? Проверил вручную пару слов которые не вошли в конечный файл, через http://unicode-table.com/ru/search/?q=n там латинские буквы все.

Посоветуйте программу для:

- удаления пустых строк

- удаления повторов

- удаление не латинских символов

- удаление меньше 8 символов

- повторов

- сортировка

а еще прогу для объединения словарей.

Ссылок здесь много, но они дохлые уже.

Главное чтобы быстро работали и с очень большим объемом словарей. Для Windows.
 
Ответить с цитированием