Что то она не корректно работает. Отфильтровал словарь "Found" с этого сайта (ссылку давал товарищь SlavaFroze) из 2,6 Гб получилось всего 73 мб, а файл Rejected всего 1,7 мб. Вопрос - где же все остальное. Оно должно быть в Rejected? Проверил вручную пару слов которые не вошли в конечный файл, через http://unicode-table.com/ru/search/?q=n там латинские буквы все.
Посоветуйте программу для:
- удаления пустых строк
- удаления повторов
- удаление не латинских символов
- удаление меньше 8 символов
- повторов
- сортировка
а еще прогу для объединения словарей.
Ссылок здесь много, но они дохлые уже.
Главное чтобы быстро работали и с очень большим объемом словарей. Для Windows.