
07.09.2015, 23:10
|
|
Member
Регистрация: 06.08.2015
Сообщений: 16
С нами:
5668886
Репутация:
0
|
|
Сообщение от Sitronik
Для Linux мне кажется прога не нужна, очистка дублей и сортировка:
cat '/root/Desktop/dic.txt' | sort | uniq > /root/Desktop/dic-final.txt
Скачал словарь GDict.dic, он часто встречается в интернете... прогнал его вот такой строкой
cat plohoj_slovar1.txt plohoj_slovar2.txt plohoj_slovar3.txt | sort | uniq | sed -n '/^.\{8\}/p' > horoshij_slovar.txt
а затем пробежался глазами по словарю и нашел кучу слов с кириллическими символами, причем те слова, что начинаются кириллическими символами удалены, остались те, где все слово из латиницы, но где то в слове есть к примеру буква 'ж' или 'б' и т.п. Я понимаю, что можно дописать эту строку еще в два раза длинней и 50 раз оттестить, и что то даже получится, но хочется как то все по проще
|
|
|