Показать сообщение отдельно

  #887  
Старый 07.09.2015, 23:10
wifiadapter
Member
Регистрация: 06.08.2015
Сообщений: 16
С нами: 5668886

Репутация: 0
По умолчанию

Цитата:
Сообщение от Sitronik  

Для Linux мне кажется прога не нужна, очистка дублей и сортировка:

cat '/root/Desktop/dic.txt' | sort | uniq > /root/Desktop/dic-final.txt

Скачал словарь GDict.dic, он часто встречается в интернете... прогнал его вот такой строкой

cat plohoj_slovar1.txt plohoj_slovar2.txt plohoj_slovar3.txt | sort | uniq | sed -n '/^.\{8\}/p' > horoshij_slovar.txt

а затем пробежался глазами по словарю и нашел кучу слов с кириллическими символами, причем те слова, что начинаются кириллическими символами удалены, остались те, где все слово из латиницы, но где то в слове есть к примеру буква 'ж' или 'б' и т.п. Я понимаю, что можно дописать эту строку еще в два раза длинней и 50 раз оттестить, и что то даже получится, но хочется как то все по проще
 
Ответить с цитированием