|
Member
Регистрация: 01.12.2017
Сообщений: 7
Провел на форуме: 1340
Репутация:
0
|
|
fire-dance, большое спасибо.
На заметку:
1) удаляем крякозяблы (Линукс):
grep -v -P '[\x{0000}-\x{001F}]|[\x{FFFD}]' XXXL.txt > new.txt
Чтобы проверить, что удалилось:
grep -P '[\x{0000}-\x{001F}]|[\x{FFFD}]' XXXL.txt > musor.txt
2) удаляем UTF-8:
grep -v -P '[\x{0000}-\x{0080}]' new.txt > ASCII.txt
3) UTF-8 в новый файл:
grep -P '[\x{0000}-\x{0080}]' new.txt > UTF8.txt.
[COLOR="rgb(255, 255, 255)"]Ну и в конце разбиваем UTF-8 по языкам:[/COLOR]
[COLOR="rgb(0, 255, 128)"]grep -i -P '([\x{4E00}-\x{9FBF}]|[\x{3040}-\x{309F}]|[\x{30A0}-\x{30FF}])+' UTF8.txt > Asian.txt[/COLOR] (иероглифы)
[COLOR="rgb(0, 255, 128)"]grep -i -P '[\x{0600}-\x{06FF}]' UTF8.txt > arabic.txt[/COLOR] - (арабский)
[COLOR="rgb(0, 255, 128)"]grep -i -P '[\x{0386}-\x{03CE}]' UTF8.txt > greek.txt[/COLOR] - (греческий)
[COLOR="rgb(0, 255, 128)"]grep -i -P '[\x{0590}-\x{05FF}]' UTF8.txt > hebrew.txt[/COLOR] - (еврейский)
[COLOR="rgb(0, 255, 128)"]grep -i -P '[ĄĆĘŁŃŚŹŻ]' UTF8.txt > polnish.txt -[/COLOR] (польский)
[COLOR="rgb(0, 255, 128)"]grep -i -P '[а-я]' UTF8.txt > russian.txt -[/COLOR] (русский)
[COLOR="rgb(0, 255, 128)"]grep -i -P '[İŞĞışğ]' UTF8.txt > turkce.txt[/COLOR] -турецкий. Для него удалить потом все строки с è,à,é
У кого не работает (специалъно для XXXL) - Внимание! Возможно, чо некоторые строки будут при этом испорчены. Если есть сомнения, то ручками в EmEditor/Notepad++/Ultrapad!:
1) Сначала перекодируем файл в UTF-8:
iconv -f ISO-8859-1 -t UTF-8 1.txt > 1a.txt
2) Форматируем в Линукс-формат:
tr -d '\r' 1b.txt
3) Применяем grep-команды
grep -P '[\x{0000}-\x{001F}]|[\x{FFFD}]' 1b.txt > 1-musor.txt
Некоторые файлы (например 260-265.txt) нужно открытъ в текстовом редакторе типа EmEditor как UTF8 и сохранятъ там же в виде UTF8. Иначе есть риск получения сплошных крякозяблов!!!
Проблема всех этих листов:
Иногда до 3 кодировок в одном файле или бинарики и попробуй разберись...
Кто-нибудь мохет подсказать, как линуксом разбить файл по первым двум буквам/цифрам на новые файлы???? Желательно без предварительной сортировки...
T.e.: было XXXL.txt. Стало: аа.txt, ab.txt, ac.txt... zx.txt, zy.txt, zz.txt, 00.txt... 9z.txt.
|