Показать сообщение отдельно

  #9  
Старый 19.03.2018, 14:42
Klark89
Member
Регистрация: 01.12.2017
Сообщений: 7
Провел на форуме:
1340

Репутация: 0
По умолчанию

fire-dance, большое спасибо.

На заметку:

1) удаляем крякозяблы (Линукс):

grep -v -P '[\x{0000}-\x{001F}]|[\x{FFFD}]' XXXL.txt > new.txt

Чтобы проверить, что удалилось:

grep -P '[\x{0000}-\x{001F}]|[\x{FFFD}]' XXXL.txt > musor.txt

2) удаляем UTF-8:

grep -v -P '[\x{0000}-\x{0080}]' new.txt > ASCII.txt

3) UTF-8 в новый файл:

grep -P '[\x{0000}-\x{0080}]' new.txt > UTF8.txt.


[COLOR="rgb(255, 255, 255)"]Ну и в конце разбиваем UTF-8 по языкам:[/COLOR]

[COLOR="rgb(0, 255, 128)"]grep -i -P '([\x{4E00}-\x{9FBF}]|[\x{3040}-\x{309F}]|[\x{30A0}-\x{30FF}])+' UTF8.txt > Asian.txt[/COLOR] (иероглифы)

[COLOR="rgb(0, 255, 128)"]grep -i -P '[\x{0600}-\x{06FF}]' UTF8.txt > arabic.txt[/COLOR] - (арабский)

[COLOR="rgb(0, 255, 128)"]grep -i -P '[\x{0386}-\x{03CE}]' UTF8.txt > greek.txt[/COLOR] - (греческий)

[COLOR="rgb(0, 255, 128)"]grep -i -P '[\x{0590}-\x{05FF}]' UTF8.txt > hebrew.txt[/COLOR] - (еврейский)

[COLOR="rgb(0, 255, 128)"]grep -i -P '[ĄĆĘŁŃŚŹŻ]' UTF8.txt > polnish.txt -[/COLOR] (польский)

[COLOR="rgb(0, 255, 128)"]grep -i -P '[а-я]' UTF8.txt > russian.txt -[/COLOR] (русский)

[COLOR="rgb(0, 255, 128)"]grep -i -P '[İŞĞışğ]' UTF8.txt > turkce.txt[/COLOR] -турецкий. Для него удалить потом все строки с è,à,é

У кого не работает (специалъно для XXXL) - Внимание! Возможно, чо некоторые строки будут при этом испорчены. Если есть сомнения, то ручками в EmEditor/Notepad++/Ultrapad!:

1) Сначала перекодируем файл в UTF-8:

iconv -f ISO-8859-1 -t UTF-8 1.txt > 1a.txt

2) Форматируем в Линукс-формат:

tr -d '\r' 1b.txt

3) Применяем grep-команды

grep -P '[\x{0000}-\x{001F}]|[\x{FFFD}]' 1b.txt > 1-musor.txt


Некоторые файлы (например 260-265.txt) нужно открытъ в текстовом редакторе типа EmEditor как UTF8 и сохранятъ там же в виде UTF8. Иначе есть риск получения сплошных крякозяблов!!!

Проблема всех этих листов:

Иногда до 3 кодировок в одном файле или бинарики и попробуй разберись...


Кто-нибудь мохет подсказать, как линуксом разбить файл по первым двум буквам/цифрам на новые файлы???? Желательно без предварительной сортировки...

T.e.: было XXXL.txt. Стало: аа.txt, ab.txt, ac.txt... zx.txt, zy.txt, zz.txt, 00.txt... 9z.txt.
 
Ответить с цитированием