
23.09.2017, 00:41
|
|
Познавший АНТИЧАТ
Регистрация: 24.05.2015
Сообщений: 1,014
С нами:
5775446
Репутация:
62
|
|
Сообщение от intem
Практически все большие словари содержат цифровые строки разной длины, что солидно увеличивает вес.
Для удаления цифровых строк (всех) в словаре используется команда:
sed -r '/^[0-9]+$/d' 1.txt > bez_cifr.txt
как её модифицировать для удаления конкретных (например 8-ми значных) строк.
Заранее спасибо откликнувшимся.
Попробуй так...
cat file.txt | grep "........." | sed '/^[0-9]+$/d' > bez_cifr.txt
|
|
|

23.09.2017, 01:10
|
|
Well-Known Member
Регистрация: 18.01.2013
Сообщений: 120
С нами:
7008086
Репутация:
2
|
|
Сообщение от Kevin Shindel
Попробуй так...
cat file.txt | grep "........." | sed '/^[0-9]+$/d' > bez_cifr.txt
Отработать отработало, но почикало намного больше чем надо. Сравнивал результаты этого выхлопа и после обработки MoDic.
|
|
|

23.09.2017, 01:10
|
|
Флудер
Регистрация: 19.06.2015
Сообщений: 4,126
С нами:
5738006
Репутация:
147
|
|
Сообщение от intem
Отработать отработало, но почикало намного больше чем надо. Сравнивал результаты этого выхлопа и после обработки MoDic.
Поясните. )
|
|
|

23.09.2017, 01:26
|
|
Well-Known Member
Регистрация: 18.01.2013
Сообщений: 120
С нами:
7008086
Репутация:
2
|
|
Сообщение от ms13
Поясните. )
За основу брал hashkiller-dict (сегодня скачанный). На нем и потренировался.
После предварительной чистки получил размер 1247810043. Чистка линуксовой командой оставила 875628066. После удаления прогой MoDic и линуксовой tr -d '\r' получилось 1134496677.
Как то так.
|
|
|

23.09.2017, 01:33
|
|
Well-Known Member
Регистрация: 18.01.2013
Сообщений: 120
С нами:
7008086
Репутация:
2
|
|
Сообщение от ms13
tr -d '\r'
надо делать сначала, а потом всё остальное...
Естественно было сделано, просто после MoDic файл "раздувается" и лечится потом этой командой обратно.
|
|
|

23.09.2017, 01:49
|
|
Well-Known Member
Регистрация: 18.01.2013
Сообщений: 120
С нами:
7008086
Репутация:
2
|
|
Сообщение от ms13
Не, не работает)) ибо я уже пьяный..))
Похоже на то, ибо в выхлопе даже семизнак с разными "макаронами" видать на закуску сами просятся.
Спасибо за участие.
|
|
|

23.09.2017, 02:03
|
|
Флудер
Регистрация: 19.06.2015
Сообщений: 4,126
С нами:
5738006
Репутация:
147
|
|
Сообщение от intem
Похоже на то, ибо в выхлопе даже семизнак с разными "макаронами" видать на закуску сами просятся.
Спасибо за участие.
Ты невнимательно прочитал мой пост, а уже меня ругаешь... какие ещё семизнаки..?
Ты сам закуси сначала, эксперт!))
|
|
|

23.09.2017, 02:06
|
|
Elder - Старейшина
Регистрация: 23.05.2012
Сообщений: 3,462
С нами:
7353686
Репутация:
81
|
|
Сообщение от intem
как её модифицировать для удаления конкретных (например 8-ми значных) строк.
например - sed -r '/^[0-9]{8}$/d' 1.dic > bez8cifr.dic
|
|
|

23.09.2017, 02:12
|
|
Флудер
Регистрация: 19.06.2015
Сообщений: 4,126
С нами:
5738006
Репутация:
147
|
|
Сообщение от Andrey9999
например - sed -r '/^[0-9]{8}$/d' 1.dic > bez8cifr.dic
Забей, ты видишь, у него уже файлы раздуваются!
|
|
|

23.09.2017, 02:17
|
|
Флудер
Регистрация: 19.06.2015
Сообщений: 4,126
С нами:
5738006
Репутация:
147
|
|
Сообщение от Andrey9999
например - sed -r '/^[0-9]{8}$/d' 1.dic > bez8cifr.dic
Это ж при том, что там уже нет 7 и менее...
А ему теперь надо сразу бац!
Он уже не хочеть сначала так tr -d '\r' а потом sed -r '/.{8,}/!d' и поэтому у него валятся семизнаки да ещё с какими-то макаронами... o_0
|
|
|
|
 |
|
|
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
|
|
|
|