![]() |
Собираем МЕГА СЛОВАРЬ русских слов
Собираем МЕГА СЛОВАРЬ
Многим известно, что словари русских слов занимают на два порядка меньшие объемы дискового пространства, чем английские. Собранный мною с кучи поисковиков мегасловарь русских слов занимает всего 3.5 Мб, в то время как английский аж целых 154 Всвязи с чем возникло желание расширить объем диского пространства под русский словарь. А как собственно собирают словари? Неужели кто-то сидит вручную набирает? Имхо вряд ли. Вот что сделать гораздо проще. Берем всем знаменитую Войну и Мир. Сколько там страниц? Правильно, полторы тысячи, помножим на 2 кб/страница и уже 3 Мб неочищенного контента. А много в нашей великой русской литературе больших произведений? Достаточно! Вот собссно предложение. Постим тут, какие знаем произведения русской литературы, да чтобы в них побольше было страниц, ну от 500 там например. Если еще с линками на архивенный текстовый файл с произведением, то получите больший жирный плюс. Тему не засоряем, каждый постит в одном сообщении. Потом я все это скачаю, пропарсю русские слова, и создам на общее благо новый словарик русских слов. Чем ответственней вы отнесетесь к данному предложению, тем соответственно больше будет вероятность, что хеши, которые вы постите десятками в день, будут расшифрованы. Ну просто русских слов намного меньше встречается среди раздраконенных паролей, еще и потому что словари у нас маленькие Засим кончаю повествование и жду ваших постов :) Собссно Война и Мир уже есть: http://www.war-and-piece.org/all.zip Тихий Дон http://thelib.ru/books/sholohov_mihail/tihiy_don_knigi_12-read.html Преступление и наказание http://lib.km.ru/?id=1394 ************ Отсюда можно брать линки ************ http://lib.km.ru/ http://kaliningrad.vip.km.ru/ http://www.fictionbook.ru/rue/ http://bookz.ru/ Не заливайте на Рапиду !!! |
Практически вся литература есть на http://lib.ru (правда не архивированная), в частности классика - http://az.lib.ru/
Белинский В.Г.(13766k) Гоголь Н.В.(7149k) Гончаров И.А.(8375k) Достоевский Ф.М.(24237k) Толстой Л.Н.(45292k) Тургенев И.С.(7948k) ну и т.д. |
************************************************** ***********************
Авторов ооочень много, произведений на несколько порядков больше. Сливать всех и все - непосильный труд То, что вы пишите авторов, конечно, хорошо, но произведений у них тьма, и маленькие, и не очень. Так вот, если вы знаете конкретно произведения, а не просто русских писателей, то пишите Желательно побольше чтобы было страниц в произведении. Не буду говорить никакие ограничения по количеству страниц, но просто подумайте сами, если там например ну страниц 100, то нужно ли брать это произведение (которых тысячи), или взять те, которых хоть и мало, но которые реально большие (от 500 и более например) Можно конечно сидеть и одному придумывать, какие же произведения есть, но это не интересно: долго, во-первых, а во-вторых, наверняка один человек не знает или не вспомнит кучу произведений, а которых вспомнят другие Вспоминайте все, что на русском есть. Может Гарри Поттер на русском в электронном виде есть где, дерзайте, креатив рулит! :) И по возможности линки бы тоже сразу, ведь каждому 2-3 произведения найти гораздо легче, чем потому одному или нескольким искать тонну литературы Имхо можно насобирать очень неплохой словарь, было бы желание не только у меня ************************************************** *********************** |
http://www.ipages.ru/index.php?id=50
и вот тут интересно - http://dicts.alphanet.org.ua/ |
Цитата:
Частотный словарь русского языка Еще кучу ссылок можно увидеть если вбить это в поиск.. |
http://ihtik.2x4.ru/encycloped_8janv2007/encycloped_8janv2007_570.rar
крохотный текст, но слова специализированные, могут пригодится http://ihtik.2x4.ru/encycloped_8janv2007/encycloped_8janv2007_639.rar Битвы мировой истории. Словарь.txt 1,02 MB http://rapidshare.com/files/24957892/AdvLam.rar.html аривчик со всеми рус. фамилиями и городами/деревнями. Фамилии отредактировал и отсортировал (Surname) |
Стивен Кинг - 10 метров, разные романы Стивена Кинга
Сборка - 5 метров, здесь: Агата Кристи, Властелин колец, Три мушкетера, Монте-Кристо |
_http://traduko.lib.ru/ru_ru_bse.html
хз что там проверьте, мне на своем момеде неделю придется качать! |
не мучайтесь :-)
Толковый словарь Даля - Размер: 58MB Словарь живого великорусского языка В. И. Даля безусловно самый знаменитый русский толковый словарь. До сегодняшнего дня, несмотря на существование словарей-предшественников, диалектных, диахронических, жаргонных словарей, многотомных современных лексикографических описаний, время от времени оказывается, что Далев Словарь отражает русский язык точнее или полнее. Это собрание русской лексики, относящейся, по преимуществу, к диалектам и профессиональным жаргонам, составленное дилетантом-самоучкой, который неоднократно призывал писать как говорим, не проповедовать грамоты как спасения, не приносить никаких жертв для всеобщего водворения ее (С.-Петербургские ведомости, 1857, № 245), который ратовал за полное избавление русского языка от иноязычных заимствований. Энциклопедический словарь Ф.Брокгауз и И.Ефрон - Размер: 13MB В данном словаре материал излагается в соответствии с правилами орфографии и стилистики современного русского языка.В словаре представлено более 20000 статей. Значительное место отведено биографиям выдающихся деятелей истории, искусства, науки, а также материалам по истории, философии, социологии, этнографии, религии, искусству, языкознанию. Так же в словаре представлены сведения из области физической и социально-экономической географии, геологии, техники, математики, физики, химии, биологии, медицины. Основу словаря составляют статьи, относящиеся к области гуманитарных наук. Некоторые статьи проиллюстрированы, значительную часть иллюстраций составляет портретная галерея наиболее знаменитых и выдающихся российских и зарубежных деятелей. + словарь терминов на 80000 статей. Орфографический словарь русского языка - Размер: 14,45MB Орфографический словарь русского языка, содержит 90000 слов |
Бета версия словаря: осталось еще пропарсить один большой файл, который почему то на ~100 байте вылетает с условием feof(in), когда сам файл 371 Мб
Если будут еще линки - размер будет расти, а пока что ************************************************** **** http://advlamer.narod.ru/dict/advlamer-words-russian.rar Size: 16.15 Mb Contain: 1548355 words ************************************************** **** Для сравнения, старый был Size: 3.50 Mb Contain: 353052 words Итого, количество слов увеличилось в 4.38 раз |
| Время: 10:17 |