ANTICHAT.XYZ    VIDEO.ANTICHAT.XYZ    НОВЫЕ СООБЩЕНИЯ    ФОРУМ  
Баннер 1   Баннер 2
Antichat снова доступен.
Форум Antichat (Античат) возвращается и снова открыт для пользователей. Здесь обсуждаются безопасность, программирование, технологии и многое другое. Сообщество снова собирается вместе.
Новый адрес: forum.antichat.xyz
Вернуться   Форум АНТИЧАТ > Программирование > С/С++, C#, Delphi, .NET, Asm
   
Ответ
 
Опции темы Поиск в этой теме Опции просмотра

алгоритм "Антиплагиат" системы
  #1  
Старый 02.08.2007, 15:42
Аватар для Xex
Xex
Banned
Регистрация: 10.07.2005
Сообщений: 224
Провел на форуме:
1062041

Репутация: 50
По умолчанию алгоритм "Антиплагиат" системы

Здраствуйте,
у меня есть такая задача:
Есть два Word документа, нужно провести анализ этих документов на "Копипастинг", т.е. узнать процент совпадения контента документов(например, рефератов).
Вот думаю, как бы попроще реализовать это, думаю настоящие программеры поймут мое желание придумать "красивый алгоритм".
Мои мысли:
выбрать только "буквы", а дальше выбирать с двух документов самые длинные совпадающие последовательности, затем уже посчитать процент.

Спасибо за внимание.
 
Ответить с цитированием

  #2  
Старый 02.08.2007, 15:59
Аватар для Y.Dmitriy
Y.Dmitriy
Постоянный
Регистрация: 14.03.2007
Сообщений: 367
Провел на форуме:
1392441

Репутация: 161
Отправить сообщение для Y.Dmitriy с помощью ICQ Отправить сообщение для Y.Dmitriy с помощью AIM Отправить сообщение для Y.Dmitriy с помощью MSN
По умолчанию

нахрена по две темы постить?
 
Ответить с цитированием

  #3  
Старый 02.08.2007, 16:37
Аватар для Xex
Xex
Banned
Регистрация: 10.07.2005
Сообщений: 224
Провел на форуме:
1062041

Репутация: 50
По умолчанию

потому что выбор языка для меня не принципиален, а в двух "программерских темах" я охвачу большее количество "программеров"
 
Ответить с цитированием

  #4  
Старый 02.08.2007, 16:48
Аватар для censored!
censored!
Green member - Level 3
Регистрация: 02.11.2004
Сообщений: 1,337
Провел на форуме:
2398258

Репутация: 648


По умолчанию

Удалить из текста всякие стоп-символы (тире, точки, запятые), слова меньше трех букв, двойные пробелы, табы и т.п.. даже пробелы вообще можно удалит. Чтобы весь текст был типавоттакойводнустроку. Всякие ё заменить на е, й на и, еще бы о заменить на е, выкинуть двойные буквы типа "нн", "ее", выкинуть букву т. Все это надо для того - если копипастер потом прогнал на орфографию в ворде. А уже потом брать первые пять символов, искать их в другом тексте, нашел - и там и там удалить, счетчик на один. И т.д.
Но тут все зависит от задач - что проверять и какой текст. Обычно по предложениям сверяют. Некоторые определяют длину слова, считают сколько там букв и так и строят текст. Типа: 1 3 5 4 2 3 4, 3 2 5 7. И по этим последовательностям ищут.
__________________
+ (это не крестик, это плюсик!)
__________________


 
Ответить с цитированием
Ответ



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
алгоритм "Антиплагиат" системы Xex PHP, PERL, MySQL, JavaScript 2 02.08.2007 23:22
Обновление Базовой Системы Ввода-Вывода Fen-Omen Статьи 1 07.05.2007 15:45
Настройка системы мониторинга интерфейсов сети с помощью netmond и rrdtool MicRO *nix 2 13.12.2006 21:38
Обнаружение атак D=P=CH= MOD= Защита ОС: вирусы, антивирусы, файрволы. 3 03.10.2006 21:29
Алгоритмы анализа удаленной системы KPOT_f!nd Чужие Статьи 2 30.09.2006 02:50



Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT.XYZ