PDA

Просмотр полной версии : протестировать распознавалку текста


imajo.ati
08.04.2008, 11:10
сделал скрипт, который преобразовывает введенные символы, похожие на буквы, в русский текст. т.е. букву |/| в и, l3 в В и т.д.
так же преобразовывает англ. буквы, похожие на русские. т.е. букву g в д и т.д.
не путать с транслитом

мне нужно всё это протестировать, найти логические несоответствия (к примеру скрипт может неправильно распознать рядом стоящие буквы)
одному это делать очень трудно.

ну вот) если не затруднит прошу попробовать
http://pk.890m.com/ai.php
плюсы поставлю конечно же) ошибок должно быть много

особенно приветствуются от вас комбинации символов, похожие на буквУ, которые скрипт не видит.

Lesnoy_chelovek
08.04.2008, 11:45
|-|-| , так-то Ж задумывалась, а выдало н-|
|-@ , так-то Ю задумывалсб, а выдало а

imajo.ati
08.04.2008, 12:38
большое спасибо, добавил @ к кружочку от Ю и сделал ж с черточками) главное чтобы теперь не конфликтовало с остальными буквами.

Isis
08.04.2008, 12:44
'"/><script>alert(/1/)</script> (обычный текст)

'ухsсгiрт>аlегт(л/к/sсгiрт> (распознанный текст)

ухсгртаегтлксгрт (без лишних символов)

))

imajo.ati
08.04.2008, 13:01
да, оно распознает символы, похожие на русские буквы. qwerty поймет как "шерту"

это можно так сказать будущий фильтр мата =)
только замена будет происходить не текста целиком, а каждого слова в отдельности. и не сошедшиеся с шаблоном преобразованные слова будут не тронуты и выведены в своем первонапечатанном виде)

xXvladXx
08.04.2008, 13:32
Opy*ue (обычный текст)

ору*ие (распознанный текст)

оруие (без лишних символов)
а имелось в виду "оружие"
ЗЫ когда тестил вспомнил l2 и тупо убитые 1,5года, как там почти все писали на транслите

xXvladXx
08.04.2008, 13:37
)(` (обычный текст)

)г (распознанный текст)

г (без лишних символов)

xXvladXx
08.04.2008, 13:40
1—o (обычный текст)

1—о (распознанный текст)

1о (без лишних символов)
имелось в виду Ю
и вот
l° (обычный текст)

l° (распознанный текст)

(без лишних символов)
имелось в виду Р

m9chik
08.04.2008, 13:44
извените конеша,но помойму албанский уже все знают :d

imajo.ati
08.04.2008, 13:44
xXvladXx
за транслит будет отвечать отдельная функция, которая будет проверять нераспознанный текст.

за )(` спасибо! значит букве "х" нужен приоритет больше чем букве "г", сейчас исправлю)
и к ю добавил палочку)

l° (обычный текст)

да.. символы юникода я не учел..
некоторые программы их на вопросы заменяют, или если ос их не поддерживает, она их заменяет на квадратики.

NOmeR1
08.04.2008, 13:47
nomer1 (обычный текст)

потег1 (распознанный текст)

потег1 (без лишних символов)
Прикольно)

imajo.ati
08.04.2008, 13:56
извените конеша,но помойму албанский уже все знают :d
за албанский будет отвечать шаблон недопустимых слов, который и будет учитывать различные вариации.

если испытания пройдут успешно, выложу уже рабочий скрипт фильтра)

а пока это только тест отдельной функции

IIAHbI4
08.04.2008, 14:24
nomer1 (обычный текст)

потег1 (распознанный текст)

потег1 (без лишних символов)
Прикольно)
хахахх (:

IIAHbI4 (обычный текст)

IIаны4 (распознанный текст)

аны4 (без лишних символов)


Antichat (обычный текст)

аптiспат (распознанный текст)

аптспат (без лишних символов)

imajo.ati
08.04.2008, 14:53
IIAHbI4
не путай с транслитом. а за II = П спасибо =)
и за 4
сейчас нормально читается ник =)

Lesnoy_chelovek
08.04.2008, 15:34
/7 - или Л или П.
]=|=[ }-|-{ }=|={ - Ж
(|) - типа Ф

IIAHbI4
08.04.2008, 15:38
кароче молодец, правда насколько это актуально яе*у :\

Godfather Bulan
08.04.2008, 15:59
|*$i}{ (обычный текст)

р$iх (распознанный текст)

рх (без лишних символов)

imajo.ati
08.04.2008, 16:17
/7 - или Л или П.
]=|=[ }-|-{ }=|={ - Ж
(|) - типа Ф
спасибо! особенно за семерку со слешем) и за ф.
а для ж похоже придется добавлять отдельные буквы а не править регулярку.
жаль только +1 могу поставить


|*$i}{ (обычный текст)
р$iх (распознанный текст)
рх (без лишних символов)

если искать русские буквы, то получится "эр"$i"хэ", всё правильно! ведь это не транслит.
но я учту доллар при транслитерации, спасибо!

кароче молодец, правда насколько это актуально яе*у :\
это тоже отфильтрует =)

imajo.ati
08.04.2008, 16:34
с человеческой точки зрения: если в слове больше английских букв, то H будет восприниматься как "аш", а не как "эн", правильно? стоит ли перебирать слова, в которых некоторые буквы должны читаться как английские, а некоторые - как русские?

xXvladXx
08.04.2008, 19:57
думаю нет

imajo.ati
08.04.2008, 20:25
пока что можно потестить на слово из 3х букв)
только комбинации вроде туева хуча пока не распознаются - для этого нужно искать все слова русского алфавита)