Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   Болталка (https://forum.antichat.xyz/forumdisplay.php?f=46)
-   -   протестировать распознавалку текста (https://forum.antichat.xyz/showthread.php?t=66719)

imajo.ati 08.04.2008 11:10

протестировать распознавалку текста
 
сделал скрипт, который преобразовывает введенные символы, похожие на буквы, в русский текст. т.е. букву |/| в и, l3 в В и т.д.
так же преобразовывает англ. буквы, похожие на русские. т.е. букву g в д и т.д.
не путать с транслитом

мне нужно всё это протестировать, найти логические несоответствия (к примеру скрипт может неправильно распознать рядом стоящие буквы)
одному это делать очень трудно.

ну вот) если не затруднит прошу попробовать
http://pk.890m.com/ai.php
плюсы поставлю конечно же) ошибок должно быть много

особенно приветствуются от вас комбинации символов, похожие на буквУ, которые скрипт не видит.

Lesnoy_chelovek 08.04.2008 11:45

|-|-| , так-то Ж задумывалась, а выдало н-|
|-@ , так-то Ю задумывалсб, а выдало а

imajo.ati 08.04.2008 12:38

большое спасибо, добавил @ к кружочку от Ю и сделал ж с черточками) главное чтобы теперь не конфликтовало с остальными буквами.

Isis 08.04.2008 12:44

Цитата:

'"/><script>alert(/1/)</script> (обычный текст)

'ухsсгiрт>аlегт(л/к/sсгiрт> (распознанный текст)

ухсгртаегтлксгрт (без лишних символов)
))

imajo.ati 08.04.2008 13:01

да, оно распознает символы, похожие на русские буквы. qwerty поймет как "шерту"

это можно так сказать будущий фильтр мата =)
только замена будет происходить не текста целиком, а каждого слова в отдельности. и не сошедшиеся с шаблоном преобразованные слова будут не тронуты и выведены в своем первонапечатанном виде)

xXvladXx 08.04.2008 13:32

Opy*ue (обычный текст)

ору*ие (распознанный текст)

оруие (без лишних символов)
а имелось в виду "оружие"
ЗЫ когда тестил вспомнил l2 и тупо убитые 1,5года, как там почти все писали на транслите

xXvladXx 08.04.2008 13:37

)(` (обычный текст)

)г (распознанный текст)

г (без лишних символов)

xXvladXx 08.04.2008 13:40

1—o (обычный текст)

1—о (распознанный текст)

1о (без лишних символов)
имелось в виду Ю
и вот
l° (обычный текст)

l° (распознанный текст)

(без лишних символов)
имелось в виду Р

m9chik 08.04.2008 13:44

извените конеша,но помойму албанский уже все знают :d

imajo.ati 08.04.2008 13:44

xXvladXx
за транслит будет отвечать отдельная функция, которая будет проверять нераспознанный текст.

за )(` спасибо! значит букве "х" нужен приоритет больше чем букве "г", сейчас исправлю)
и к ю добавил палочку)

Цитата:

l° (обычный текст)
да.. символы юникода я не учел..
некоторые программы их на вопросы заменяют, или если ос их не поддерживает, она их заменяет на квадратики.

NOmeR1 08.04.2008 13:47

Код:

nomer1        (обычный текст)

потег1        (распознанный текст)

потег1        (без лишних символов)

Прикольно)

imajo.ati 08.04.2008 13:56

Цитата:

Сообщение от m9chik
извените конеша,но помойму албанский уже все знают :d

за албанский будет отвечать шаблон недопустимых слов, который и будет учитывать различные вариации.

если испытания пройдут успешно, выложу уже рабочий скрипт фильтра)

а пока это только тест отдельной функции

IIAHbI4 08.04.2008 14:24

Цитата:

Сообщение от NOmeR1
Код:

nomer1        (обычный текст)

потег1        (распознанный текст)

потег1        (без лишних символов)

Прикольно)

хахахх (:

IIAHbI4 (обычный текст)

IIаны4 (распознанный текст)

аны4 (без лишних символов)



Antichat (обычный текст)

аптiспат (распознанный текст)

аптспат (без лишних символов)

imajo.ati 08.04.2008 14:53

IIAHbI4
не путай с транслитом. а за II = П спасибо =)
и за 4
сейчас нормально читается ник =)

Lesnoy_chelovek 08.04.2008 15:34

/7 - или Л или П.
]=|=[ }-|-{ }=|={ - Ж
(|) - типа Ф

IIAHbI4 08.04.2008 15:38

кароче молодец, правда насколько это актуально яе*у :\

Godfather Bulan 08.04.2008 15:59

|*$i}{ (обычный текст)

р$iх (распознанный текст)

рх (без лишних символов)

imajo.ati 08.04.2008 16:17

Цитата:

Сообщение от Lesnoy_chelovek
/7 - или Л или П.
]=|=[ }-|-{ }=|={ - Ж
(|) - типа Ф

спасибо! особенно за семерку со слешем) и за ф.
а для ж похоже придется добавлять отдельные буквы а не править регулярку.
жаль только +1 могу поставить

Цитата:

Сообщение от Godfather Bulan
|*$i}{ (обычный текст)
р$iх (распознанный текст)
рх (без лишних символов)

если искать русские буквы, то получится "эр"$i"хэ", всё правильно! ведь это не транслит.
но я учту доллар при транслитерации, спасибо!

Цитата:

Сообщение от IIAHbI4
кароче молодец, правда насколько это актуально яе*у :\

это тоже отфильтрует =)

imajo.ati 08.04.2008 16:34

с человеческой точки зрения: если в слове больше английских букв, то H будет восприниматься как "аш", а не как "эн", правильно? стоит ли перебирать слова, в которых некоторые буквы должны читаться как английские, а некоторые - как русские?

xXvladXx 08.04.2008 19:57

думаю нет

imajo.ati 08.04.2008 20:25

пока что можно потестить на слово из 3х букв)
только комбинации вроде туева хуча пока не распознаются - для этого нужно искать все слова русского алфавита)


Время: 20:24