![]() |
Использование регулярных выражений в ассемблере. Как?
Кто работал со строками на ассемблере, тот меня поймёт:)
Парсинг или обработка строк на этом языке пожалуй самая больная тема при написании проектов серьёзнее "Hello World". Ну можно с этим смириться, когда в коде необходимо это сделать пару тройку раз, а когда больше? И без того трудночитаемый ассемблерный код превращается просто в кашу. Вы скажете, а зачем писать крупные проекты на ассемблере? Мы не будем выяснять ответ на этот вопрос, точно так же как не будем выяснять а нужно ли то, что я опишу ниже. Тот, кто с этим столкнётся или уже сталкивался - меня поймут, остальные могут прочесть просто для расширения кругозора:) Люди, которые программируют на ЯВУ имеют возможность использовать очень мощный инструмент для работы со строками - регулярные выражения. Мало, кто с этим знаком, но поверьте регулярные выражения лучшее средство в работе со строковыми данными. Убедитесь в этом ниже. Тот, кто не знаком с регулярками я могу посоветовать книгу: Фридл Дж. Регулярные выражения (2-е изд.), Питер 2003, 464 с. Её можно скачать и в электронном виде из сети. Прочтите хотя бы первые страниц 100, этого будет достаточно для составления простеньких выражений. Итак, если я пишу на ВБ я использую интерфейс vbscript.dll, там хороший движок, но увы номеров COM интерфейсов я так и не нашёл. На С++ тоже есть движки, но я ниразу с выражениями на этом языке не работал(а кто работал можете собрать lib'y на каком-нибудь движке и выслать мне, буду благодарен:)). Ну что, остаётся делфи, там есть отличный компонент - TRegExpr. Но делфи компилирует файлы в формат OMF, а чтобы собрать либу и потом подключать её к своему проекту на ассемблере нам нужен формат COFF, конвертёров нет. Остаётся одно: писать dll с экспортируемой функцией. Что я и сделал, прототип функции следующий: Цитата:
lpData - указатель на данные, которые следует обработать. NextFlag - у компонента TRegExpr есть метод ExecNext, который ищет следующее вхождение в данных. Так вот, этот флаг говорит о том надо ли его использовать, если не надо то мы просто проверим данные на хотя бы одно совпадение. Дальше поймёте:) Splitter - Указатель на разделитель. Если флаг NextFlag установлен, то при выборке всех совпадений из даных они будут разделены между собой этой строкой. Чтобы подключить dll к программе делаем так: Код:
.data?Далее я объясню как работает функция Exec без флага NextFlag. Если NextFlag=0, то параметр Splitter тоже можно передавать как NULL, обязательными являются только первые два параметра, давайте их определим: Код:
.data0x - говорит о том, что первыми двумя символами в строке должны быть именно эти. [a-fA-F0-9] - это называется символьный класс. В данном случае он означает, что в строке могут быть только следующие символы: 1234567890ABCDEFabcdef. + - этот метасимвол говорит о том, что таких символьных классов у нас может быть 1 и более. Ну lpData - соответственно данные которые нужно проверить на соответствие выражению Expressions. Ну что, вызываем функцию: Код:
push 0Теперь ещё более полезная функция. Допустим имеются у нас такие данные: Код:
lpData db "Мой почтовый ящик vasya_pupkin@mail.ru, но вы можете писать на pupkin_vasya@gmail.com",0Нет ничего проще! Составляем выражение: Код:
Expressions db "[_a-zA-Z\d\-\.]+@[_a-zA-Z\d\-]+(\.[_a-zA-Z\d\-]+)+",0Код:
Splitter db 13,10,0Код:
push offset SplitterКод:
test eax,eaxЦитата:
В качестве приложения в статье я даю regexp.dll и пример использования. Приложение BUG(O)R http://hunger.ru ICQ:827887 |
| Время: 12:59 |