PDA

Просмотр полной версии : [C++] Class: Tokenize


razzzar
17.02.2008, 03:25
Наверное все сталкивались с проблемой когда надо разбить строку по разделителям в многопоточном приложении. Функция strtok(); для этого не подходит, так как она использует статические элементы и при одновременом вызове в двух или более потоках работать будет некоректно ( я говорю о потоках, вызваных с помощью WinApi фун-ции CreateThread();, при использовании _beginthread она будет работать корректно, см. Рихтера ). Недавно я столкнулся с такой проблеме в одном из своих проектов, и для таких целей написал класс токенайзера.

Объявление:

class Tokenize
{
public:
Tokenize();
~Tokenize();
void SetOriginalString(char * szString);
char * GetOriginalString();
void SetTokens(char * szToken);
char * GetNextToken();
char * GetCurrentToken();
private:
std::string strOriginalString;
std::string strToken;
std::string strString;
bool bFinished;
int nCurrentPointer;
};

Описание:

Tokenize::Tokenize()
{
strString.assign("");
bFinished = false;
}

Tokenize::~Tokenize()
{
}

void Tokenize::SetOriginalString(char * szString)
{
strOriginalString.assign(szString);
strString.assign("");
strToken.assign("");
bFinished = false;
nCurrentPointer = -1;
}

char * Tokenize::GetOriginalString()
{
return (char *) strOriginalString.c_str();
}

void Tokenize::SetTokens(char * szToken)
{
strToken.assign(szToken);
}

char * Tokenize::GetNextToken()
{
if ( bFinished == true )
{
return NULL;
}

if ( nCurrentPointer == -1 )
{
nCurrentPointer = (int) strOriginalString.find_first_of(strToken, 0);
if ( nCurrentPointer == -1 )
{
nCurrentPointer = (int) strOriginalString.find("\0", 0);
bFinished = true;
if ( nCurrentPointer == -1 )
{
return NULL;
}
return (char *) strOriginalString.c_str();
}
strString.assign(strOriginalString.substr(0, nCurrentPointer));
return (char *) strString.c_str();
}
else
{
int nPrevPointer = nCurrentPointer + 1;
nCurrentPointer = (int) strOriginalString.find_first_of(strToken, nPrevPointer);
if ( nCurrentPointer == -1 )
{
nCurrentPointer = (int) strOriginalString.find("\0", nPrevPointer);
bFinished = true;
if ( nCurrentPointer == -1 )
{
return NULL;
}
strString.assign(strOriginalString.substr(nPrevPoi nter, nCurrentPointer));
return (char *) strString.c_str();
}
strString.assign(strOriginalString.substr(nPrevPoi nter, nCurrentPointer - nPrevPointer));
return (char *) strString.c_str();
}
}

char * Tokenize::GetCurrentToken()
{
return (char *) strString.c_str();
}

Пример использования:

Tokenize tok;

tok.SetOriginalString("qwe|asd,zxc.ghj");
tok.SetTokens("|,.");

while ( tok.GetNextToken() != NULL )
{
MessageBox(0, tok.GetCurrentToken(), "Tokenize", 0);
}

KEZ
17.02.2008, 04:05
Круто.


return (char *) strString.c_str();


const тебе для прикола дали видимо.

Затем идут два практически идентичных куска, которые ты расписал по отдельности.

Причем интересно, внутри класса ты юзаешь std::string, а выводишь в "не-const" char*.
Такая обертка в обратную сторону. Сделано это видимо было для снижения скорости, ибо коду опять получилось столько же, сколько нужно для того, чтоб char* обработать руками ...


return NULL;


кросс-платформенность?

Но все же это правильнее (намного), чем сорцы Кузьмича. И вообще для античата даже... можно сказать, слишком круто. Так что плюсадин.

PS


Tokenize::~Tokenize()
{
}


=\\\\

KEZ
17.02.2008, 05:23
// ...

class Tokenize
{

public:

void Reset()
{
m_Pos = m_Source;
}

Tokenize(const char * Src,const char * Tokens = "|")
{
m_Pos = m_Source = strdup(Src);
m_End = m_Pos+strlen(m_Pos);
mg_Ret = 0;
m_Tokens = strdup(Tokens);
}

~Tokenize()
{
delete m_Source;
if (m_Tokens)
delete m_Tokens;
if (mg_Ret)
delete mg_Ret;
}

const char * GetNextToken()
{
if (mg_Ret)
{
delete mg_Ret;
mg_Ret = 0;
}

if (!*m_Pos)
return 0;

if (m_Tokens)
{
const char * nextpos = token_first();
unsigned curlen = (unsigned)(nextpos - m_Pos + 1);
mg_Ret = (char*)malloc(curlen);
lstrcpyn(mg_Ret,m_Pos,curlen);
m_Pos = nextpos;
if (m_Pos[0]) ++m_Pos;
}

return mg_Ret;
}

private:
const char * m_Pos, * m_Tokens, * m_Source, * m_End;
char * mg_Ret;

const char * token_first()
{
unsigned i = 0;
char c;
const char * m = m_End;
while (c=m_Tokens[i++])
{
char * d = strchr(m_Pos,c);
if (d && d < m)
m = d;
}
return m;
}
};

// ...

int main()
{
Tokenize tok("abc|def|ghi.sex.dax/big/min",".|/");
const char * part;
while (part = tok.GetNextToken())
{
MessageBox(0, part, "Tokenize 1", MB_ICONEXCLAMATION);
}
tok.Reset();
while (part = tok.GetNextToken())
{
MessageBox(0, part, "Tokenize 2", MB_ICONINFORMATION);
}

return 0;
}

// ...

razzzar
17.02.2008, 19:23
KEZ, класс писался под мой проект, и там мне надо чтобы возвращало именно char *, поэтому я его и возвращаю. Кому надо спокойно может переделать чтобы возвращало то что ему нужно ;)
Что тебе не нравится в пустом деструкторе?
Чем напрягает return NULL; это одно и тоже что написать return 0; Все-равно при компиляции компилятор так и сделает, т.к. NULL определен посредством #define в 0 =\

Теперь насчет твоего кода :)

Tokenize(const char * Src,const char * Tokens = "|")
{
m_Pos = m_Source = strdup(Src);
m_End = m_Pos+strlen(m_Pos);
mg_Ret = 0;
m_Tokens = strdup(Tokens);
}

~Tokenize()
{
delete m_Source;
if (m_Tokens)
delete m_Tokens;
if (mg_Ret)
delete mg_Ret;
}

Сначала определяешь строку как m_Source = strdup(Src); средствами crt, а потом ее удаляешь уже средствами C++: delete m_Source; причем правильно было бы указать так: delete [] m_Source;

KEZ
18.02.2008, 00:18
KEZ, класс писался под мой проект, и там мне надо чтобы возвращало именно char *, поэтому я его и возвращаю.


Значит твой проэкт неправильно составлен, т.к. если надо char* - значит ты будешь модифицировать в дальнейшем, что непрвильно.


Что тебе не нравится в пустом деструкторе?


То, что он не несет в себе ничего нужного, зачем его писать?


Сначала определяешь строку как m_Source = strdup(Src); средствами crt, а потом ее удаляешь уже средствами C++: delete m_Source;


Да, надо было написать там соотв. free. Торопился. И lstrcpyn() виндовая - это тоже.

Forcer
18.02.2008, 00:33
Чем напрягает return NULL; это одно и тоже что написать return 0; Все-равно при компиляции компилятор так и сделает, т.к. NULL определен посредством #define в 0 =\
В С++ нет константы NULL. Без подключения заголовочного файла работать не будет, поэтому рекомендуется использовать обычный 0.

razzzar
18.02.2008, 01:02
Forcer,
эта константа есть в заголовочном файле который я подключаю. поэтому напрягом по ее исопльзованию не вижу. все0равно везде заменится на 0. просто я привык при работе с указателями присваивать им NULL, а обычным переменным 0 :)
KEZ,
на счет деструктура ступил, мой косяк :) почему-то показалось что если нельзя объявлять класс без конструктора, то нельзя и без деструктора ) забылся )
а char * у меня там возвращается потому что используется в функциях которые требуют этот тип

noobyara
18.02.2008, 01:41
нельзя объявлять класс без конструктора

я что-то пропустил? откуда этот запрет?

а char * у меня там возвращается потому что используется в функциях которые требуют этот тип
это не тип а указатель на тип, про const совет дельный..

razzzar
18.02.2008, 01:51
noobyara,
читай внимательно =\
почему-то показалось что если нельзя объявлять класс без конструктора, то нельзя и без деструктора ) забылся )
про const я уже как-то сам разберусь, оно не шибко и важно. а про указатели на тип поправляй 5класников ;) всем и так ясно что имелось в виду

noobyara
18.02.2008, 04:06
noobyara,
читай внимательно =\


месяц не курю.. перечитал, еще перечитал...
почему-то показалось, что первая часть предложения несет в себе утверждение("если нельзя объявлять класс без конструктора"), возможно я не дорос до вашего возраста и мне это только кажется..
или вы имели ввиду, что при использовании конструктора обязательно должен использоваться деструктор(что тоже неправильно), тогда вы знаете, что излагать свои мысли правильно учат еще до того момента, как вы пойдете в пятый класс..

noobyara,
а про указатели на тип поправляй 5класников


я про тип упомянул, лишь по тому поводу, что KEZ в своем коде тоже тип char использует, и разница в указателях. это на самом деле не важно, как я теперь понял, и судя по всему, в большей степени зависит не от ситуации, а от человека, пишущего код..

ухожу из темы наоффтопил и так немало, за классы спасибо.

*noobyara ушел учить пятиклашек "азбуке С++"..

Jes
18.02.2008, 12:54
... пока обсуждение не перешло в драку ...closed