Как выглядит "123" в UNICODE? |

12.10.2009, 09:26
|
|
Флудер
Регистрация: 21.06.2006
Сообщений: 3,193
С нами:
10467746
Репутация:
4738
|
|
Как выглядит "123" в UNICODE?
В HEX виде это что?
Мои варианты:
EF BB BF 31 32 33 - это вид "123" в hex (UTF8)
FE FF 00 31 00 32 00 33 - это "123" в hex (UCS2-big endian)
FF FE 31 00 32 00 33 00 - это "123" в hex (UCS2-little endian)
Какой из них верный?
P.S. Я так понял для x86 это третий вариант.
Последний раз редактировалось -=lebed=-; 12.10.2009 в 09:29..
|
|
|

12.10.2009, 09:30
|
|
Постоянный
Регистрация: 30.08.2005
Сообщений: 730
С нами:
10892546
Репутация:
2274
|
|
Эмм.. HEX это 16ричная система просто, и получаеца код букофке в 16 ричной системе
Ну 123 это 31 32 33 ИМХО
Последний раз редактировалось Ponchik; 12.10.2009 в 09:40..
|
|
|

12.10.2009, 09:34
|
|
Флудер
Регистрация: 21.06.2006
Сообщений: 3,193
С нами:
10467746
Репутация:
4738
|
|
Сообщение от Ponchik
Эмм.. HEX это 16ричная система просто, и получаеца код букофке в 16 ричной системе
Ну 123 это 31 32 33 ИМХО
Это в ASCII так. В Unicode каждая буковка это минимум 2 байта. (в UTF-8 только 1 байт для символов с кодами менее 0x00000080)
|
|
|

12.10.2009, 09:40
|
|
Постоянный
Регистрация: 30.08.2005
Сообщений: 730
С нами:
10892546
Репутация:
2274
|
|
Давай проверим
номер символа "1" это 49 в 10-и ричной
49(10) = 31(16)
номер символа "2" это 50 в 10-и ричной
50(10) = 32(16)
номер символа "3" это 51 в 10-и ричной
51(10) = 33(16)
31 32 33
Но я тебя всёравно непонял, такчто хз 
====
Это я всё про HEX, а UNICODE хз
Последний раз редактировалось Ponchik; 12.10.2009 в 09:47..
|
|
|

12.10.2009, 09:59
|
|
Флудер
Регистрация: 21.06.2006
Сообщений: 3,193
С нами:
10467746
Репутация:
4738
|
|
Сообщение от Ponchik
Это я всё про HEX, а UNICODE хз
_http://ru.wikipedia.org/wiki/UTF-16
|
|
|

12.10.2009, 09:48
|
|
Участник форума
Регистрация: 19.05.2007
Сообщений: 281
С нами:
9989619
Репутация:
106
|
|
00 31 00 32 00 33 имхо
|
|
|

12.10.2009, 09:59
|
|
Познавший АНТИЧАТ
Регистрация: 12.07.2008
Сообщений: 1,705
С нами:
9384806
Репутация:
1350
|
|
49 00 50 00 51 00
|
|
|

12.10.2009, 10:12
|
|
Познавший АНТИЧАТ
Регистрация: 22.11.2007
Сообщений: 1,822
С нами:
9720289
Репутация:
1549
|
|
1.1 (соответствует стандарту ISO/IEC 10646—1:1993), стандарт 1991-1995 гг
2.0, 2.1 (тот же стандарт ISO/IEC 10646—1:1993 плюс дополнения: «Amendments» с 1-го по 7-е и «Technical Corrigenda» 1 и 2), стандарт 1996 г
3.0 (стандарт ISO/IEC 10646—1:2000), стандарт 2000 г
3.2 (стандарт 2002 года)
4.0 (стандарт 2003)
4.01 (стандарт 2004)
4.1 (стандарт 2005)
5.0 (стандарт 2006)
5.1 (стандарт 2008)
5.2 (стандарт 2009)

|
|
|

12.10.2009, 10:13
|
|
Постоянный
Регистрация: 10.12.2005
Сообщений: 939
С нами:
10746345
Репутация:
929
|
|
Не проще ли было написать в редакторе "123", сохранить в нужной кодировке и посмотреть на результат?!
Последний раз редактировалось spider-intruder; 12.10.2009 в 10:47..
|
|
|

12.10.2009, 10:24
|
|
Флудер
Регистрация: 21.06.2006
Сообщений: 3,193
С нами:
10467746
Репутация:
4738
|
|
Сообщение от spider-intruder
Не проше ли было написать в редакторе "123", сохранить в нужной кодировке и посмотреть на результат?!
По твоему я как делал?
Порядок байтов
В потоке данных UTF-16 старший байт может записываться либо перед младшим (UTF-16 Big Endian), либо после младшего (UTF-16 Little Endian). Иногда кодировку Юникода Big Endian (UTF-16BE) называют Юникодом с обратным порядком байтов. Аналогично существует два варианта четырёхбайтной кодировки — UTF-32BE и UTF-32LE.
Для определения формата представления Юникода в текстовом файле используется приём, по которому в начале текста записывается символ U+FEFF (неразрывный пробел с нулевой шириной), также именуемый меткой порядка байтов (англ. Byte Order Mark, BOM). Этот способ позволяет различать UTF-16LE и UTF-16BE, поскольку символа U+FFFE не существует. Также он иногда применяется для обозначения формата UTF-8, хотя к этому формату и неприменимо понятие порядка байтов. Файлы, следующие этому соглашению, начинаются с таких последовательностей байтов:
UTF-8
EF BB BF
UTF-16BE
FE FF
UTF-16LE
FF FE
UTF-32BE
00 00 FE FF
UTF-32LE
FF FE 00 00
Файлы в кодировках UTF-16 и UTF-32, не содержащие BOM, должны иметь порядок байтов big-endian (unicode.org).
К сожалению, этот способ не позволяет надёжно различать UTF-16LE и UTF-32LE, поскольку символ U+0000 допускается Юникодом (хотя реальные тексты редко начинаются с него).
Последний раз редактировалось -=lebed=-; 12.10.2009 в 10:38..
|
|
|
|
 |
|
Похожие темы
|
| Тема |
Автор |
Раздел |
Ответов |
Последнее сообщение |
|
Взлом домофона Метаком
|
andreipup |
Болталка |
11 |
14.08.2009 16:06 |
|
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
|
|
|
|