Emacs для начинающих


CHARSET и его имя, или Do you forget about Charset ? - часть 2


     Однако самое полезное в этом документе то, что в нем определено понятие Alias у Сharset.

Name: ISO_8859-1:1987 MIBenum: 4 Source: ECMA registry Alias: iso-ir-100 Alias: ISO_8859-1 Alias: ISO-8859-1 (preferred MIME name) Alias: latin1 Alias: l1 Alias: IBM819 Alias: CP819 Alias: csISOLatin1

    Определена также процедура регистрации новых Charset-ов : : "IANA Charset Registration Procedures." Существует список рассылки (архив списка ).

    Также неплохо ознакомиться с :

  • . "The Report of the IAB Character Set Workshop held 29 February - 1 March, 1996".
  • "IETF Policy on Character Sets and Languages"
  • .

    Довольно обширная подборка документов находится здесь : . См. также коллекцию Charmap-ов от и .

    Но к сожалению, данный документ не является

международным стандартом, а всего лишь "подборка рекомендаций"... И названия

Charset, в отличии от названий Country () и Territory

() для имен , HTTP и MIME  не стандартизованы в ISO...

    Может быть поэтому многие авторы программного обеспечения не поддерживает Charset-ы или механизм Alias:-ов... Например (автор Ulrich Drepper) и XFree86 . Вместо этого например в glibc существует специальный механизм, так называемый name mangling. То есть все символы в имени Charset-а переводятся в lowercase и удаляются все символы "_", "-", "."  e.t.c. Например "ISO_8859-1" превращается в "iso88591". А "KOI8-R" --> "koi8r".

    Ситуация осложняется тем, что когда-то давно IBM и Microsoft ввели понятие , которое теперь фактически имеет значение Charset. А с названиями этих самых Codepages стоит полная путанница :

CP866
CP-866
IBM866
IBM_866
и т.д.

    Или даже как в случае кодовой страницы CP1251, когда в Microsoft Internet Explorer или IIS эта кодировка фигурирует как "Windows-1251".




- Начало -  - Назад -  - Вперед -