Emacs для начинающих


CHARSET и его имя, или Do you forget about Charset ? - часть 3


Windows-1251
Win-1251
CP1251
CP-1251
и т.д.

    Дак вот, схема name mangling по Drepper-у еще как-то работает для ISOxxxx, но совершенно не работает для имен Codepages CP-xxx/IBM-xxx/Windows-xxx. То есть, нужна поддержка Alias:-ов по IANA.

    Вобщем, засада с этим Charset-ом полная.

    Более того, в "чистом" POSIX

вообще невозможно

узнать имя Charset текущей локализации. См. .

    Ситуация даже еще хуже, поскольку для полной поддержки Charset-ов необходимо держать несколько копий man-ов, info и message catlog-ов (см. ) в разных кодировках. То есть, установив LANG=ru_RU.ISO_8859-5 пользователь вправе рассчитывать, что обработка символов, сообщения об ошибках и вывод справочной информации man будет происходить на русском языке в наборе символов ISO_8859-5. А установив LANG=ru_RU.KOI8-R пользователь точно так же вправе рассчитывать, что всю информацию он будет получать также на русском языке, но в кодировке KOI8-R.

    Точно так же для японского языка. Поскольку для японского имеется по крайней мере 4 кодировки : ISO-2022-JP, JIS, Shift-JIS

(CP-932) и EUC, то установив LANG=ja_JP.EUC

пользователь по-видимому желает работать в кодировке EUC, а установив LANG=ja_JP.Shift-JIS

-- в кодировке Shift-JIS.

P.S Одна из редких программ, которая поддерживает Charset-ы "по настоящему" и даже имеет настройки charset.alias -- это mutt : .

P.P.S. Решением проблемы был бы UNICODE как "самый универсальный сharset". Тогда любой другой Charset можно получить из UNICODE

как "логическое сечение". Кстати в последних Solaris-ах есть такая возможность и можно определять en_US.UNICODE, ja_JP.UNICODE, ru_RU.UNICODE e.t.c.

P.P.P.S. К сожалению, X-ы "внутри" не UNICODE-овые и не имеют такого понятия как UNICODE font (в отличие от тех же ). А как было бы все тогда просто...

Содержание ""

Last change : 18-01-2000




- Начало -  - Назад -  - Вперед -