В Кремле объяснили стремительное вымирание россиян
Павел Шалин: Особенности национальных доменов Назад
Павел Шалин: Особенности национальных доменов
Каждому, кто хотя бы раз в жизни пользовался Интернетом, наверняка доводилось набирать в адресной строке браузера что-нибудь вроде "нфтвучюкг" вместо "yandex.ru". Использование различных кодировок при наборе символов национальных алфавитов давно уже стало привычным и обыденным явлением для пользователей наиболее распространенных на нашей планете операционных систем, однако при адресации в Глобальной Сети до недавнего времени национальные кодировки, увы, не применялись. Согласно действующему и посейчас стандарту DNS, утвержденному Корпорацией по распределению имен в Интернете (Internet Corporation for Assigned Names, ICANN) и Международной Организацией Стандартизации (International Standard Organization, ISO) для записи доменных имен всех уровней должны использоваться исключительно символы латинского алфавита, цифры или знак дефиса. Однако разговоры о пересмотре стандарта ходили уже довольно давно. Поддержка системой DNS национальных языковых кодировок интересна разработчикам web-сайтов прежде всего тем, что с расширением стандарта автоматически откроется возможность задействовать массу еще не занятых доменных имен, которые в своем "латинском" эквиваленте уже кому-то принадлежат. Таким образом, включение поддержки национальных кодировок откроет "второй фронт" в процессе расширения адресного пространства Глобальной Сети, если в качестве "основного фронта" мы будем рассматривать появление новых общедоступных зон первого уровня. И вот 26 февраля 2001 года дело, наконец, сдвинулось с мертвой точки: международная компания VeriSign ( http://corporate.verisign.com) приступила к предварительному приему заявок на регистрацию доменных имен в национальных кодировках европейских стран, включая кириллицу.

Как это работает?

Как известно, стандарт DNS исторически опирается на спецификацию ASCII, которая позволяет включать в состав доменного имени до 37 символов латиницы, включая цифры и дефис. Однако Интернет стремительно развивался, и уже к концу восьмидесятых годов стало очевидно, что вскоре большую часть пользователей Глобальной Сети составят представители национальностей, не использующих в своей письменности символы латинского алфавита, а в ряде случаев даже испытывающих определенные трудности с освоением английского языка. Первые шаги в этой области были предприняты только в 1999 году, когда в составе международного добровольного объединения web-дизайнеров, IT-инженеров и разработчиков the Internet Engineering Task Force (IETF), была создана инициативная группа исследователей, получившая название Internationalized Domain Name Research Group (IDN) , в задачу которой входило разработать спецификацию для нового многоязыкового стандарта адресации в Интернете, не изменяя при этом базовую структуру DNS, а лишь расширив и усовершенствовав ее. Рабочий вариант новой спецификации протокола доступа к доменам национальных зон IDN представила 8 мая 2001 года, однако экспериментальная регистрация доменных имен с использованием символов японского, китайского и корейского алфавитов производилась компанией VeriSign уже с ноября двухтысячного.

Поскольку одной из основных проблем, с которой столкнулись специалисты IDN, являлось обязательное требование не изменять стандарт DNS, что неизбежно вызвало бы необходимость полностью перестраивать всю систему адресации в Сети, первым и вполне очевидным шагом стало решение строить систему поддержки многоязыковых доменов на уровне национальных зон, а не на уровне общесетевых ресурсов. Иными словами, за поддержку доменов второго уровня, записываемых с использованием национальных символов, должны отвечать технические службы, управляющие соответствующими доменами первого уровня. Вторым шагом стало принятие в качестве промежуточного стандарта записи многоязычных имен спецификации Unicode с последующим преобразованием получившейся последовательности в формат ASCII, с которым "умеют" работать DNS-серверы.

Давайте рассмотрим предложенный IDN механизм преобразования многоязыковых доменов в стандартное представление DNS на примере адреса web-сайта автора этой статьи. Итак, запишем URL искомого ресурса с использованием символов кириллицы в кодировке Windows 1251: ХОЛМОГОРОВ.ru. Известно, что стандарт Unicode (UTF-8) использует для отображения одного символа не один байт, как это принято во всех остальных кодировках, а два, поэтому данная кодировка включает в себя 65536 знаков вместо 256. Для представления кириллицы в адресах Интернет-ресурсов допускается использование символов Unicode в диапазоне шестнадцатеричных кодов 0430-045F, то есть в строчном регистре. Поэтому первая ступень преобразования введенного нами URL заключается в том, чтобы превратить все заглавные буквы в строчные, в результате чего наш адрес будет выглядеть так: холмогоров.ru. Вторая ступень - это трансляция адреса из национальной кодировки (в нашем случае - Win 1251) в промежуточную кодировку Unicode: х=0445; о=043Е; л=043В; м=043С; о=043Е; г=0433; ; о=043Е; р=0440; ; о=043Е; в=0432; "."=002Е; r=0072; u=0075. Перекодировка в Unicode необходима, прежде всего, с целью "унификации" вводимых пользователем адресов, поскольку данный стандарт позволяет представить символы практически всех существующих ныне национальных алфавитов в форме единообразных шестнадцатеричных кодов. И, наконец, последняя ступень - преобразование адреса Unicode в предложенный IDN стандарт ACE (ASCII Compatible Encoding), позволяющий представлять любой адрес в формате ASCII с использованием специального префикса, который на этапе предварительного тестирования стандарта выглядит так: bq--. Такое преобразование принято называть RACE-преобразованием. Итак, специальные программные конвертеры превращают полученный нами набор кодов Unicode в формат ACE, после чего адрес будет выглядеть следующим образом: bq--arct4oz4hyzt4qb6gi.ru. А подобный адрес, фактически записанный в ASCII, прекрасно умеют обрабатывать уже существующие ныне DNS-серверы, которые в ответ на данный запрос вернут соответствующий этому домену IP-адрес.

До настоящего момента остался практически не освещенным вопрос, каким образом будет осуществляться преобразование многоязыковых адресов в ACE на практике. Перекодировка на стороне клиента требует поддержки RACE пользовательским программным обеспечением; альтернативный подход подразумевает обработку многоязыковых запросов на стороне сервера. В настоящий момент существует несколько различных схем обработки многоязыковых запросов, каждая из которых подробно описана на информационном сайте http://www.nic.ru/info/, принадлежащем российской компании "RU-Center". Остается лишь добавить, что в текущий момент времени предложенный IDN стандарт находится в стадии предварительного тестирования, однако уже сейчас существует достаточно подробный проект поддержки многоязыковых доменов в зоне .RU, работы над реализацией которого ведутся специально созданной для этих целей инициативной группой. Регистрация и использование

Одним из фундаментальных принципов регистрации нового домена всегда была и остается задача обеспечения его уникальности. Пока еще окончательно не решен вопрос, будут ли заноситься в реестр записи о регистрируемых доменах в форме кириллицы, или в виде уже преобразованных RACE-последовательностей, однако специалисты компании "RU-Center" утверждают, что в целом процедура регистрации будет соответствовать уже существующему регламенту регистрации доменов для зоны .RU.

Для использования многоязыкового стандарта адресации пользователь должен будет загрузить и установить на своем компьютере специальную программу, которая носит название IDN-клиента. Предполагается, что в ближайшем будущем появятся как минимум два различных класса IDN-клиентов: первые из них будут выполнены в виде надстроек к браузеру (plug-ins), вторые в процессе установки будут встраиваться в операционную систему, что позволит обращаться к многоязыковым доменам из FTP-клиентов и почтовых программ. Ожидается также, что локализованные версии IDN-клиентов позволят полностью набирать URL без необходимости переключения кодировки клавиатуры, например, "хттп://ввв.холмогоров.ру" вместо "http://www.холмогоров.ru". Предварительные бета-версии IDN-клиентов уже сейчас можно скачать с сайтов http://www.i-dns.com и http://www.walid.com.

Возможные проблемы

Основной недостаток, который становится очевидным при подробном рассмотрении перспективы появления многоязыковых доменов - это невозможность обратиться к такому ресурсу для пользователей, операционная система которых не поддерживает соответствующий национальный стандарт. С одной стороны, технология IDN и рассчитана в первую очередь на применение в узконациональной сфере Всемирной Сети, другими словами, web-сайты, имеющие записанный с использованием символов китайского алфавита домен будут ориентированы именно на китайцев, домены, содержащие кириллицу - на русских. С другой стороны, довольно большое количество наших соотечественников постоянно или временно проживает за границей, и многие из них не имеют возможности использовать локализованное программное обеспечение, что автоматически отсекает от русскоязычных сайтов, вызываемых по русскоязычному же URL, всю зарубежную аудиторию, говорящую на родном для разработчиков данного ресурса языке. Вторая проблема - это запись гиперссылок на содержащие кириллицу адреса в документах HTML. Исторически в Рунете принятой по умолчанию считается кодировка KOI8-R, в то время как стандарт IDN в большей степени ориентирован на кодировки Windows и Unicode. Функции автоматического преобразования документов в кодировку, на которую настроен клиентский браузер, (такая функция присутствует, например, в русской локализации http-сервера Apache), могут запросто превратить запись http://www.яндекс.ru в http://www.пЭФХЪб.ru, что сделает переход по такой ссылке невозможным. Единственным разумным методом борьбы с имеющимся в русскоязычном Интернете обилием кодировок кириллицы может стать представление гиперссылок в форме RACE-последовательностей, что, однако, заметно снижает удобство при разработке web-страниц.

Как бы то ни было, работы по внедрению многоязыковых доменов для адресации в Интернете идут полным ходом. Приживется ли новый стандарт, или его ждет забвение, удастся ли разработчикам web-сайтов и техническим специалистам преодолеть все связанные с использованием IDN проблемы мы узнаем уже в самом ближайшем будущем.

По материалам АНО "Региональный Сетевой Информационный Центр".

18.09.2003

Док. 513914
Перв. публик.: 18.09.03
Последн. ред.: 31.10.08
Число обращений: 212

  • Холмогоров Валентин (Шалин Павел Андреевич)

  • Разработчик Copyright © 2004-2019, Некоммерческое партнерство `Научно-Информационное Агентство `НАСЛЕДИЕ ОТЕЧЕСТВА``