Анализ эволюции технических стандартов и странности кодировки. Часть 1.

Анализ эволюции технических стандартов и странности кодировки. Часть 1.

На сегодняшний день веб-разработка в целом пока еще не достигла той ступени эволюции, когда чисто технические средства воплощения различных идей и решений в Сети утратили бы свою актуальность. Согласитесь, ну что за Мастер без инструментов? Ну что за профессионал, который не знает исторической подоплеки своего дела? Настоящий Мастер просто обязан свободно ориентироваться в непролазных джунглях современного Интернета, зорко следить за тем, чтобы его сайты соответствовали современным стандартам и спецификациям. Но как развивались эти стандарты? Почему сегодня к сайтам предъявляются именно такие требования? В этой статье реализована попытка анализа эволюции различных стандартов, а также инструментов разработчика.

С того самого момента, когда Глобальная Паутина WWW (World Wide Web) была раскинута над миром, начали создаваться и множиться самые разнообразные, еще экспериментальные интернет технологии.

В 1989 году, когда Тим Бернерс-Ли, трудясь в CERN (Европейский Центр ядерных исследований) над внутренней сетью, предложил глобальный гипертекстовый проект, ныне известный, как WWW, к протоколам передачи данных, равно как и к их графическому представлению, предъявлялись чрезвычайно низкие требования. Идеологические и формальные стандарты в то время, полностью удовлетворяли потребности пользователей тех лет – PHP (тогда еще Personal Home Page – персональная домашняя страничка, а не современный Hypertext Preprocessor – препроцессор гипертекста, современный язык веб-программирования), сообщения электронной почты.

Проект же Тима Бернерса-Ли подразумевал возможность публикации различных гипертекстовых документов, которые бы перевязывались между собою гиперссылками, что значительно облегчит поиск и структурирование информации. Для реализации и запуска проекта, в свою очередь, создаются идентификаторы URL (Uniform Resource Locator – идентификатор местоположения в Сети), протокол передачи данных http:// (HyperText Transfer Protocol – протокол передачи гипертекста) и адекватный новым технологиям язык HTML (HyperText Markup Language — язык разметки гипертекста).

Проект запущен. Начинается его массовое внедрение и использование. Паутина стремительно растет. Формируются новые сектора и сегменты. Обнаруживается масса всевозможных ошибок, потоки данных сложно контролировать, передаваемые данные никак не защищены, находясь практически в открытом доступе. Стремительно изменяются протоколы, принципы сетевых коммуникаций пересматриваются, пишутся новые программы, создаются новые интернет-обозреватели, ужесточаются требования к протоколам передачи данных, внедряются кодировки.

В таких непростых условиях техническая грамотность разработчика приобретает качественно новое значение. Рядовой юзер, пользователь, начинает просто боготворить веб-разработчика.

В полной мере оценить значение «Большого Взрыва» в Сети, который произошел в горячих 90-х годах, а также последствия компьютерной революции смогут, наверное, лишь архивариусы интернета, историки, посвятившие свою жизнь изучению различных фактов преобразования Сети. Дело, надо сказать, занятное и весьма полезное. Без всех этих стремительных метаморфоз компьютер сегодня так и остался бы не более, чем средством систематизации, каталогизации и структурирования различных офисных работ.

Сегодня пользователь – не просто потребитель, пассивный участник, наблюдающий неведомые процессы, он – деятель, соучастник, создатель.

Странности кодировки

Нельзя не согласиться с тем утверждением, что настоящий мастер своего дела должен не только располагать необходимыми инструментами для работы, не только виртуозно владеть ими, но также знать и понимать истоки своего мастерства.

Данная тема может быть актуальной не только специалистам веб-разработки, поисковым оптимизаторам, но и рядовым пользователям, которые имеют дело в основном с кириллицей, кириллическим алфавитом. Углубляясь в тему кодировок, многие могут освоить и некоторые общие принципы обработки и передачи информации, без чего знания о мире WEB были бы неполными.

Что же такое кодировка?

В обобщенном, пользовательском варианте, кодировку (encoding) можно определить, как абсолютное соответствие между множеством целых чисел, следующих подряд и некоторым набором символов. Другими словами – это кодовая таблица, в которой представлены те самые соответствия между числом и символом, буквально – шифр. Понятие символ, в данном случае, следует рассматривать как основополагающее понятие. Символ может быть представлен какой-то буквой, а может и не буквой. Символ может изображаться графически, посредством какого-либо знака, но может существовать и без какого-либо визуализированного, зримого образа. Символ может соответствовать какому-то звуку речи, а может и не соответствовать. Символ – это нерушимая, неделимая, самая мельчайшая единица информации, самое ядро Смысла.

Рассмотрим «А» латинскую и «А» кириллическую. Несмотря на внешнюю идентичность - это все же разные символы, они употребляются в различных контекстах и содержат в себе различную информационную составляющую. Важным аспектом любой кодировки служит количество охватываемых ею символов и, соответственно, кодов. Следует напомнить, что текстовая информация воспринимается компьютером, как последовательность байтов.

Байт – это некая единица информации, равная восьми битам. Это двоичное машинное слово, способное сохранять один буквенно-цифровой символ, минимальный набор данных, способный принимать одно из 256 значений. Именно поэтому, кодировки естественно распадаются на однобайтовые и двухбайтовые. Их еще называют восьми и шестнадцати битные. Соответственно, двухбайтовая кодировка способна закодировать не более 256 различных символов, емкость же двухбайтовой кодировки способна достигать 65636 ячеек для знаков.

Большой странностью в мире WEB заслуженно считается кодировка ASCII (American Standard Code for Information Interchange – американский стандартный код обмена информацией). В чем же ее странность? Дело в том, что кодировка ASCII также является восьмибитной, но способна охватывать только 128 символов, а не 256. Она обходится только семью значимыми битами, а старший бит – восьмой, всегда имеет значение ноль. Кодировка ASCII содержит латинский алфавит, основные знаки пунктуации и цифры. Важно то, что все остальные, гораздо более вместительные по своему размеру кодировки, совместимы с кодировкой ASCII. То есть способны размещать на первых своих ста двадцати восьми знакоместах идентичные символы в той же последовательности.

Управляющие символы (control characters) кодировки ASCII занимают в ней первые тридцать две позиции. Они предназначены исключительно для управления считывающим текстовой файл или принимающим по линии связи устройством, но никак не для передачи самой текстовой информации, как многие ошибочно полагают. Интересным моментом этой кодировки является то, что до сих пор, когда научно-технический прогресс шагнул далеко вперед, а компьютерные технологии совершенствуются с каждой минутой, в кодировке ASCII еще сохранились, используемые до сих пор в общепринятых значениях символы-атавизмы, как то: возврат каретки, табуляция, перевод строки. Многие другие уже давно вышли из пользования, но в стародавние времена именно они выполняли те самые функции, которые в наши дни возложены на современные форматы данных и протоколы передачи данных.

Напоминаем, что на Родине Линков Вы можете получить самую разнообразную и исчерпывающую информацию из мира SEO и интернет-технологий. Совершенствуйтесь вместе с нами. По вопросам поисковой оптимизации и белого продвижения сайтов обращайтесь к нашим специалистам. Они знают и любят свое дело.

Автор , на 2 октября 2013 г. в Термины.

Расскажите друзьям:


Комментарии

Комментирование отключено.

Услуги
Спецпредложения

Подписка на блог

без спама, не чаще одного раза в неделю

Кто победит?

SEM

SMM