Что такое текст ASCII и как он используется?

ASCII – это аббревиатура, которую вы, возможно, слышали в отношении компьютерного текста, но этот термин быстро выходит из употребления благодаря более мощному новичку. Но что такое ASCII и для чего он используется?

Что означает ASCII?

Возможно, проще всего начать с самого акронима, поэтому давайте расширим его:

Merican S tandard С одой ибо я нформация я nterchange

Эта фраза на самом деле не дает полной картины, но некоторые части сразу предлагают некоторые подсказки, особенно первые два слова. ASCII – это американский стандарт, значение которого скоро станет очевидным.

«Код для обмена информацией» предполагает, что мы говорим о формате для передачи данных туда и обратно. В частности, ASCII имеет дело с текстовыми данными: символами, составляющими слова на обычно удобочитаемом языке.

ASCII решает проблему присвоения значений буквам и другим символам, чтобы, когда они хранятся как единицы и нули в файле, их можно было преобразовать обратно в буквы, когда файл будет прочитан позже. Если разные компьютерные системы соглашаются использовать один и тот же код, такая информация может надежно обмениваться.

По теме: Как найти символы и узнать их значение

История ASCII

ASCII, который иногда называют US-ASCII, был американской инновацией, разработанной в 1960-х годах. Стандарт претерпел множество изменений с момента последнего обновления ASCII, в основном в 1977 и 1986 годах.

Расширения и вариации основывались на ASCII на протяжении многих лет, главным образом для того, чтобы удовлетворить тот факт, что ASCII опускает многие символы, используемые или даже требуемые языками, отличными от американского английского. ASCII даже не обслуживает символ валюты Великобритании («£»), хотя фунт присутствует в Latin-1, 8-битном расширении, разработанном в 1980-х годах, которое также кодирует несколько других валют.

ASCII был значительно расширен, и ему на смену пришел Unicode, гораздо более полный и амбициозный стандарт, который обсуждается ниже. В 2008 году Unicode обогнал ASCII по популярности для использования в Интернете.

Какие символы представляет ASCII?

Для компьютера буква «А» так же незнакома, как фиолетовый цвет или чувство ревности. Компьютеры работают с единицами и нулями, и люди сами решают, как использовать эти единицы и нули для представления чисел, слов, изображений и всего остального.

Вы можете думать об ASCII как об азбуке Морзе в цифровом мире – во всяком случае, первая попытка. В то время как код Морзе используется для представления всего 36 различных символов (26 букв и 10 цифр), ASCII был разработан для представления до 128 различных символов в 7 битах данных.

ASCII чувствителен к регистру, то есть представляет 52 буквы верхнего и нижнего регистра английского алфавита. Вместе с теми же 10 цифрами это примерно половина используемого пространства.

Знаки пунктуации, математические и типографические символы занимают остаток, а также набор управляющих символов, которые представляют собой специальные непечатаемые коды с функциональными значениями – подробнее см. Ниже.

Вот некоторые типичные символы, которые кодирует ASCII:

Двоичный Десятичный символ
010 0001 33 !
011 0000 48 0
011 1001 57 9
011 1011 59 ;
100 0001 65 А
100 0010 66 B
101 1010 90 Z
101 1011 91 [
110 0001 97 а
110 0010 98 б
111 1101 125 }

Обратите внимание, что выбранные значения обладают некоторыми полезными свойствами, в частности:

  • Буквы одного и того же регистра всегда можно отсортировать численно, поскольку они в порядке. Например, A имеет более низкое значение, чем B, которое имеет более низкое значение, чем Z.
  • Буквы в разных регистрах смещены ровно на 32. Это позволяет очень легко переводить между нижним и верхним регистром, поскольку в любом случае для каждой буквы нужно переключать только один бит.

Управляющие персонажи

Помимо букв, знаков препинания и цифр, ASCII может представлять ряд управляющих символов, специальных кодовых точек, которые не производят односимвольный вывод, а вместо этого предоставляют альтернативные значения данных для того, что может их использовать.

Например, ASCII 000 1001 – это символ горизонтальной табуляции. Он представляет собой пространство, которое вы получите при нажатии клавиши TAB. Обычно вы не увидите таких персонажей напрямую, но их эффект будет часто отображаться. Вот еще несколько примеров:

Двоичный Десятичный символ
000 1001 9 Горизонтальная вкладка
000 1010 10 Перевод строки
001 0111 23 Конец блока передачи

А как насчет других персонажей?

ASCII имел огромный успех на заре компьютерных технологий, поскольку был прост и широко распространен. Однако в мире с более интернациональным мировоззрением одна система письма просто не справится. Современное общение должно быть возможным на французском, японском – фактически, на любом языке, на котором мы можем хранить текст.

Набор символов Unicode может адресовать в общей сложности 1112 064 различных символа, хотя фактически в настоящее время определено только около одной десятой из них. Может показаться, что это много, но кодировка предназначена не только для обработки десятков тысяч китайских иероглифов, но также охватывает смайлики (почти полторы тысячи) и даже вымершие системы письма, такие как чжурчжэнь.

Связанный: Объяснение 100 самых популярных эмодзи

Unicode признал преобладание ASCII в выборе первых 128 символов: они точно такие же, как ASCII. Это позволяет использовать файлы в кодировке ASCII в ситуациях, когда ожидается Unicode, обеспечивая обратную совместимость.

Резюме

Текст ASCII представляет собой 26 букв английского алфавита с добавленными цифрами, пунктуацией и несколькими другими символами. Он отлично служил своей цели на протяжении большей части полувека,

Теперь его заменил Unicode, который поддерживает огромное количество языков и других символов, включая эмодзи. UTF-8 – это для всех практических целей кодировка, которая должна использоваться для представления символов Unicode в Интернете.