Imagesforyou.ru

IMG FOR YOU — ИНТЕРЬЕРНАЯ ФОТОСТУДИЯ
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Кодирование текстовой информации

Кодирование текстовой информации

Кодирование текстовой информации

Если у вас имеются какие-либо непонимания с такой темой, как «Кодирование текстовой информации», то записывайтесь ко мне на индивидуальный урок по информатике. На репетиторском уроке мы с вами детально разберем абсолютно все возникшие у вас вопросы и прорешаем колоссальное количество тематических упражнений.

Чем отличается кодирование от шифрования?

Зачастую люди отождествляют понятия «кодирование» и «шифрование», когда на самом деле они имеют разный смысл. Так, шифрованием называют процесс преобразования информации с целью ее сокрытия. Расшифровать зачастую может сам человек, который изменил текст, или специально обученные люди. Кодирование же применяется для обработки информации и упрощения работы с ней. Обычно используется общая таблица кодировки, знакомая всем. Она же встроена в компьютер.

почему двоичное кодирование является универсальным

§ 1.3. Двоичное кодирование

Для решения своих задач человеку часто приходится преобразовывать имеющуюся информацию из одной формы представления в другую. Например, при чтении вслух происходит преобразование информации из дискретной (текстовой) формы в непрерывную (звук). Во время диктанта на уроке русского языка, наоборот, происходит преобразование информации из непрерывной формы (голос учителя) в дискретную (записи учеников).

Информация, представленная в дискретной форме, значительно проще для передачи, хранения или автоматической обработки. Поэтому в компьютерной технике большое внимание уделяется методам преобразования информации из непрерывной формы в дискретную.

Дискретизация информации — процесс преобразования информации из непрерывной формы представления в дискретную.

Рассмотрим суть процесса дискретизации информации на примере.

На метеорологических станциях имеются самопишущие приборы для непрерывной записи атмосферного давления. Результатом их работы являются кривые, показывающие, как изменялось давление в течение длительных промежутков времени (барограммы). Одна из таких кривых, вычерченная прибором в течение семи часов проведения наблюдений, показана на рис. 1.4.

Рис. 1.4.
Барограмма

На основании полученной информации можно построить таблицу, в которую будут занесены показания прибора в начале измерений и на конец каждого часа наблюдений (рис. 1.5).

Рис. 1.5.
Таблица, построенная по барограмме

Полученная таблица даёт не совсем полную картину того, как изменялось давление за время наблюдений: например, не указано самое большое значение давления, имевшее место в течение четвёртого часа наблюдений. Но если занести в таблицу значения давления, наблюдаемые каждые полчаса или 15 минут, то новая таблица будет давать более полное представление о том, как изменялось давление.

Таким образом, информацию, представленную в непрерывной форме (барограмму, кривую), мы с некоторой потерей точности преобразовали в дискретную форму (таблицу).

Читайте так же:
Динамика цен на электронику

В дальнейшем вы познакомитесь со способами дискретного представления звуковой и графической информации.

1.3.2. Двоичное кодирование

В общем случае, чтобы представить информацию в дискретной форме, её следует выразить с помощью символов какого-нибудь естественного или формального языка. Таких языков тысячи. Каждый язык имеет свой алфавит.

Алфавит — набор отличных друг от друга символов (знаков), используемых для представления информации. Мощность алфавита — это количество входящих в него символов (знаков).

Алфавит, содержащий два символа, называется двоичным алфавитом (рис. 1.6). Представление информации с помощью двоичного алфавита называют двоичным кодированием. Закодировав таким способом информацию, мы получим её двоичный код.

Рис. 1.6.
Примеры символов двоичного алфавита

Рассмотрим в качестве символов двоичного алфавита цифры 0 и 1.

Покажем, что любой алфавит можно заменить двоичным алфавитом. Прежде всего, присвоим каждому символу рассматриваемого алфавита порядковый номер. Номер представим с помощью двоичного алфавита. Полученный двоичный код будем считать кодом исходного символа (рис. 1.7).

Рис. 1.7.
Схема перевода символа произвольного алфавита в двоичный код

Если мощность исходного алфавита больше двух, то для кодирования символа этого алфавита потребуется не один, а несколько двоичных символов. Другими словами, порядковому номеру каждого символа исходного алфавита будет поставлена в соответствие цепочка (последовательность) из нескольких двоичных символов.

Правило двоичного кодирования символов алфавита мощности больше двух представим схемой на рис. 1.8.

Рис. 1.8.
Схематическое представление получения двоичных кодов

Двоичные символы (0, 1) здесь берутся в заданном алфавитном порядке и размещаются слева направо. Двоичные коды (цепочки символов) читаются сверху вниз. Все цепочки из двух двоичных символов (кодовые комбинации) позволяют представить четыре различных символа произвольного алфавита:

Цепочки из трёх двоичных символов получаются дополнением двузначных двоичных кодов справа символом 0 или 1. В итоге трёхзначных двоичных кодовых комбинаций получается 8 — вдвое больше, чем двузначных:

Соответственно, четырёхзначный двоичный код позволяет получить 16 кодовых комбинаций, пятизначный — 32, шестизначный — 64 и т. д.

Длину двоичной цепочки — количество символов в двоичном коде — называют разрядностью двоичного кода.

Обратите внимание, что 2 = 2 1 , 4 = 2 2 , 8 = 2 3 , 16 = 2 4 , 32 = 2 5 и т. д.

Если количество кодовых комбинаций обозначить буквой N, а разрядность двоичного кода — буквой i, то выявленная закономерность в общем виде будет записана так:

Задача. Вождь племени Мульти поручил своему министру разработать двоичный код и перевести в него всю важную информацию. Какой разрядности потребуется двоичный код, если алфавит, используемый племенем Мульти, содержит 16 символов? Выпишите все кодовые комбинации.

Читайте так же:
Без доступа к интернету через модем

Решение. Так как алфавит племени Мульти состоит из 16 символов, то и кодовых комбинаций им нужно 16. В этом случае длина (разрядность) двоичного кода определяется из соотношения: 16 = 2 i . Отсюда i=4.

Чтобы выписать все кодовые комбинации из четырёх 0 и 1, воспользуемся схемой на рис. 1.8: 0000, 0001, 0010, ООН, 0100, 0101, 0110, 0111, 1000, 1001, 1010, 1011, 1100, 1101, 1110, 1111.

На сайте http://school-collection.edu.ru/ размещена виртуальная лаборатория «Цифровые весы». С её помощью вы можете самостоятельно открыть метод разностей — один из способов получения двоичного кода целых десятичных чисел.

1.3.3. Универсальность двоичного кодирования

В начале этого параграфа вы узнали, что информация, представленная в непрерывной форме, может быть выражена с помощью символов некоторого естественного или формального языка. В свою очередь, символы произвольного алфавита могут быть преобразованы в двоичный код. Таким образом, с помощью двоичного кода может быть представлена любая информация на естественных и формальных языках, а также изображения и звуки (рис. 1.9). Это и означает универсальность двоичного кодирования.

Рис. 1.9.
Преобразование различных форм представления информации в двоичный код

Двоичные коды широко используются в компьютерной технике, требуя только двух состояний электронной схемы — «включено» (это соответствует цифре 1) и «выключено» (это соответствует цифре 0).

Простота технической реализации — главное достоинство двоичного кодирования. Недостаток двоичного кодирования — большая длина получаемого кода.

1.3.4. Равномерные и неравномерные коды

Различают равномерные и неравномерные коды. Равномерные коды в кодовых комбинациях содержат одинаковое число символов, неравномерные — разное.

Выше мы рассмотрели равномерные двоичные коды.

Примером неравномерного кода может служить азбука Морзе, в которой для каждой буквы и цифры определена последовательность коротких и длинных сигналов. Так, букве Е соответствует короткий сигнал («точка»), а букве Ш — четыре длинных сигнала (четыре «тире»). Неравномерное кодирование позволяет повысить скорость передачи сообщений за счёт того, что наиболее часто встречающиеся в передаваемой информации символы имеют самые короткие кодовые комбинации.

Самое главное

Дискретизация информации — процесс преобразования информации из непрерывной формы представления в дискретную. Чтобы представить информацию в дискретной форме, её следует выразить с помощью символов какого-нибудь естественного или формального языка.

Алфавит языка — набор отличных друг от друга символов, используемых для представления информации. Мощность алфавита — это количество входящих в него символов.

Алфавит, содержащий два символа, называется двоичным алфавитом. Представление информации с помощью двоичного алфавита называют двоичным кодированием. Двоичное кодирование универсально, так как с его помощью может быть представлена любая информация.

Читайте так же:
Бюджетная игровая клавиатура с подсветкой

Вопросы и задания

  1. С какой целью человек осуществляет преобразование информации из одной формы представления в другую? Приведите примеры таких преобразований.
  2. В чём суть процесса дискретизации информации?
  3. Что такое алфавит языка?
  4. Что такое мощность алфавита? Может ли алфавит состоять из одного символа?
  5. Какие символы могут входить в двоичный алфавит?
  6. Сколько существует различных последовательностей из символов «плюс» и «минус» длиной ровно пять символов?
  7. Почему двоичное кодирование является универсальным?
  8. Как связаны мощность алфавита и разрядность двоичного кода, достаточного для кодирования всех символов этого алфавита?
  9. Вождь племени Мульти поручил своему министру разработать двоичный код и перевести в него всю важную информацию. Достаточно ли пятиразрядного двоичного кода, если алфавит, используемый племенем Мульти, содержит 26 символов?
  10. От разведчика была получена следующая шифрованная радиограмма, переданная с использованием азбуки Морзе:

При передаче радиограммы было потеряно разбиение на буквы, но известно, что в радиограмме использовались только следующие буквы:

Стандарты кодирования

В таблице ниже сравниваются наиболее часто используемые формы кодирования двоичного кода в текст. Указанная эффективность — это соотношение между количеством бит на входе и количеством бит в закодированном выходе.

«Соглашение о 128-битных ключах, удобочитаемых человеком ». Ряд маленьких английских слов легче читать, запоминать и набирать, чем десятичные или другие системы кодирования двоичного текста. Каждое 64-битное число сопоставляется с шестью короткими словами от одного до четырех символов каждое из общедоступного словаря на 2048 слов.

95 кодов печати с 32 по 126 известны как печатаемые символы ASCII .

Некоторые старые и сегодня необычные форматы включают кодировку BOO, BTOA и USR.

Большинство этих кодировок генерируют текст, содержащий только подмножество всех печатаемых символов ASCII : например, кодировка base64 генерирует текст, который содержит только прописные и строчные буквы (A – Z, a – z), цифры (0–9) , а также символы «+», «/» и «=».

Некоторые из этих кодировок (кодирование в кавычках и процентное кодирование) основаны на наборе разрешенных символов и одном escape-символе . Разрешенные символы остаются неизменными, а все остальные символы преобразуются в строку, начинающуюся с escape-символа. Такое преобразование позволяет полученному тексту быть почти читаемым, поскольку буквы и цифры являются частью разрешенных символов и, следовательно, остаются такими, как они есть в закодированном тексте. Эти кодировки обеспечивают самый короткий простой вывод ASCII для ввода, который в основном является печатаемым ASCII.

Читайте так же:
Живые обои на заставку компьютера

Некоторые другие кодировки ( base64 , uuencoding ) основаны на отображении всех возможных последовательностей из шести битов в различные печатаемые символы. Поскольку имеется более 2 6 = 64 печатных символа, это возможно. Данная последовательность байтов транслируется, рассматривая ее как поток битов, разбивая этот поток на блоки по шесть бит и генерируя последовательность соответствующих символов. Различные кодировки различаются отображением между последовательностями битов и символов и форматированием результирующего текста.

Некоторые кодировки (исходная версия BinHex и рекомендуемая кодировка для CipherSaber ) используют четыре бита вместо шести, отображая все возможные последовательности из 4 битов на 16 стандартных шестнадцатеричных цифр. Использование 4 бита на кодированный символ приводит к увеличению длины вывода на 50% по сравнению с base64, но упрощает кодирование и декодирование — расширение каждого байта в источнике независимо до двух закодированных байтов проще, чем расширение base64 с 3 исходных байтов до 4 закодированных байтов.

Из первых 192 кодов PETSCII 164 имеют видимые изображения в кавычках: 5 (белый), 17–20 и 28–31 (цвета и элементы управления курсором), 32–90 (эквивалент ascii), 91–127 (графика), 129 (оранжевый), 133–140 (функциональные клавиши), 144–159 (цвета и элементы управления курсором) и 160–192 (графика). Это теоретически разрешает кодирование, такое как base128, между машинами, говорящими на языке PETSCII.

Кодирование текстов

При кодировании текста каждому символу присваивается какое-то значение, например, порядковый номер.

Первый популярный компьютерный стандарт кодирования текста имеет название ASCII (American Standart Code for Information Interchange), в котором для кодирования каждого символа используются 7 бит.

7-ю битами можно закодировать 128 символов: большие и маленькие латинские буквы, цифры, знаки препинания, а так же специальные символы, например, «§».

Стандарту создавали разные варианты, дополняя код до 8 бит (256 символов), чтобы можно было кодировать национальные символы, например, латышскую букву ā.

Но 256 символов не хватило, чтобы кодировать все символы разных алфавитов, поэтому создали новые стандарты. Один из самых популярных в наше время, это UNICODE. В котором каждый символ кодируют 2-мя байтами, получается в итоге 62536 разных кодов.

Почему компьютеры используют двоичные файлы

Короткий ответ: аппаратное обеспечение и законы физики. Каждый символ в вашем компьютере является электрическим сигналом, и в первые дни вычислений измерять электрические сигналы было намного сложнее. Было более разумно различать только «включенное» состояние, представленное отрицательным зарядом, и «выключенное» состояние, представленное положительным зарядом.

Для тех, кто не знает, почему «выключено» представлено положительным зарядом, это связано с тем, что электроны имеют отрицательный заряд, а больше электронов – больше тока с отрицательным зарядом.

Читайте так же:
Дребезжат колонки в машине что делать

Таким образом, ранние компьютеры размером с комнату использовали двоичные файлы для создания своих систем, и хотя они использовали более старое, более громоздкое оборудование, они работали на тех же фундаментальных принципах. Современные компьютеры используют, так называемый, транзистор для выполнения расчетов с двоичным кодом.

Вот схема типичного транзистора:

Схема типичного полупроводникового транзистора компьютера

По сути, он позволяет току течь от источника к стоку, если в воротах есть ток. Это формирует двоичный ключ. Производители могут создавать эти транзисторы невероятно малыми – вплоть до 5 нанометров или размером с две нити ДНК. Это то, как работают современные процессоры, и даже они могут страдать от проблем с различением включенного и выключенного состояния (хотя это связано с их нереальным молекулярным размером, подверженным странностям квантовой механики).

Виды двоичных кодов

Представление в памяти компьютера целочисленных значений производится с помощью беззнакового двоичного кода, основанного на представлении двоичных разрядов степенями двойки.

При этом значение минимального числа в n-разрядном двоичном коде будет равно 0, а максимального вычисляться по формуле 2 n -1.

К примеру, для шестнадцатиразрядного кода допустимыми будут значения чисел от 0 до 65535.

На практике приходится решать задачи посложнее.

что такое двоичный код, двоичный код, двоичный код это, перевод чисел в двоичный код, понятие двоичного кода, примеры двоичного кода, двоичные коды чисел, двоичный код используется, виды двоичных кодов, зачем нужен двоичный код

Фото 3. С помощью двоичного кода можно закодировать все что угодно

Машине или компьютеру достаточно трудно объяснить разницу между положительными и отрицательными числами. Отдельного представления требуют и числа с плавающей запятой, дробные или трансцендентные числа.

Инженеры придумали способ, как обходить эти проблемы, не выходя за пределы использования двоичного кода. Для решения озвученных проблем используется знаковый двоичный код.

В частности, для определения знака числа используется старший разряд в слове.

Если слово начинается с символа «0», значит число положительное (имеет знак «+»), если с символа «1», значит оно – отрицательное (имеет знак «-»).

При использовании шестнадцатиразрядного кода в таком случае мы сможем зашифровать числа в диапазоне от -32767 до +32767.

Недостаток знакового двоичного кода кроется в необходимости раздельной обработки цифрового и знакового разрядов, что заставляет разработчиков программного обеспечения прибегать к усложненным алгоритмам обработки данных.

Как следствие, программный код увеличивается в объеме, а скорость его работы замедляется.

Видео о двоичном коде:

Почему белые медведи не замерзают в ледяной полярной воде?

Зачем нужны законы?

Лидерство

Какая рыба устраивает ясли из пузырьков?

Что представляет собой исповедь, и для чего она нужна.

голоса
Рейтинг статьи
Ссылка на основную публикацию
Adblock
detector