Кодирование информации



Муниципальное бюджетное образовательное учреждение Белоярского района«Общеобразовательная средняя (полная) школа п. Сосновка»

Проект в номинации № 2 «Математика, информатика, физика, астрономия»

Тема проекта:

«Кодирование информации»

Автор проекта:Гресов Александр ВитальевичКласс 7Научный руководитель проекта:

Федека Лилия Михайловна

МОСШ п. Сосновка

Учитель физики и информатики

п. Сосновка

2012 год

Оглавление

Этапы работы над проектом3

Введение4

Основная часть5

Кодирование символьной (текстовой) информации5

Кодирование числовой информации6

Кодирование графической информации7

Кодирование звуковой информации8

Система кодирования Юникод8

Юникод и традиционные кодировки9

Проблемы Юникода9

Заключение12

Литература и ресурсы13

Этапы работы над проектом

Выбор темы и определение цели и задач.

Выполнение задач проекта.

Планирование работы.

Изучение литературы по теме.

Подбор материала по теме.

Поиск материала в Интернете.

Работа по оформлению проекта.

Защита проекта.

Введение

Человек воспринимает окружающий мир (получает информацию) с помощью органов чувств (зрение, слух, обоняние, осязание, вкус). Для того чтобы правильно ориентироваться в мире, он запоминает полученные сведения (хранит информацию). В процессе достижения каких-либо целей человек принимает решения (обрабатывает информацию). В процессе общения с другими людьми человек передает и принимает информацию. Человек живет в мире информации.

Море информации, которое получает человек, необходимо как-то запомнить или сохранить. На помощь приходит персональный компьютер. Никто не задумывается о том, как информация помещается на маленьких и удобных флэш-картах, и, конечно же, на жестком диске компьютера. Поэтому мы считаем данную тему, для нашего современного мира – мира информационных технологий, актуальной.

В этом проекте представляются способы кодирования информации, я не мог не осветить новый способ кодирования текстовой информации с помощью «Юникод». При этом слово «кодирование» понимается не в узком смысле – кодирование как способ сделать сообщение непонятным для всех, кто не владеет ключом кода, а в широком – как представление информации в виде сообщения на каком-либо языке.

Представляя эту информацию, нужно ответить на главный вопрос:

Зачем человеку кодирование информации?

Целью данного учебного проекта является изучение теоретических аспектов применения систем кодирования информации.

Объект: процесс кодирования информации.

Предмет: кодирование информации с помощью кодировочных таблиц.

Задачи:

Проанализировать учебные пособия по информатике для основной школы с точки зрения описания вопросов, связанных с понятием кодирования информации.

Выявить различные формы представления информации.

Выявить различные методы преобразования.

Основная часть

Код – это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий. Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Обычно каждый образ при кодировании представляется отдельным знаком.

Знак – это элемент конечного множества отличных друг от друга элементов.

В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.

На компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Поэтому компьютеры обычно работают в двоичной системе счисления, и устройства для их обработки получаются значительно более простыми. Ввод чисел в компьютер и вывод их для чтения человеком может осуществлять в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере.

Кодирование символьной (текстовой) информации

Основная операция, производимая над отдельными символами текста – сравнение символов.

При сравнении символов наиболее важными аспектами являются уникальность кода для каждого символа и длина этого кода, а сам выбор принципа кодирования практически не имеет значения.

Для кодирования текстов используются различные таблицы перекодировки. Важно, чтобы при кодировании и декодировании одного и того же текста использовалась одна и та же таблица.

Таблица перекодировки – таблица, содержащая упорядоченный некоторым образом перечень кодируемых символов, в соответствии с которой происходит преобразование символа в его двоичный код и обратно.

Наиболее популярные таблицы перекодировки: КОИ-8, ASCII, CP1251, Unicode.

Исторически сложилось, что в качестве длины кода для кодирования символов было выбрано 8 бит или 1 байт. Поэтому чаще всего одному символу текста, хранимому в компьютере, соответствует один байт памяти.

Различных комбинаций из 0 и 1 при длине кода 8 бит может быть 28 = 256, поэтому с помощью одной таблицы перекодировки можно закодировать не более 256 символов. При длине кода в 2 байта (16 бит) можно закодировать 65536 символов.

Единицы измерения информации:

1 байт = 8 бит

1 Кбайт = 1024 байта

1 Мбайт = 1024 Кбайта

1 Гбайт = 1024 Мбайта

1 Тбайт = 1024 Гбайта

Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.

Основным отображением кодирования символов является код ASCII – American Standard Code for Information Interchange – американский стандартный код обмена информацией, который представляет из себя таблицу 16 на 16, где символы закодированы в шестнадцатеричной системе счисления.

Кодирование числовой информации

Сходство в кодировании числовой и текстовой информации состоит в следующем: чтобы можно было сравнивать данные этого типа, у разных чисел (как и у разных символов) должен быть различный код. Основное отличие числовых данных от символьных заключается в том, что над числами кроме операции сравнения производятся разнообразные математические операции: сложение, умножение, извлечение корня, и пр. Правила выполнения этих операций в математике подробно разработаны для чисел, представленных в позиционной системе счисления.

Основной системой счисления для представления чисел в компьютере является двоичная позиционная система счисления. Числа в компьютере представлены в виде последовательностей 0 и 1 или битов.

Кодирование графической информации

Важным этапом кодирования графического изображения является разбиение его на дискретные элементы (дискретизация).

Основными способами представления графики для ее хранения и обработки с помощью компьютера являются растровые и векторные изображения.

Векторное изображение представляет собой графический объект, состоящий из элементарных геометрических фигур (чаще всего отрезков и дуг). Положение этих элементарных отрезков определяется координатами точек и величиной радиуса. Для каждой линии указывается двоичные коды типа линии (сплошная, пунктирная, штрихпунктирная), толщины и цвета.

Растровое изображение представляет собой совокупность точек (пикселей), полученных в результате дискретизации изображения в соответствии с матричным принципом.

Матричный принцип кодирования графических изображений заключается в том, что изображение разбивается на заданное количество строк и столбцов. Затем каждый элемент полученной сетки кодируется по выбранному правилу.

Pixel (picture element – элемент рисунка) – минимальная единица изображения, цвет и яркость которой можно задать независимо от остального изображения.

В соответствии с матричным принципом строятся изображения, выводимые на принтер, отображаемые на экране дисплея, получаемые с помощью сканера.

Качество изображения будет тем выше, чем «плотнее» расположены пиксели, то есть чем больше разрешающая способность устройства, и чем точнее закодирован цвет каждого из них.

Для черно-белого изображения код цвета каждого пикселя задается одним битом.

Если рисунок цветной, то для каждой точки задается двоичный код ее цвета.

Цвета кодируются в двоичном коде: при использовании 16-цветного рисунка кодирование каждого пикселя осуществляется 4 битами (16=24), а если есть возможность использовать 16 бит (2 байта) для кодирования цвета одного пикселя, то можно передать 216 = 65536 различных цветов. Использование трех байтов (24 битов) для кодирования цвета одной точки позволяет отразить 16777216 (или около 17 миллионов) различных оттенков цвета – так называемый режим «истинного цвета» (True Color). Заметим, что это используемые в настоящее время, но далеко не предельные возможности современных компьютеров.

Кодирование звуковой информации

Звук – это колебания воздуха. По своей природе звук является непрерывным сигналом. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), мы увидим плавно изменяющееся с течением времени напряжение.

Для компьютерной обработки аналоговый сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел, а для этого его необходимо дискретизировать и оцифровать.

Можно поступить следующим образом: измерять амплитуду сигнала через равные промежутки времени и записывать полученные числовые значения в память компьютера. Современные звуковые карты обеспечивают 16-битное кодирование звука. При каждой выборке значению амплитуды звукового сигнала присваивается 16-битный код.

Количество выборок в секунду может быть в диапазоне от 8000 до 48000, т.е. частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц – качеству звучания аудио-CD.

Система кодирования Юникод

Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных. Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) и семейство кодировок (англ. UTF, Unicode transformation format).

Графические символы – это символы, имеющие видимое изображение. Графическим символам противопоставляются управляющие символы и символы форматирования.

Графические символы включают в себя следующие группы:

буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов;

цифры;

знаки пунктуации;

специальные знаки (математические, технические, идеограммы и пр.);

разделители.

Юникод – это система для линейного представления текста. Символы, имеющие дополнительные над- или подстрочные элементы, могут быть представлены в виде построенной по определённым правилам последовательности кодов (составной вариант, composite character) или в виде единого символа (монолитный вариант, precomposed character).

Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, глаголицу, греческую, грузинскую, деванагари, еврейскую, кириллицу, китайскую (китайские иероглифы активно используются в японском языке, а также достаточно редко в корейском), коптскую, кхмерскую, латинскую, тамильскую, корейскую (хангыль), чероки, эфиопскую, японскую (которая включает в себя кроме китайских иероглифов ещё и слоговую азбуку), и другие.

В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.

С академическими целями добавлены многие исторические письменности, в том числе: руны, древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

Однако в Юникод принципиально не включаются логотипы компаний и продуктов, хотя они и встречаются в шрифтах (например, логотип Apple в кодировке MacRoman (0xF0) или логотип Windows в шрифте Wingdings (0xFF)). В юникодовских шрифтах логотипы должны размещаться только в области пользовательских символов.

Юникод и традиционные кодировки

Внедрение Юникода привело к изменению подхода к традиционным 8-битным кодировкам. Если раньше кодировка задавалась шрифтом, то теперь она задаётся таблицей соответствия между данной кодировкой и Юникодом. Фактически 8-битные кодировки превратились в форму представления некоторого подмножества Юникода. Это намного упростило создание программ, которые должны работать с множеством разных кодировок: теперь, чтобы добавить поддержку ещё одной кодировки, надо всего лишь добавить ещё одну таблицу перекодировки в Юникод.

Кроме того, многие форматы данных позволяют вставлять любые символы Юникода, даже если документ записан в старой 8-битной кодировке.

Проблемы Юникода

В Юникоде английское «a» и польское «a» – один и тот же символ. Точно так же одним символом (но отличающимся от «a» латинского) считаются русское «а» и сербское «а». Такой принцип кодирования не универсален; по-видимому, решения «на все случаи жизни» вообще не может существовать.

Тексты на китайском, корейском и японском языке имеют традиционное написание сверху вниз, начиная с правого верхнего угла. Переключение горизонтального и вертикального написания для этих языков не предусмотрено в Юникоде – это должно осуществляться средствами языков разметки или внутренними механизмами текстовых процессоров.

Юникод предусматривает возможность разных начертаний одного и того же символа в зависимости от языка. Так, китайские иероглифы могут иметь разные начертания в китайском, японском (кандзи) и корейском (ханчча), но при этом в Юникоде обозначаться одним и тем же символом (так называемая CJK-унификация), хотя упрощённые и полные иероглифы всё же имеют разные коды. Часто возникают накладки, когда, например, японский текст выглядит «по-китайски». Аналогично, русский и сербский языки используют разное начертание курсивных букв п и т (в сербском они выглядят как и и ш). Поэтому нужно следить, чтобы текст всегда был правильно помечен как относящийся к тому или другому языку.

Перевод из строчных букв в заглавные тоже зависит от языка. Например: в турецком существуют буквы İi и Iı – таким образом, турецкие правила изменения регистра конфликтуют с английскими, которые предписывают «i» переводить в «I». Подобные проблемы есть и в других языках – например, в канадском диалекте французского языка регистр переводится немного не так, как во Франции.

Даже с арабскими цифрами есть определённые типографские тонкости: цифры бывают «прописными» и «строчными», пропорциональными и моноширинными – для Юникода разницы между ними нет. Подобные нюансы остаются за программным обеспечением.

Некоторые недостатки связаны не с самим Юникодом, а с возможностями обработчиков текста.

Файлы с текстом в Юникоде занимают больше места в памяти, так как один символ кодируется не одним байтом, как в различных национальных кодировках, а последовательностью байтов (исключение составляет UTF-8 для языков, алфавит которых укладывается в ASCII, а также наличие в тексте символов двух и более языков, алфавит которых не укладывается в ASCII). Файл шрифта, необходимый для отображения всех символов таблицы Юникод, занимает сравнительно много места в памяти и требует бо́льших вычислительных ресурсов. С увеличением мощности компьютерных систем и удешевлением памяти и дискового пространства эта проблема становится всё менее существенной; тем не менее, она остаётся и в ближайшем будущем останется актуальной для портативных устройств, например, для мобильного телефона.

Хотя поддержка Юникода реализована в наиболее распространённых операционных системах, до сих пор не всё прикладное программное обеспечение поддерживает корректную работу с ним. В частности, не всегда обрабатываются метки BOM и плохо поддерживаются диакритические символы. Проблема является временной и есть следствие сравнительной новизны стандартов Юникода (в сравнении с однобайтовыми национальными кодировками).

Производительность некоторых программ снижается при использовании Юникода вместо однобайтовых кодировок.

Наконец, некоторые редкие системы письма всё ещё не представлены должным образом в Юникоде. Изображение «длинных» надстрочных символов, простирающихся над несколькими буквами, как, например, в церковнославянском языке, пока не реализовано.

Заключение

Цель моей работы достигнута: я познакомился со всеми кодировочными таблицами, которые существуют для русскоязычной раскладки клавиатуры. Выяснил, что текст, набранный в одной кодировке, не может быть прочитан с помощью другой кодировки.

Познакомился с универсальной кодировкой информации Unicode. Этот способ кодирования открывает широкие возможности для хранения информации.

Узнал различные способы кодирования различных видов информации: текстовой, числовой, звуковой и т.д.

Литература и ресурсы

Л.Л. Босова Информатика и ИКТ: учебник для 6 класса / Л.Л. Босова. – М.: БИНОМ. Лаборатория знаний, 2010.

Л.Л. Босова Информатика: Рабочая тетрадь для 6 класса / Л.Л. Босова. – М.: БИНОМ. Лаборатория знаний, 2010.

Энциклопедия школьной информатики / под ред. И.Г. Семакина. – М.: БИНОМ. Лаборатория знаний, 2011.

ru.wikipedia.org

http://informikablog.ru/kodirovanie-simvolov/kodirovanie-simvolov.html

http://www.mindmeister.com/ru/88675270/_



sitemap
sitemap