Методы классификации и кодирования ТЭСИ

Лабораторная работа 5.

Методы классификации и кодирования ТЭСИ

Цель занятия – изучение используемых в практике разработки классификаторов ТЭСИ методов классификации и кодирования и закрепление знаний, полученных в лекционном курсе.

В результате выполнения лабораторного задания студенты должны:

  • получить четкое представление об особенностях методов классификации и кодирования;
  • знать терминологию по классификации и кодированию ТЭСИ;
  • уметь использовать те или иные методы классификации и кодирования в зависимости от поставленной задачи и рассчитывать контрольные числа для проверки правильности записи кодов.

Теоретическая часть

При классификации технико-экономической и социальной информации используются иерархический и фасетный методы. Для изучения методов классификации введем термины:

Объект классификации: Элемент классифицируемого множества.

Признак классификации: Свойство или характеристика объекта классификации, по которому проводится классификация.

Классификационная группировка: Подмножество объектов, полученное в результате классификации.

Ступень классификации: Этап классификации при иерархическом методе классификации, результатом которого является совокупность классификационных группировок.

Глубина классификации: Число ступеней классификации.

Методы классификации должны отвечать следующим общим требованиям:

обладать достаточной емкостью;

иметь достаточную и экономически оправданную глубину;

обладать определенной гибкостью и избыточностью для возможности расширения множества классифицируемых объектов, группировок и признаков и внесения необходимых изменений без нарушения структуры классификации;

учитывать необходимость сопряжения с другими классификациями однородных объектов;

обеспечивать наибольшую эффективность обработки информации средствами вычислительной техники;

предоставлять возможность ведения создаваемого классификатора как в ручном, так и автоматизированном варианте.

 

Иерархический метод классификации обеспечивает последовательное разделение множества объектов на соподчиненные группировки. Исходное множество объектов классификации делится сначала по какому-либо признаку на крупные группировки, каждая из которых, в свою очередь дробится на ряд последующих группировок, конкретизируя свойства объектов в виде иерархического логического дерева.

Таким образом, под иерархическим методом классификации понимается такой метод, при котором заданное множество объектов последовательно делится на подчиненные подмножества. При построении классификаторов иерархическим методом классификации необходимо соблюдать следующие правила:

деление каждой классификационной группировки должно производиться только по одному основанию;

получаемые в результате деления группировки не должны пересекаться, то есть содержать аналогичной информации, и должны относиться только к одной вышестоящей группировке;

деление исходного множества на подмножества должно быть последовательным, без пропусков и без добавления промежуточного уровня классификации;

классифицирование должно производиться таким образом, чтобы сумма подмножеств деления составляла делимое множество.

Иерархический метод классификации характеризуется глубиной классификации и емкостью. Количество ступеней определяет глубину классификации, которая устанавливается в зависимости от степени конкретизации группировок и числа признаков, необходимых для решения конкретных задач. От глубины и количества группировок, образуемых на каждой ступени классификации, зависит емкость системы. Как правило, наибольшее количество последующих группировок устанавливается постоянным, либо для всей классификации, либо для данной ступени. Для систем классификации технико-экономической информации это число всегда равно десяти или кратному десяти.

Преимущества иерархического метода:

1) При иерархическом методе классификации практически не ограничивается глубина классификации информации, что дает возможность более детально анализировать предметы, явления или документы.

2) Большая информационная емкость иерархического метода классификации позволяет использовать его для кодирования больших объемов технико-экономической информации.

Недостатки иерархического метода:

1) Недостаточная гибкость структуры, обусловленная фиксированностью признаков классификации и заранее установленным порядком их следования, не допускающим включения новых объектов и классификационных группировок. Вследствие этого, изменение любого признака ведет к перераспределению классификационных группировок и необходимости переработки классификатора. Поэтому в классификаторах, построенных на основе иерархического метода, должны предусматриваться значительные резервные емкости.

2) Этот метод классификации не позволяет осуществлять информационный поиск по любому произвольному сочетанию признаков.

 

Фасетный метод классификации в отличие от иерархического позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Пример. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый.

Фасет специальность содержит названия специальностей.

Фасет образование содержит значения: среднее, среднее специальное, высшее.

Схема построения фасетного метода классификации в виде таблицы отображена на рис. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2, …, Фi…, Фn.. Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета, Например, фасет цвет, обозначенный Ф2, содержит значения, красный, белый, зеленый, черный, желтый.

 

Значения 
фасетов

Фасеты

Ф1

Ф2

Ф3

Фi

Фn

1

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

Рис. Фасетный метод классификации

 

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты, Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:

КS = (Ф1, Ф2, …,Фi,…, Фn),

где Фi – i-й фасет;

n - количество фасетов.

Фасетный метод легко можно модифицировать, внося изменения в конкретные значения любого фасета.

Достоинства фасетного метода классификации:

  • возможность создания большой емкости классификации, т.е. использования
  • большого числа признаков классификации и их значений для создания группировок;
  • возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетного метода классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.

Емкость классификатора, построенного на основе фасетного метода классификации, зависит от числа фасетов и от количества признаков в фасетах.

При построении классификаторов на основе фасетного метода необходимо соблюдать следующие правила:

  • значения признаков из различных фасетов не должны пересекаться;
  • из всевозможных фасетов, характеризующих классифицируемое множество объектов, отбираются только существенные, то есть фасеты, обеспечивающие решение конкретных технико-экономических задач;
  • фасеты должны занимать в классификаторе строго определенное место и иметь определенные идентификационные коды.

Фасетный метод построения классификационных группировок делает классификатор очень гибким, хорошо приспособленным для использования в условиях большой динамичности решаемых задач. При изменении характера задач или характеристик объектов классификации разрабатываются новые фасеты или дополняются новыми признаками уже существующие фасеты без коренной перестройки структуры всего классификатора.

В современных классификационных схемах часто одновременно используются оба метода классификации. Это обеспечивает возможность снизить влияние недостатков методов классификации и расширить возможность использования классификатора.

 

Методы кодирования.

Для того чтобы классификационная схема стала средством для создания эффективной системы хранения и инструментом обработки информации, она должна быть дополнена системой условных обозначений, присваиваемых объектам. Такие обозначения в разных классификаторах называются индексами или кодами, а процесс их присвоения объектам классификации –индексирова­нием или кодированием.

Знаки, составляющие индекс или код, называются алфавитом. Такой алфавит может включать буквы, цифры, знаки пунктуации в различных комбинациях. Код является идентификатором объекта классификации и его основное назначение состоит в однозначном обозначении объекта. Это своего рода формализованное имя объекта, которое должно обеспечивать возможность точного определения объекта классификации. Поэтому разработчики классификационных схем стремятся сделать индексы или коды мнемоничными, то есть такими, чтобы даже по внешнему виду, алфавиту кода пользователь мог определить объект и узнать возможно больше информации о характере объекта классификации, для обозначения которого использован этот код. Например, буквенный код России по Общероссийскому классификатору стран мира (ОКСМ) – RU, а код США – US. Соответственно код российского рубля по Общероссийскому классификатору валют (ОКБ) – RUR, а доллара США – USD.

Кодирование есть процесс преобразования одного алфавита сообщения в другой алфавит. Применительно к документам, кодирование можно рассматривать как процесс присвоения документу единственного обозначения – кода, которое отличает один документ от другого, т.е. идентифицирует документ. С другой стороны, кодирование документа можно рассматривать как процесс преобразования документа на естественном языке в язык кодов.

Основное назначение кодирования состоит в приспособлении информационного сообщения к каналу связи. Кодирование документов и документной информации направлено на приспособление документа к возможностям его обработки с помощью средств вычислительной техники.

К методам кодирования ТЭСИ предъявляются определенные требования, соблюдение которых способствует повышению качества классификатора. Метод кодирования должен:

предусматривать использование в качестве алфавита кода десятичных цифр и букв;

обеспечивать по возможности минимальную длину кода и достаточный резерв незанятых позиций для кодирования новых объектов без нарушения структуры классификатора;

быть максимально ориентированным на автоматизированную об работку информации.

Методы кодирования могут носить самостоятельный характер – регистрационные методы кодирования или быть основанными на предварительной классификации объектов – классификационные методы кодирования.

Регистрационные методы кодирования бывают двух видов: порядковый и серийно-порядковыйПорядковый метод кодирования – это такой метод, при котором кодами служат числа натурального ряда. В этом случае каждый из объектов классифицируемого множества кодируется путем присвоения ему текущего порядкового номера.

Преимущества:

Метод обеспечивает довольно большую долговечность классификатора при незначительной избыточности кода.

Простота метода. Используется наиболее короткие коды и лучше обеспечивается однозначность определения каждого объекта классификации.

Обеспечивает наиболее простое присвоение кодов новым объектам, появляющимся в процессе ведения классификатора.

Недостатки:

Отсутствие в коде какой-либо конкретной информации о свойствах объекта.

Нет возможности размещения вновь появившихся объектов классификации в необходимом месте классификатора, так как резервные коды располагаются в конце ряда.

По этим причинам порядковый метод кодирования отдельно очень редко применяется при создании классификаторов ТЭСИ. Чаше всего он применяется в сочетании с другими методами кодирования.

Серийно-порядковый метод кодирования – это такой метод, при котором кодами служат числа натурального ряда с закреплением отдельных серий этих чисел (интервалов натурального ряда) за объектами классификации с одинаковыми признаками. В каждой серии, кроме кодов имеющихся объектов классификации, предусматривается определенное количество кодов для резерва. Резерв кодов располагается в середине или в конце серии. Это является большим преимуществом данного метода по сравнению с порядковым методом кодирования. Серийно-порядковый метод кодирования целесообразно применять для объектов, имеющих два соподчиненных признака. Данный метод кодирования обладает всеми преимуществами и недостатками порядкового метода кодирования. Обычно этот метод используются для идентификации объектов в сочетании с классификационными методами кодирования.

Классификационные методы кодирования бывают двух видов: последовательный и параллельныйПоследовательный метод кодирования – это такой метод, при котором код объекта классификации образуется с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе классификации. В этом случае код нижестоящей группировки образуется путем добавления соответствующего количества разрядов к коду вышестоящей группировки. Последовательный метод кодирования чаше всего используется при иерархическом методе классификации.

Преимуществами последовательного метода кодирования являются логичность построения кода и большая емкость. Вместе с тем он обладает всеминедостатками, присущими иерархическому методу классификации, а также ограниченными возможностями идентификации объектов. Главный недостаток – отсутствие гибкости. В результате зависимости значений последующих разрядов кода от предыдущих нельзя применять этот код по частям, невозможно вносить новые признаки и производить изменения в коде без коренной перестройки классификатора. Поэтому применять последовательный метод кодирования целесообразно в тех случаях, когда набор признаков классификации и их последовательность стабильны в течение длительного времени.

Параллельный метод кодирования – это метод, при котором код объекта классификации образуется с использованием кодов независимых группировок, полученных при фасетном методе классификации. При этом методе кодирования признаки объекта кодируются независимо друг от друга. Для параллельного метода кодирования возможны два варианта записи кодов объектов:

1. Каждый фасет и значение фасета имеют свои коды, которые включаются в состав кода объекта. Такой способ записи удобно применять тогда, когда объекты характеризуются неодинаковым набором признаков и различным их числом. При формировании кода какого-либо объекта берутся только необходимые признаки.

2. Для определенных групп объектов выделяется фиксированный набор признаков и устанавливается стабильный порядок их следования, то есть уста­навливается фасетная формула. В этом случае не надо каждый раз указывать, значение какого признака приведено в определенных разрядах кода объекта.

Параллельный метод кодирования имеет ряд преимуществ.

Гибкость структуры кода, обусловленная независимостью признаков.

Метод позволяет использовать коды только тех признаков объектов, которые необходимы, что дает возможность работать в каждом отдельном случае с кодами небольшой длины.

Можно осуществлять группировку объектов по любому сочетанию признаков.

Метод хорошо приспособлен для машинной обработки информации.

По конкретной кодовой комбинации легко указать, набором каких характеристик обладает рассматриваемый объект. При этом из небольшого числа признаков можно образовать большое число кодовых комбинаций.

Набор признаков при необходимости может легко пополняться присоединением кода нового признака. Это свойство параллельного метода кодирования особенно важно при решении технико-экономических задач, состав которых часто меняется.

Параллельный метод кодирования целесообразно использовать для кодирования однородных объектов, так как в противном случае реальной становится лишь незначительная часть сочетаний признаков, и емкость классификатора будет использоваться не полностью. Это является недостатком данного метода кодирования. К недостаткам метода можно отнести также и другие недостатки, присущие фасетному методу классификации.

Перечисленные классификационные методы кодирования характеризуются тем, что даже при глубокой классификации объектов код несет информацию о классификационной группировке, но не всегда идентифицирует конкретный объект, а коды, полученные на основе регистрационных методов, хорошо выполняя функцию идентификации объектов, практически не несут информацию об их свойствах. Поэтому регистрационные и классификационные методы кодирования чаше всего применяются в классификаторах в сочетании друг с другом.

 

Использование кодов требует обеспечения высокой степени достоверности кодированной информации. В классификаторах ТЭСИ для выявления ошибок в кодах используется метод контрольных чисел.

Контроль правильности записи кодов при обработке информация основан на принципе делимости чисел. Иначе его называют контролем по модулю. Суть метода заключается в том, что к коду добавляется еще один проверочный знак /контрольное число/, связанный с кодом определенной математической зависимостью. При вводе кодированной информации в базу данных, ее обработке или использовании в ЭВМ специальной программой контроля выполняется проверка этой зависимости по каждому коду. Если зависимость нарушается, машина выдает информацию о наличии ошибки в коде.

Контроль по модулю широко используется в классификаторах ТЭСИ как у нас в стране, так и за рубежом. В качестве модуля используют различные числа, но наибольшее распространение получил в настоящее время контроль по модулю 11. Аля общероссийских классификаторов расчет контрольных чисел осуществляется в соответствии с методикой, разработанной ВНИИКИ (Всероссийский научно-исследовательский институт классификации информации). В соответствии с этой методикой контрольным числом является остаток от деления на 11 суммы произведений весов на значения разрядов кода. Весом (весовым коэффициентом) является порядковый номер разряда в коде слева направо.

На практических занятиях мы более подробно изучим методику вычисления контрольного числа.

Методика ВНИИКИ предлагает использовать в качестве весов натуральный ряд чисел от 1 до 10. Если разрядность кода больше 10, то набор весов повторяется. При использовании данного метода остаток может получить значение от 0 до 10. Так как методика предусматривает использование одноразрядных контрольных чисел, то при получении остатка, равного 10, следует сделать повторный расчет контрольного числа со сдвигом строки весов. В этом случае весовой ряд начинается с 3 до 10, а если разрядность кода больше, то дальше веса идут с 1 до 10. В случае повторного получения контрольного числа, равного 10, в качестве контрольного числа используется 0. В случае, если сумма произведений весов на значения разрядов получается меньше 10, то эта сумма и является контрольным числом.

Использование контрольных чисел обеспечивает возможность обнаруживать и исправлять ошибки в кодированной документной информации, что повышает ее достоверность.

 

Задание для самостоятельной работы

1. Изучить ПР 50.1.019-2000 и теоретическую часть настоящего пособия. Записать определения терминов, относящихся к понятиям: "классификация информации" и "кодирование информации".

2. Проанализировать классификаторы ОКАТО, ОКВ, ОКИН, ОКИСЗН, ОКОГУ, ОКП, ОКУД. На все классификаторы записать следующие параметры:

1)     Метод классификации

2)     Метод кодирования

3)     Признаки классификации

4)     Алфавит кода

5)     Основание кода на всех ступенях классификации

6)     Длина кода

7)     Глубина классификации

8)     Формула структуры кода

3. Рассчитать контрольные числа для кодов: 2159318745; 584331987; 13676859521; 375239682; 967594218; 43286652; 486128584; 564943217; 75491136452; 62491377; 72429568; 68439218632; 447569226; 64766928.

Для первых 7 кодов расчет должен быть произведен по формуле (Приложение 1), для последних семи кодов – по сдвоенным таблицам (Приложение 2).

 

Контрольные вопросы

1. Какие методы классификации используются в классификаторах ТЭСИ?

2. Какие методы кодирования используются в классификаторах?

3. Что такое формула структуры кода?

4. Что такое контрольное число?

5. Как рассчитать контрольное число?

 

Источники и литература.

1. ПР 50.1.019-2000. Правила по стандартизации. Основные положения ЕСКК ТЭСИ и УСД в РФ.

2. Костомаров М.Н. Классификация и кодирование документов и документной информации (классификация документов) // Секретарское дело. – 2003, №№10, 11.

3. Костомаров М.Н. Стандартный язык описания данных // Делопроизводство. – 2002, №№1,2,3,4; 2003, №№1,2,3,4.

 

Приложение 1.

Формула для расчета контрольных чисел имеет следующий вид:

 

n

М =S   aixi

i=1

 

КЧ = М – 11 * Целая_часть(М/11), где

КЧ — контрольное число, должно быть однозначным и принимать значения от О до 9;

ai – значение i-го разряда кода;

хi – весовой коэффициент i-гo разряда кода, т. е. его порядковый номер в коде слева направо; весовые коэффициенты могут быть от 1 до 10 включительно;

Пример расчета КЧ по формуле

Необходимо рассчитать контрольное число для кода 251346. Для этого подпи­сываем под разрядами кода их весовые коэффициенты. Получаем:

2 5 1 3 4 6 — значения разрядов кода 1 2 3 4 5 6 — весовые коэффициенты.

Вычисляем сумму произведении значении разрядов кода на их несоные коэф­фициенты. Получаем: 2 * 1 +5 * 2 + 1 * 3 + 3 * 4 + 4 * 5 + 6 * 6 = 83. Подставляем эту сумму в формулу для расчета КЧ:

КЧ= 83 – 11 * Целая часть(83/11) = 83-11х7=83-77=6.

Контрольным числом для кода является число 6.

В том случае, если при первом расчете контрольное число получилось рапным 10, следует провести повторный расчет контрольного числа со сдвигом весов. Веса при повторном расчете начинаются не с 1, а с 3 до 10, а дальше с 1 до 10.

 

Приложение 2.

Сдвоенные таблицы расчета контрольных чисел

Таблица 1

Значение первого разряда кода

Значение второго разряда кода

 

0

1

2

3

4

5

6

7

8

9

0

0

2

4

6

8

10

1

3

5

7

1

1

3

5

7

9

0

2

4

6

8

2

2

4

6

8

10

1

3

5

7

9

3

3

5

7

9

0

2

4

6

8

10

4

4

6

8

10

1

3

5

7

9

0

5

5

7

9

0

2

4

6

8

10

1

6

6

8

10

1

3

5

7

9

0

2

7

7

9

0

2

4

6

8

10

1

3

8

8

10

1

3

5

7

9

0

2

4

9

9

0

2

4

6

8

10

1

3

5

 

Таблица 2

Значение третьего разряда кода

Значение четвертого разряда кода

 

0

1

2

3

4

5

6

7

8

9

0

0

4

8

1

5

9

2

6

10

3

1

3

7

0

4

8

1

5

9

2

6

2

6

10

3

7

0

4

8

1

5

9

3

9

2

6

10

3

7

0

4

8

1

4

1

5

9

2

6

10

3

7

0

4

5

4

8

1

5

9

2

6

10

3

7

6

7

0

4

8

1

5

9

2

6

10

7

10

3

7

0

4

8

1

5

9

2

8

2

6

10

3

7

0

4

8

1

5

9

5

9

2

6

10

3

7

0

4

8

 

Таблица 3

Значение пятого разряда кода

Значение шестого разряда кода

 

0

1

2

3

4

5

6

7

8

9

0

0

6

1

7

2

8

3

9

4

10

1

5

0

6

1

7

2

8

3

9

4

2

10

5

0

6

1

7

2

8

3

9

3

4

10

5

0

6

1

7

2

8

3

4

9

4

10

5

0

6

1

7

2

8

5

3

9

4

10

5

0

6

1

7

2

6

8

3

9

4

10

5

0

6

1

7

7

2

8

3

9

4

10

5

0

6

1

8

7

2

8

3

9

4

10

5

0

6

9

1

7

2

8

3

9

4

10

5

0

 

Таблица 4

Значение седьмого разряда кода

Значение восьмого разряда кода

 

0

1

2

3

4

5

6

7

8

9

0

0

8

5

2

10

7

4

1

9

6

1

7

4

1

9

6

3

0

8

5

2

2

3

0

8

5

2

10

7

4

1

9

3

10

7

4

1

9

6

3

0

8

5

4

6

3

0

8

5

2

10

7

4

1

5

2

10

7

4

1

9

6

3

0

8

6

9

6

3

0

8

5

2

10

7

4

7

5

2

10

7

4

1

9

6

3

0

8

1

9

6

3

0

8

5

2

10

7

9

8

5

2

10

7

4

1

9

6

3

 

Таблица 5

 

Значение девятого разряда кода

Значение десятого разряда кода

 

0

1

2

3

4

5

6

7

8

9

0

0

10

9

8

7

6

5

4

3

2

1

9

8

7

6

5

4

3

2

1

0

2

7

6

5

4

3

2

1

0

10

9

3

5

4

3

2

1

0

10

9

8

7

4

3

2

1

0

10

9

8

7

6

5

5

1

0

10

9

8

7

6

5

4

3

6

10

9

8

7

6

5

4

3

2

1

7

8

7

6

5

4

3

2

1

0

10

8

6

5

4

3

2 •

1

0

10

9

8

9

4

3

2

1

0

10

9

8

7

6

 

Правила работы со сдвоенными таблицами

Поиск контрольных чисел ведется последовательно в таблицах для каждой пары разрядов кода слева направо. При этом для каждой пары разрядов используется новая таблица. Значение контрольного числа для каждой пары разрядов находится на пересечении строки и графы, обозначение которых совпадает со значениями разрядов кода. Затем все значения полученных для каждой пары разрядов контрольных чисел складывают и сумму делят на 11. Остаток отделения и будет контрольным числом для всего кода. При этом следует иметь в виду, что если значность кода превышает 10 разрядов, то для 11-го и 12-го разрядов контрольное число опять находят по табл. 1, для 13-го и 14-го по табл. 2 и т. д.

При пересчете контрольного числа, если при первом расчете получили КЧ=10, поступают следующим образом: контрольное число для первой пары разрядов кода находят не в табл. 1, а в табл. 2, для второй пары – в табл. 3 и т. д. в остальном поступают аналогично первоначальному расчету контрольного числа.

Пример: Рассчитать контрольное число для кода 11324. В табл. 1 находим на пересечении первой строки и первой графы контрольное число 3. Затем по табл. 2 на пересечен ни третьей строки и второй графы находим 6. По табл. 3 на пересечении четвертой строки с нулевой графой находим 9. Полученные контрольные числа складываем: 3 + 6 + 9 = 18. Эту сумму делим па 11 и остаток (7) и будет контрольным числом всего кода.

Последнее изменение: Wednesday, 20 January 2016, 21:39