Здавалка
Главная | Обратная связь

Информационные языки и классификаторы



 

Информационные языки. Одним из условий эффективного функционирования АСУ практически любого типа и назначения является рациональная организация общения пользователей с системой. В качестве средства общения используются информационные языки, представляющие собой совокупность словаря и правил записи и передачи в ЭВМ сообщений об объектах, ситуациях и запросах, позволяющих использовать формализованные процедуры их обработки.

Разработка информационных языков преследует следующие основные цели: включение в функции ЭВМ большого числа арифметических, логических и прочих операций, связанных с поиском, обработкой, редактированием и выдачей информации в форме, удобной для использования; упрощение и повышение эффективности общения с ЭВМ пользователей различной степени подготовленности; унификацию языка системы и реализацию принципов интегрированной обработки информации; упрощение и сокращение числа типов используемых форм планово-экономической и управленческой документации за счет внутримашинного хранения данных.

По мере развития вычислительной техники повышается интеллектуальный уровень и упрощается общение с ЭВМ. Развитие процесса взаимодействия человека и машины, имеющего первостепенную важность для облегчения и повышения эффективности работы с ЭВМ, шло в направлении создания языков высокого уровня, оперирующих понятиями, близкими к естественному человеческому языку. Вначале появились так называемые процедурные языки, операторы которых воспринимались ЭВМ как указания о выполнении тех или иных процедур. Следующий шаг - создание непроцедурных языков, оперирующих более близкими к естественному языку понятиями. Ожидается, что интеллектуальный уровень ЭВМ пятого поколения позволит использовать в диалоговом общении с ними просто естественный язык, обеспечить ввод и вывод информации в форме человеческой речи, графических данных, изображений и других средств обычного общения между людьми. Пока таких возможностей нет, основным средством общения пользователей с ЭВМ являются специальные информационные языки.

 

Рис. 4.1.

 

При разработке информационных языков АСУ необходимо учитывать уровень квалификации и подготовленности пользователей, которые будут с ней взаимодействовать при эксплуатации системы. В настоящее время большинство методов и средств обработки данных и информационных языков ориентированы на пользователей, являющихся программистами, т.е. имеющих достаточную квалификацию и профессиональную подготовку. Однако широкие масштабы внедрения вычислительной техники в различных сферах производства и управления обусловливают необходимость разработки информационных языков, ориентированных на пользователей, как правило, не имеющих высокой квалификации в области программирования, так называемых конечных пользователей.

Можно выделить пять категорий конечных пользователей (рис. 4.1). В первую категорию входят косвенные пользователи, которые не используют непосредственно вычислительную технику, а обращаются к ней через посредников. К таким пользователям относятся руководящие работники предприятий, организаций и т.п., получающие необходимую им информацию с помощью других людей, чаще всего подчиненных сотрудников организации. Во вторую категорию входят прямые пользователи, непосредственно взаимодействующие с ЭВМ в пакетном или диалоговом режиме. Среди прямых пользователей, которые работают в диалоговом режиме, можно выделить третью категорию пользователей – использующих в своей деятельности возможности АСУ, уже заложенные в виде готовых программ обработки данных, и таких, которые, кроме того, могут сами разрабатывать задачи и программы. Последний тип пользователей, в свою очередь включает пользователей, не использующих традиционное программирование, а работающих с заложенными в систему возможностями генерации прикладных программ, и программирующих пользователей (категории четвертая и пятая соответственно). В настоящее время число программирующих конечных пользователей достаточно велико, но по существующим оценкам они составляют меньшинство, поэтому при разработке АСУ следует ориентироваться в основном на непрограммирующих пользователей.

Информационные языки можно подразделить на следующие классы [1.9]: информационные языки с простыми функциями, информационно-поисковые языки, информационно-справочные языки, информационные языки автоматизированных систем обработки данных (АСОД), информационно-логические языки АСУ.

Информационные языки с простыми функциями служат для реализации простейших операций загрузки, хранения и выдачи текстовой информации из ЭВМ.

Информационно-поисковые языки предназначены для организации эффективного поиска, обновления и выборки хранимой в памяти ЭВМ информации.

Информационно-справочные языки выполняют те же функции, что и информационно-поисковые, но обладают более широкими возможностями: языки данного типа позволяют осуществлять несложные операции группировки, сортировки, агрегации показателей и т.п. для формирования ответов по запросам пользователей. На практике языки данного класса применяют в сочетании с языками формулирования информационных запросов к системе, называемыми языками запросов.

Информационные языки АСОД предназначены для ввода и размещения данных в специализированных массивах, используемых для решения определенных комплексов функциональных задач.

Информационно-логические языки осуществляют отдельные логические операции типа логических выводов.

Проблемы построения и использования информационных языков приобрели важное значение в связи с ростом потока обрабатываемой информации с помощью ЭВМ.

Наиболее важным отличием информационных языков от естественных является их однозначность – каждому смысловому значению соответствует одна и только одна последовательность слов и символов и наоборот.

Использование естественного языка в АСУ позволяет исключить индексирование и кодирование информации вне ЭВМ, снять ограничения на содержание запросов. Однако применение естественного языка при вводе информации и ее обработке увеличивает время обработки и требует исправления ошибок, появляющихся из-за неоднозначности и нечеткости языковых выражений.

В информационном языке используют средства, позволяющие с помощью специальных индексов определить группировки естественного языка, имеющие одинаковый смысл. Сведения о существовании этих группировок позволяют увеличить семантические возможности информационного языка и повысить полноту выдачи информации по запросу.

В отличие от естественных информационные языки значительно ограничивают возможности перефразирования. Это определяется не только устранением синонимов, но и использованием строгих правил синтаксиса, определяющих расположение слов в записи. Для информационных языков фонетическое выражение знаков не обязательно, поскольку эти языки ориентированы на письменную форму выражения, состоящую из букв, цифр и некоторых специальных знаков.

Большинство используемых информационных языков принадлежит к равномерным кодам, у которых число символов во всех кодовых комбинациях одинаково. Свойство равномерности кода вытекает из природы информационного языка, требующей удобной и компактной формы записи информации, что особенно важно при машинной обработке. Информационные языки отличаются от естественных тем, что при передаче информации в них стремятся ограничить избыточность.

В информационных языках важное значение имеют имена (понятия), так как они в основном предназначены для передачи существенных сведений о предметах и явлениях. Поэтому в ряде языков отсутствуют связи и весь аппарат выражения отношений между понятиями. Это так называемые языки без грамматики. В языках с грамматикой последняя выполняет подчиненную словарю роль и имеет иной характер по сравнению с грамматикой естественных языков.

Отметим некоторые основные требования, предъявляемые к информационным языкам при их разработке и использовании. Поисковые образы обычно предназначены для того, чтобы в какой-то момент процедуры поиска их читал человек, ведущий поиск. Поэтому для их составления нужно использовать словарь и синтаксис, которые были бы понятны лицу, ведущему поиск. Значит, информационный язык должен быть близок к естественному или легко изучаем. Форма, словарь и синтаксис информационного языка должны быть понятны человеку, достаточно просто и однозначно воспринимаемы ЭВМ. Это предполагает большую строгость в языке, чем это необходимо при ручной обработке. Используемый в АСУ информационный язык должен быть ориентирован на основную единицу экономической информации – показатель, для записи которого обычно используется простой информационный язык с позиционным синтаксисом.

Основные компоненты информационных языков – словарный состав и синтаксис. Словарный состав информационного языка– совокупность слов, используемых в данном языке. В информационном языке "слово" аналогично понятиям "слово", "словосочетание", "фраза" в естественных языках. Синтаксис языка – комплекс правил построения из элементов словарного состава фразеологических (синтаксических) единиц с такими значениями, которые нельзя выразить с помощью отдельных слов основного словарного состава.

Под словарем информационного языка понимают списки, которые определяют словарный состав языка, а также написание, употребление и значение слов. Под определение словаря подходят термины "тезаурус", "словарь терминов", "глоссарий" и др. Каждый из них можно рассматривать как специальный словарь языка, определяющий значения слов, а также связей между ними. Словарь является органической частью информационного языка.

Для поиска некоторого документа или факта в информационно-поисковой системе используют поисковое предписание или поисковый образ, представляющий собой текст на информационно-поисковом языке, являющийся результатом перевода запроса с естественного языка. Поисковый образ должен однозначно соответствовать запрашиваемому документу или факту. В естественном языке для этого используют ключевые слова, отображающие определенные части смыслового содержания запроса. В информационном языке в составе поискового образа для описания смыслового содержания запроса используют дескрипторы. Каждый дескриптор является единицей информационного языка и ставится в однозначное соответствие группе ключевых слов. Синтаксическую единицу, составленную из дескрипторов информационного языка, называют термином. Группа терминов, связанных вместе по определенным правилам, образует фразу.

В настоящее время в различных странах разработано и используется несколько тысяч информационных языков. В сложных иерархических системах управления, а также при взаимодействии систем различного уровня и назначения возникает проблема информационного обмена между системами или их подсистемами. Совокупность языковых средств, обеспечивающих решение этой задачи, называют языковой структурой. Рациональный выбор языковой структуры, обеспечивает обмен информацией с минимумом затрат на перекодирование информации. Можно выделить следующие основные варианты языковых структур: с языковыми приоритетами; с независимыми равноправными языками в подсистемах; с языком-посредником; с единым языком.

В структуре с языковыми приоритетами каждая подсистема имеет свой язык, однако при обмене информацией между подсистемами разного уровня всегда используется язык подсистемы более высокого уровня. Структура с языковыми приоритетами часто используется в системах с иерархической организацией подчинения. Преимущество структуры – малое число трансляторов и словарей.

В структуре с независимыми языками количество сообщений в каждой отдельной подсистеме меньше, чем во всей системе. Это позволяет сократить среднюю длину сообщений, упростить запись и поиск информации в отдельной подсистеме, сокращая затраты внутри подсистемы на обработку сообщений. Однако каждая подсистема вынуждена хранить большое число трансляторов и словарей и затрачивает значительные ресурсы на перевод информации с языка абонента на свой внутренний язык. Эти затраты тем выше, чем интенсивнее обмен между системами. Обычно число языков в такой структуре равно числу подсистем, каждый язык используется внутри одной подсистемы. Возможны два способа обмена информацией между подсистемами: на языке той системы, в которую обращаются с запросами, и на языке подсистемы, которая обращается с запросом.

В структуре с языком-посредником в каждой подсистеме может использоваться свой внутренний язык, а при обмене информацией между подсистемами используется язык-посредник. В сети взаимодействующих АСУ роль языка-посредника может выполнять система общесоюзных классификаторов. Язык-посредник должен включать в себя все понятия, используемые при обмене информацией, и обеспечивать однозначность всех первичных сообщений.

В структуре с единым языком для обмена информацией между подсистемами не требуется перевод с одного языка на другой и отпадает необходимость в организации трансляторов. Однако на практике создание единого информационного языка для иерархической АСУ практически невозможно, так как это приводит к необходимости иметь громоздкие словари, а следовательно, к большей длине сообщений и увеличению затрат на обработку этой информации. В то же время для более простых систем, включающих в себя несколько АСУ на одном уровне иерархии, применение единого языка может оказаться выгодным.

В последние годы широкое распространение получила концепция банков данных. Банк рассматривают как единую многоцелевую информационную базу, обеспечивающую исходными данными решение различных по назначению и содержанию задач в режиме коллективного доступа к хранимой информации. В связи с широким развитием банков данных возникла необходимость разработки специальных языков, с помощью которых осуществляется взаимодействие с банком данных. В этот набор входят языки описания данных, языки запросов и языки управления базами данных.

Язык описания данных предназначен для записи схем баз данных на трех уровнях. Эти уровни позволяют определить общую логическую структуру базы данных, не зависимую от прикладных программ и способов ее физической реализации в памяти системы, а также определить ее отображение в структуре данных прикладных программ и в структуре памяти. Язык описания данных должен включать в себя средства определения механизмов защиты и секретности, процедуры ввода связанных изменений и вычисления виртуальных элементов данных.

Язык запросов служит для связи пользователей с банком данных. Эти языки и их интерпретаторы могут быть написаны пользователями, чтобы наиболее полно определить специфику приложения. Язык запросов транслируется в базисный язык манипулирования данными. Интерпретатор этого языка инициирует непосредственное обращение к банку данных. Кроме того, операторы языка манипулирования данными могут быть включены в языки программирования высокого уровня.

Программное обеспечение банка данных – система управления базами данных – содержит компиляторы и интерпретаторы языка описания данных, языка манипулирования данными и языка запросов, манипулятор банка данных и набор сервисных программ манипулятора и администратора банка данных.

Классификаторы информации. Для упорядочения и систематизации описания предметов и понятий их распределяют по некоторым признакам на группы. Процесс такого упорядоченного распределения называют классификацией. Учитываемые при этом признаки сходства или различия объектов называют основаниями классификации. Совокупность правил распределения оснований классификации образует систему классификации. В результате применения некоторой системы классификации создается классификатор – систематизированный свод наименований и обозначений или шифров группировок.

Система классификации должна обеспечивать: достаточную емкость, чтобы вместить все множество классифицируемых объектов; гибкость, позволяющую расширять это множество без нарушения структуры классификации; глубину, позволяющую учитывать дополнительные признаки различия; возможность сопряжения с другими классификациями; простоту ручного и автоматизированного ведения классификатора.

Различают иерархическую и фасетную системы классификации. В иерархической системе между группировками устанавливается отношение подчинения. Сначала по одному признаку выделяют крупные группировки, затем внутри них по другому признаку более мелкие и т.д. При фасетной системе весь набор признаков формируется в параллельные фасеты. Исходное множество объектов делится на ряд независимых группировок по различным комбинациям числовых характеристик признаков, взятых из соответствующих фасетов.

Каждому объекту в классификаторе присваивается шифр в соответствии с принятой системой копирования. Цель кодирования – представить идентификатор объекта в более компактной и удобной форме, чем его полное наименование. Наиболее важными свойствами системы кодирования являются: полнота, позволяющая охватывать все множество объектов; унифицированность, обеспечивающая единство шифров всех объектов; однозначность, сохраняющая уникальность идентификатора, представленного шифром; дешифруемость, позволяющая обрабатывать шифры независимо от их семантики и затем отыскивать соответствующий объект; избыточность и гибкость, дающие возможность расширения изменений в наборе шифров без нарушения принятой структуры классификации. При выборе системы кодирования желательно иметь шифры минимально возможной длины, в то же время сохраняя их информативность, т.е. возможность достаточно простого сопоставления шифра с полным наименованием объекта. Рекомендуется для кодирования использовать десятичные цифры и буквы русского алфавита, что облегчает обработку шифров.

Существуют четыре основные системы кодирования технико-экономической информации, из которых первые две называют классификационными, так как они основаны на заранее осуществленной классификации, остальные две – регистрационными.

Последовательная система кодирования соответствует иерархической системе классификации. Шифр каждой нижестоящей группировки образуется путем добавления элементов к шифру вышестоящей.. Такая система обладает хорошей информативностью, но шифры имеют большую длину и сложную структуру, в связи с чем ее используют в системах с небольшими изменениями шифров, например в классификаторах отраслей народного хозяйства, органов государственного управления.

Параллельная система кодирования, называемая также разрядной или позиционной, соответствует фасетной системе классификации. В отличие от последовательной системы, здесь нет зависимости признака, записанного в одних разрядах шифра, от других. Например, шифр документа 37200407 означает, что документ формируется в производственном отделе 37, подотделе 20, содержит плановую информацию 04, номер документа в подотделе 07.

Порядковая система кодирования - наиболее простая, объектам присваиваются последовательные номера. Для удобства используют равномерный код, добавляя слева нули в разрядах, дополняющих шифр до нужного числа разрядов - 007,027,342 и т д. Шифры порядковой системы имеют малую длину, но не содержат никаких сведений об объекте. Ее используют при малом числе объектов и одном классификационном признаке. Серийно-порядковая система кодирования отличается от порядковой тем, что при наличии двух и более классификационных признаков объекты делят на группы, каждой из которых выделяется серия номеров, присваиваемых аналогично порядковой системе - одной группе присваивают номера от 001 до 200, второй - от 201 до 350 и т.д. Другой вариант этой же системы – выделение нескольких разрядов для одного признака, а остальные - для последовательного присвоения номеров внутри выделенного признака, например 25001 ... 25850; 32001 ... 32640 и т д.

Разработка классификаторов для конкретной АСУ должна осуществляться на основе единых классификаторов, утвержденных как обязательные для отрасли или страны в целом. Если это по обоснованным причинам неприемлемо, разрабатывают локальные классификаторы со средствами перевода их в отраслевые и общесоюзные.

В нашей стране создается Единая система классификации и кодирования технико-экономической информации (ЕСКК), состоящая из трех частей – научно-технические и методические материалы; общесоюзные классификаторы; автоматизированная система ведения общесоюзных классификаторов.

Общесоюзный классификатор технико-экономической информации. Цель создания общесоюзных классификаторов технико-экономической информации (ОК ТЭИ) - научно обоснованная классификация и унификация обозначений технико-экономической информации для обеспечения ее обработки с применением средств вычислительной техники при планировании, учете и управлении народным хозяйством. Система содержит около 30 классификаторов по различным видам информации. Основными из них являются общесоюзные классификаторы: промышленной и сельскохозяйственной продукции; управленческой документации; технико-экономических показателей; обозначений объектов административно-территориального деления СССР и союзных республик; обозначений органов государственного управления СССР и союзных республик; месторождения полезных ископаемых; стран мира и территорий; министерств, ведомств и других потребителей материально-технических ресурсов; единиц измерений, использованных в АСУ и ряд других. Структурная схема ОК ТЭИ приведена на рис. 4.2.

Для примера приведено построение систем классификации, принятых в Общесоюзном классификаторе промышленной и сельскохозяйственной продукции (ОКП) и Общесоюзном классификаторе управленческой документации (ОКУД).

 

Пример 4.1. Система классификации и кодирования промышленной и сельскохозяйственной продукции основывается на иерархических классификационных группировках. В соответствии с принятой системой классификации используется единая по разрядности система цифрового кодирования продукции. Код конкретной продукции представляется десятью цифровыми знаками следующим образом:

 

 

В ОКП первые ступени классификации составляют высшие классификационные группировки с единым по длине кодовым обозначением в шесть разрядов, содержащие пять иерархических уровней. По признакам отраслевой принадлежности вся продукция распределена по 98 классам (первые два разряда). Классы делятся на подклассы, подклассы на группы и т.д. Например, код 43 2126 0512 обозначает:

43 - класс - "Приборы и средства автоматизации специального назначения";

43 2 - подкласс - "Приборы, аппараты, оборудование и посуда из стекла, кварца и фарфора";

43 21 - группа- "Приборы и аппараты из стекла, кварца и фарфора";

43 212 - подгруппа- "Приборы для измерения влажности и температуры";

43 2126 - вид - "Термометры специальные";

43 2126 05 – типовой представитель - "Термометры для установок, определяющих качество нефтепродуктов СП-28-СП-34";

43 2126 051 – типовой представитель – "Термометры для установок, определяющих качество неф-тепродуктов СП-28 - СП-34 обыкновенного исполнения";

43 2126 0512 – типовой представитель – ''Термометр для определения температуры топлива в топлив-ной магистрали СП-29".

Пример 4.2. Объектами классификации в ОКУД являются унифицированные формы документов, входящие в унифицированные системы документации (УСД). Классификация ведется по иерархическому принципу и состоит из трех уровней: класс форм; подкласс форм; регистрационный номер формы.

 

 

Рис. 4.2

 

В соответствии с УСД выделены 13 классов форм. Код формы представляется восемью десятичными знаками следующим образом:

 

 

Для унифицированной системы отчетно-статистической документации (класс форм 06) приняты коды дополнительных признаков форм, содержащие четыре десятичных разряда:

 

 

Например, код

06 06 271 1 1 08 3 обозначает:

06 - форма относится к отчетно-статистической документации;

06 06 – форма содержит документацию по статистике промышленности;

06 06 271 – форма представляет собой отчет о работе тепловой электростанции;

1 - контрольное число кода (поразрядная сумма цифр, записанная в двоичной системе);

1 08 3 - обозначает, что форма представляется почтой, ежемесячно и хранится пять лет.

Отраслевые классификаторы. Они строятся на базе ОК ТЭИ. По способу использования в АСУ их можно разделить на две группы: классификаторы, используемые на предприятиях (организациях) при подготовке информации, передаваемой на ГВЦ для решения задач; классификаторы, используемые непосредственно на ГВЦ при формировании баз данных для простановки признаков и нормативно-справочной информации.

По видам информации классификаторы могут быть разделены на четыре группы: информация о географическом положении, о структуре народного хозяйства и отрасли; информация о природных ресурсах; информация о производственных ресурсах; данные об управленческой информации.

 







©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.