Научно-производственный центр Интелтек Плюс

Объектноориентированная база данных "ODB-Text"

Новый подход к построению открытых информационных систем.
Основные положения

Традиционные способы хранения и поиска информации сопряжены с рядом проблем. Шкафы, полки и стеллажи, уставленные книгами, письменные столы, заполненные бумагами, папки с документами - привычное зрелище в любом офисе или учреждении. Поиск нужных бумаг превращается в длительный, а подчас и трудоемкий процесс Конечно, ведение каталога значительно упрощает поиск. Однако на личном опыте всем известно, что работа с каталогом все равно занимает изрядное время и нет гарантий, что будут найдены все требующиеся материалы. Проблема усугубляется если человек точно не помнит название документа или весьма смутно представляет его содержание. В то же время современный офис без компьютера - просто нонсенс. Многие учреждения имеют локальную компьютерную сеть. Поэтому возникает естественное предложение - использовать компьютер и сеть в качестве среды, в которой присутствовали бы электронные двойники документов. Очевидно, что хорошо организованная работа с "виртуальными" документами значительно упрощает их систематизацию, обработку и поиск.

В большинстве организаций стали просто хранить электронные копии документов в архивах на файл-сервере. Но это не решает важную проблему - поиск информации. Следующим шагом в этом направлении было появление информационно-поисковых систем (ИПС). В первую очередь следует назвать правовые ИПС "КОНСУЛЬТАНТ ПЛЮС", "ГАРАНТ" и "КОДЕКС" Центра компьютерных разработок. Необходимо отметить, что научно-производственный центр "ИНТЕЛТЕК ПЛЮС" также имеет большой опыт разработки юридических баз данных. Первые версии наших систем ориентировались на работу под управлением операционной системы MS DOS и распространялись под рабочим названием "LAW", начиная с конца 1991 года. Основной акцент был сделан на разработку юридических ИПС, учитывающих специфику работы и требований конкретного заказчика. Примером подобной системы может служить система "ПРАЗИС", разработанная по заказу Центра изобретений России для Министерства общего и профессионального образования РФ. Эта система отражала особенности и специфику авторского права РФ применительно к объектам авторского права, создаваемым в высших и средних специальных учебных заведениях России. На основании обобщения опыта разработки подобных систем мы сделали вывод о том, что, несмотря на наличие ограниченного количества видов документов в документообороте любой организации и тех функций, которые должна выполнять информационная система с этими документами, заранее нельзя предусмотреть все эти типы и возможности. Здесь приходится учитывать нестабильность законодательства Российской Федерации и постоянные изменения в структуре и названиях органов исполнительной власти, издающих огромное количество подзаконных нормативных актов, которые становятся, как правило, важнее и актуальнее для конечных пользователей подобного рода информационных систем, чем законы. Очень часто после подобных изменений в той или иной степени меняются и внутренние документы предприятий. С учетом этого у информационно-правовых систем с задаваемыми жестко типами документов (в качестве примера можно назвать те же ИПС "КОНСУЛЬТАНТ ПЛЮС", "ГАРАНТ" и "КОДЕКС") всегда будут существовать проблемы оперативного изменения информации в базах данных, в том числе и изменения структуры документов, удаления, добавления и изменения названия поисковых ключей и т.д. Путем привлечения большого числа юристов, программистов и операторов эту проблему можно решить, если речь идет о внесении оперативных изменений в базы данных нормативных актов, хотя при этом всегда будет существовать вероятность того, что какие-то изменения или не удалось отследить, или оперативно сообщить пользователю. В таком случае большие нарекания со стороны пользователя к таким системам неизбежны.

Проблема, о которой идет речь, становится практически неразрешимой, если пользователь хочет, чтобы сразу вслед за изменениями в законодательстве или в ведомственных инструкциях оперативно менялись его собственные документы. В этом случае самое небольшое изменение в документообороте может приводить к переработке всей информационной системы, т.е. к работе, сопоставимой по сложности и по затратам с новой разработкой, которую далеко не каждый готов будет финансировать. Напрашивается единственно возможный вариант решения проблемы: предоставить пользователю возможность самому вносить изменения в информационные базы данных, тем более, что саму предметную область с которой работает пользователь лучше него никто не знает. В таком случае речь идет о том, чтобы дать конечному пользователю достаточно мощный, но в то же самое время и понятный для него инструментарий для создания и ведения открытых полнотекстовых информационных систем. Кроме соблюдения принципа открытости подобного рода информационная система должна сохранить и расширить возможности современных полнотекстовых и гипертекстовых систем, которые безусловно нравятся пользователям, таких как мощный механизм навигации по текстам документов, достигаемый за счет использования механизма понятий, разметки оглавлений документов, установки прямых и обратных гипертекстовых ссылок между документами и внутри одного документа, ведения баз данных реквизитов документов, широких возможностей поиска и печати документов и т.д. Именно таким инструментальным средством является новый программный комплекс "ODB-Text".

С его помощью пользователь может не только сам оперативно отслеживать изменения законодательства и оперативно заносить в базу нормативных актов ведомственные инструкции, но и вносить изменения в свои собственные документы, которые он может хранить в той же самой базе данных. При таком подходе пользователь может при помощи программного комплекса "ODB-Text" версии 2.0 построить свою работу так, чтобы любое изменение базы данных приводило к изменению его внутренних документов. Например, если решением Правительства РФ у какого-либо ведомства изменено название, а с этим ведомством у пользователя нашей системы заключен договор и все документы занесены в базу данных, то очень легко заменить прежнее название на новое. В этом случае будут изменены все документы, связанные с этим договором: письма, платежные документы, счета и т.д., которых может быть очень много. В том случае, если возникнет необходимость создать новый документ, например счет-фактуру, то это легко решить средствами этой же системы. Все преимущества мощной информационно-справочной правовой системы при этом сохранятся и документ органично включится в нее. При необходимости, используя возможности "ODB-Text", документ связывается гипертекстовыми ссылками с другими документами базы, в нем размечаются смысловые понятия, создается оглавление. Используя механизм выгрузки документа в размеченный файл, он может быть сохранен как резервная копия или передан другому пользователю системы "ODB-Text", если тот не связан с первым локальной сетью, для работы над каким-нибудь совместным проектом. Затем документ с исправлениями возвращается первому пользователю, который снова может загрузить его в свою базу данных и продолжить работу.

Рисунок 1. Документы в системе "ODB-Text"

Безусловно, наилучшая многопользовательская работа с документами, в том числе и работа нескольких пользователей с одним документом, достигается когда установлена локальная вычислительная сеть. В этом случае достигается самая высокая эффективность работы программного комплекса "ODB-Text", изначально ориентированного на поддержание сетевой организации работы.

Однако, вряд ли следует рассчитывать на то, что в самое ближайшее время все бумажные носители информации будут заменены на электронные. Такой прогноз хорош разве что для научно-фантастического романа. Другое дело - предложить использовать ЭВМ для упорядочения и ускорения поиска нужного документа в папке или книги на книжной полке или в архиве. Для этого в информационной базе, которая хранит соответствующий документ в электронном виде достаточно указать номера хранилища, шкафа, полки и номер под котором значится твердая копия документа в архиве, если нужно предоставить пользователю дополнительную информацию (например, что кто-то в данный момент взял документ из хранилища или по каким-то причинам переложил его в другую папку). При такой организации хранения документов преимущества, связанные с хранением информации в электронной форме, главным из которых является быстрый их поиск, сохранятся и для документов на твердых носителях. Если мы хотим этого достичь, то должны потребовать от информационной системы, хранящей электронные документы, обеспечение возможности создавать дополнительные поля, в которые будет заноситься информация о местоположении твердых копий этих документов. Очевидно, что эти поля будут разными, если хранилища твердых копий будут отличаться размерами и организацией работы.

Таким образом, новый программный комплекс "ODB-Text" предлагает комплексное решение проблемы современного информационного хранилища для небольших и средних государственных учреждений, коммерческих фирм, отделов крупных предприятий, каталогов библиотек, наконец, для ведения домашних архивов. "ODB-Text" - еще один шаг в направлении приближения компьютерных форм представления информации к естественным.

Реализация

Центральное понятие в "ODB-Text" - это документ. Документ в системе - это не файл (как, например, в системе "Евфрат" фирмы Cognitive Technologies), а именно документ в базе данных, снабженный регистрационной карточкой. Сразу после установки и ознакомления с основными возможностями системы пользователь формирует виды документации, с которыми будет работать. Для конкретного типа документа он создает регистрационную форму, в которой указывается какая информация будет сопутствовать каждому экземпляру документа. Форма представляет собой набор полей различных типов. Например, для договора наверняка будут указаны название организации-контрагента, дата подписания, общая сумма, количество и сроки выполнения этапов и т.п. Подчеркнем, что каждый пользователь может сформировать наиболее подходящий для себя и для своей фирмы вариант. В дальнейшем в регистрационной форме можно легко переименовать, добавить, удалить поля. После перемен система будет отображать новые поля, сохраняя содержимое старых, в том числе переименованных.

Новые документы вводятся во встроенном редакторе документов. Если какие-то документы есть в виде дискового файла, то их можно просто загрузить в базу данных. Главная особенность "ODB-Text" версии 2.0 - поддержка протокола OLE2. Напомним, что механизм Object Linking and Embedding (Вставка и Связывание Объектов) обеспечивает интеграцию объектов OLE-сервера в документы других программ. Программа-клиент "ODB-Text" позволяет сохранять в базе данных документы, в которые вставлены объекты OLE. Документы MS Word, таблицы MS Excel, презентации Power Point, иллюстрации, подготовленные в программах CorelDRAW!, Adobe Photoshop, чертежи Autocad for Windows - вот далеко не полный перечень объектов, которые может хранить база данных "ODB-Text". Пользователь просто переносит документацию, подготовленную в различных программах, в нашу базу данных.

Документы заносятся в базу документов офиса с тем, чтобы их впоследствии можно было быстро найти, просмотреть и изменить. Так, например, целесообразно вынести существенную информацию из текста в регистрационную форму. Обработанные таким образом документы гораздо быстрее воспринимаются. Редактор, уже упоминавшийся выше, представляет собой инструмент формирования дополнительной информации о документе - смысловых понятий, оглавления, гипертекстовых ссылок на другие документы или на строки в тексте этого же документа. После разметки информация отображается непосредственно в тексте и для удобства пользователя может быть выведена в отдельных списках. Таким образом, изначальный "бумажный" документ превращается в своего электронного двойника, с которым гораздо удобнее и проще работать. Время, потраченное на обработку текста, расстановку ссылок, оглавления, выделение понятий с лихвой окупится впоследствии удобством работы с документом. Как и любая ИПС, "ODB-Text" предлагает каталог-рубрикатор, куда можно записать названия всех документов в системе, сгруппировав их по специфическим признакам и разнеся по рубрикам.

В системе используются новейшие достижения в технологии поиска. Поиск ведется как по полям регистрационной карточки, так и по тексту документа. Изюминка "ODB-Text" - полнотекстовый поиск по запросам на естественном языке. Пользователю нет нужды вручную конструировать поисковые запросы - достаточно ввести фразу на обычном разговорном языке. Далее система сама интерпретирует запрос, учитывая особенности русского языка и расстояния между словами. Полнотекстовый поиск выполняется с учетом расстояния между словами и с морфологическим разбором. Например, по запросу "авторское право" будут найдены документы, в тексте которых встречается как сочетание слов "авторское право", так и слова "авторские права", "авторскому праву", "авторскими правами" и т.д. Наряду с естественно-языковым, в "ODB-Text" поддерживается более традиционный механизм контекстного поиска с возможностью комбинировать логические сочетания слов в запросе - "И", "ИЛИ", маскированием окончаний слов.

Рисунок 2. Документ с OLE-объектом и заполненная карточка поискового запроса

С самого начала разработки "ODB-Text" создавался как средство коллективной работы с документами. Когда клиент обращается за документом, ему передается копия документа из информационного хранилища. Запросы от различных клиентов буферизуются, поэтому проблем с необходимостью блокировки записей в базе данных не возникает. Пользователи имеют возможность одновременно работать с одним и тем же документом, причем клиент, который просматривает документ, редактируемый другим человеком, получает все изменения по мере их совершения. Конечно же, отслеживаются попытки удаления документа, который находится в работе. Наконец, когда последний пользователь завершает редактирование, документ сохраняется в базе данных, изменения индексируются и становятся доступными для каждого клиента.

Система спроектирована и реализована с применением технологии объектного программирования. Поскольку программный комплекс реализован для одноранговой сети Windows и Windows 95, на его основе можно строить масштабируемые решения. Например, возможны варианты с несколькими серверами в сети, размещение сервера на любом компьютере. Поскольку в программном комплексе "ODB-Text" используется стандартный для Windows высокоуровневый протокол обмена данными, то система успешно функционирует в сетях различного типа. Удаленный доступ реализуется средствами Microsoft Windows 95. Таким образом, учитывая, что корпорация Microsoft уделяет большое внимание развитию технологий OLE и удаленного доступа в семействе операционных систем Windows, возможности нашего программного комплекса будут расти по мере появления новых версий "Окон".

Информационное хранилище в "ODB-Text" - объектная база данных. Тем самым преодолевается недостаток многих популярных СУБД, которые изначально не были предназначены для хранения записей переменного размера. Объектная архитектура базы данных открывает перспективы использования "ODB-Text" для наполнения графическими изображениями, мультимедийной информацией и удовлетворения потребностей в хранении специфических данных.

Области применения

Как уже отмечалось выше, основной областью применения программного комплекса "ODB-Text" версии 2.0 является создание и ведение специализированных, максимально учитывающих интересы пользователя, открытых информационно-поисковых правовых систем. При этом построенная с использованием данной технологии система может, в случае необходимости, проинтегрировать в себя весь документооборот, начиная с договоров и бухгалтерской документации и кончая рекламными буклетами.

Кроме этого определились и другие области использования системы. К ним можно отнести следующие:

  • создание информационных систем для издательств. В этом случае очевидны такие преимущества как возможность хранения и поиска текстовой информации больших объемов, многопользовательская сетевая работа с документами, возможность хранения оригинал-макетов изданий, рекламной информации как OLE-объектов;
  • создание электронных систем учета кадров для малых и средних предприятий. Чтобы построить такую систему достаточно при помощи Дизайнера форм создать карточку реквизитов документа, включив в нее названия полей необходимых анкетных данных, которые будут потом заполняться Программой-Клиентом. При такой организации в поле текста документа могут храниться автобиография, отсканированный листок по учету кадров и т.д. Главным достоинством такой системы учета кадров будет ее гибкость, то есть возможность быстро изменить ту информацию, которая хранится, ввести новые поисковые поля, исключить старую, потерявшую актуальность информацию;
  • разработка электронных учебников и электронных учебных пособий. Успех такого использования программного комплекса определяется сочетанием возможностей открытой полнотекстовой системы (в первую очередь широких возможностей поиска информации) и возможностью хранить OLE-объекты, в виде которых можно сохранить любую аудиовизуальную информацию;
  • создание разного рода библиотечных систем, в которых кроме чисто поисковой информации могут храниться отсканированные электронные копии тех или иных книг;
  • организация специализированных хранилищ различной информации: медицинских карт, которые наряду с чисто текстовой информацией могут хранить и результаты различных анализов и исследований, если их удастся представить как OLE-объекты, баз данных о лекарствах, баз данных видео-фильмов и слайдов, а также организация и ведение многих других баз данных в различных областях.

Дополнительными областями использования системы должны стать те сферы деятельности, в которых имеется большой документооборот, причем число типов документов велико и предъявляются высокие требования к оперативности поиска нужного документа. Именно такова специфика работы в налоговой службе, на таможне, в адвокатуре и нотариате, при осуществлении банковской и аудиторской деятельности.

Указав на такие богатые возможности следует отметить, что все они могут быть реализованы у одного пользователя или в виде нескольких баз данных, или даже одной базы данных, содержащей большое число различных типов документов. Например, издательство при помощи указанной системы может вести базу нормативных актов по интересующим разделам законодательства, регистрировать и хранить все свои договора и бухгалтерские документы, тексты и оригинал-макеты изданий, вести свою собственную библиотеку, а также осуществить учет кадров. Подобным образом "ODB-Text" используется в редакции новосибирской газеты "Молодость Сибири". И все это достигается средствами только одной системы - программного комплекса "ODB-Text" версии 2.0!

Заключение

Разумеется, в небольшой статье нельзя подробно рассказать о сложной системе, состоящей из нескольких программ. Надеемся, однако, что интерес к проблеме организации информационно-поисковых систем есть. Ведь окончательные решения и устоявшиеся стандарты здесь просто отсутствуют. Поэтому в нашем центре, наряду работой над текущей версией программного комплекса "ODB-Text", ведутся активные поиски новых подходов к анализу содержимого документов. В разгаре работа над проектом "Минерва" - инструментом интеллектуального анализа. Новые технологии, полученные в рамках этой разработки, позволят оперировать не только с текстом, но и со смысловым содержанием документов. Например, можно проанализировать противоречит ли проект контракта действующему законодательству или другим заключенным ранее договорам. Легко решается проблема временного среза в нормативных актах, т.е. компьютер будет сам синтезировать текст документа в той редакции, которая действовала на заданную дату. Также можно будет синтезировать текст документа по некоторому образцу-эталону, задав необходимые реквизиты. Более подробный анализ новых возможностей систем интеллектуальной обработки документов и путей их создания будет предметом отдельной статьи.

В ближайшей перспективе - адаптация системы к работе в глобальных сетях. Например, сейчас весьма актуально - работа сервера в Интернете. В плане адаптации системы к промышленным стандартам - перенос программного комплекса на платформу Windows NT.

ИНТЕЛТЕК ИЗДАТЕЛЬСТВО Обьектные технологии


© НПЦ "ИНТЕЛТЕК ПЛЮС", 1997-2006, E-mail: publish@inteltec.ru