Методы автоматической классификации текстов

ИНТЕЛТЕК ПЛЮС

НПЦ "ИНТЕЛТЕК ПЛЮС" разработаны методы классификации, основанные на нейронных сетях, вероятностных моделях, а также методы, использующие семантический анализ текстов.

Задача классификации разделяется на две подзадачи: обучение классификатора и непосредственная классификация текстов. При обучении, как правило, используется обучающая выборка текстов, разделенная на тематические классы. Задача обучающего механизма заключается в выявлении общих элементов выделенных классов. На основе такого обобщения строятся описатели классов, которые используются при непосредственной работе классификатора.

В настоящий момент разработаны методы как плоской, так и иерархической классификации.

Система, построенная на предлагаемых методах, может быть использована для тематической группировки входящих почтовых сообщений, в частности для отделения информативных сообщений от сообщений рекламного характера. Данные методы могут использоваться при анализе новостных сообщений, например, группировка новостей по предопределенным темам. Кроме того, использование подходов на основе нейронных сетей позволяет выполнять кластеризацию массива текстов, что может быть использовано при анализе тематического состава исследуемой выборки тестов.

Использование более сложного анализа текстов, такого как семантический анализ, позволяет повысить точность классификации. Для решения этой задачи разработан формальный язык описания синтаксиса и семантики текста, позволяющий получать формальные представления текстов, с которыми оперирует классификатор.

Модули, реализующие предлагаемые методы классификации, могут использоваться в составе документальных информационно-поисковых систем для разнесения хранимых документов по соответствующим их темам рубрикам.

Опыт эксплуатации

Разработанные методы классификации информации реализованы в информационной системе «Обзор-ЭСИ», а также в виде комплекса программных средств специального назначения. Программный комплекс может работать как под управлением ОС Windows, так и под управлением ОС семейства Linux.


109316, Москва, Волгоградский проспект 45, МАГП
WWW: http://www.inteltec.ru
E-mail: support@inteltec.ru
Тел./факс: (095) 177-3511 Тел.: (095) 177-8028