 |
НПЦ "ИНТЕЛТЕК ПЛЮС" выполнены исследования по автоматизированному извлечению информации из текстов, которые относятся к области интеллектуальной обработки текстов на естественном языке. Извлечение информации является частным случаем задачи распознавания образов. Извлечение подразумевает распознавание в тексте его отдельных элементов и отнесение их к той или иной группе. Например, результатом работы процедуры извлечения является выявление в текстах имен собственных, дат, названий и типов устройств, наименований компаний и других организаций. Кроме распознавания отдельных элементов процедура извлечения может также выявлять отношения между ними. Например, между наименованием изделия и названием компании может быть выявлена связь, указывающая на то, что компания является производителем данного изделия.
Задача извлечения сводится к двум подзадачам: обучение модели извлечение и непосредственное
использование обученной модели при извлечении информации.
Система, построенная на разработанных методах, может быть использована в различных предметных
областях. Например, при решении задач мониторинга новостных сообщений и извлечения конкретных
фактов для занесения их в базу данных, выявления отношений между извлекаемыми объектами. Система
может использоваться для автоматического построения словарей терминов и тезаурусов на основе
некоторого массива текстов предметной области. Методы применимы для задач анализа почтового
трафика, для распознавания интересующей почты, для анализа online-форумов и досок объявлений для
извлечения структурированной информации, например информации с предложениями о вакансиях некоторой
компании.
Разработанные методы извлечения информации реализованы в информационных системах «Семантический контроль текстов редактируемых документов», «Интеллектуальная система выявления и исправления ошибок в почтовых адресах» и «Проверка телефонных номеров», а также в виде комплекса программных средств специального назначения. Программный комплекс может работать как под управлением ОС Windows, так и под управлением ОС семейства Linux.
|