Извлечение объектов

DictaScope Tokenizer

Лексический анализатор, который разбирает входной текст для получения на выходе набора размеченных текстовых объектов (токенов) из этого текста.

Основным назначением модуля при обработке текстов на естественном языке является выявление текстовых объектов и фактов, таких как:

I. Объекты

  • персона
  • должность
  • спортивные команды
  • организации (коммерческие и некоммерческие)
  • районы
  • города
  • области / штаты
  • государства
  • географические объекты
  • даты
  • количественные показатели
  • высказывания персон
  • операционные системы

II.Факты относительно персон

  • должность
  • место работы
  • дата рождения / возраст
  • место рождения

Выявленные объекты и факты приводятся к канонической форме (нормализуются).

В состав модуля включаются образцы правил для выявления и нормализации некоторых из перечисленных категорий текстовых объектов и фактов.

Процесс анализа в DictaScope Tokenizer управляется правилами, записанными на специальном языке. Можно создать наборы правил для выделения и нормализации любых сложных текстовых объектов либо доработать существующие под специфические требования (наименования товаров, анкетные данные, ссылки на литературу).

Входной формат – plain-текст. Результат может быть выдан в формате XML.

Для работы программы требуется морфологический словарь.

Программа поставляется в виде динамической библиотеки для Windows/FreeBSD.