Синтаксический анализ

DictaScope Syntax

Синтаксический анализатор, строит дерево зависимостей для входного предложения на естественном языке (русском).

При построении дерева снимается морфологическая омонимия, словам (лексемам) присваиваются грамматические значения, для каждой подчинительной связи определяется её тип. Производится сегментация предложения: выделение простых предложений в составе сложного, выделение оборотов, в т.ч. вложенных — причастных, деепричастных, адъективных и т.д., определение рядов однородных членов. Снимается функциональная омонимия знаков препинания, определяются их роли. Учет пунктуации позволяет добиться правильного анализа длинных предложений со сложной структурой.

Выделяются некоторые составные текстовые объекты (организации, даты и т.д.). Каждый составной объект представлен в дереве одной вершиной, имеющей синтаксические связи.

Опционально:

  • может быть произведено разбиение входного текста на отдельные предложения;
  • могут быть исправлены некоторые орфографические ошибки;
  • производится поверхностно-семантический анализ: определение действия, субъекта и объекта для каждого предложения, в том числе для простых в составе сложного.

Результат может быть выдан в формате XML.

Для работы программы требуются морфологический словарь и лексический анализатор.

Ядро анализатора DictaScope Syntax реализует универсальные языковые зависимости, что позволяет применять его для разработки анализаторов различных языков на единой платформе. Созданы экспериментальные версии для английского и немецкого языков. Русская версия является в настоящее время наиболее проработанной.

Программа поставляется в виде динамической библиотеки для Windows/FreeBSD.