LABINFORM.RU

РАЗМЕЧЕННЫЕ КОЛЛЕКЦИИ ДЛЯ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ

Коллекция Named_Entities_5

Размеченная коллекция Named_Entities_5 создана для оценки качества алгоритмов автоматического извлечения именованных сущностей из текстов на русском языке. В качестве основы для разметки этих коллекций взята коллекция Persons-1000, подготовленная Исследовательским центром Искусственного интеллекта Института программных систем РАН.

В коллекции Persons-1000 были размечены упоминания имен персон в текстах, а также было приведено каноническое названия упомянутых персон. Особенностью этой разметки было то, что размечались только собственные имена персон, в разметку не включались, в частностью упоминания ролей персон (президент, отец) считаются реляционным типом информации.

В коллекции Named_Entities_5 разметка имен людей из коллекции Persons-1000 была дополнена следующими типами имен:

Особенностью новой разметки является то, что в подавляющем числе случаев размеченное имя должно начинаться с заглавной буквы. Важными принципами разметки являются следующие:

Конкретные случаи

  1. Имя внутри названия организации не размечается отдельно:

    [Библиотека имени В.И. Ленина] - org

  2. Вложенные организации и место, к которому они относятся размечаются отдельно. Это упрощенный подход к разметке организаций, но он позволяет делать разметку с высокой степенью согласия между разметчиками

    Общественный совет Правительства Москвы

    [Общественный совет] - Org

    Правительства - Org

    Москвы -  Loc

  3. Имена мест, людей, организаций в кавычках размечаются в соответствии с тем, что значит это имя в кавычках:

    Гостиница "Москва" - Org

Разметка производилась одним экспертом с помощью инструмента Brat. Затем на этой разметке была обучена система извлечения именованных сущностей с использованием кросс-валидации. Автоматическая разметка тестовой части сравнивалась с ручной разметкой и выявлялись случаи, когда система разметила правильно, а эксперт ошибся (пропустил, спутал тип сущности, неточно установил границы сущности). В случае обнаружения неточности экспертной разметки, в разметку вносилась правка.


  Число размеченных объектов в коллекции: 
 Типы сущностейКоличество
 Pers10623
 Org 7032
 Media 1509
 Loc 3141
 Geopolit 4103

Коллекция Named_Entities_3

Также сделан вариант разметки именованных сущностей по трем классам Named_Entities_3:

в которой названия государств присоединены к локациям, а имена медиа-организаций - к организациям.

Скачать коллекции

Для библиографических ссылок

  1. Mozharova V., Loukachevitch N., Two-stage approach in Russian named entity recognition // International FRUCT Conference on Intelligence, Social Media and Web, ISMW FRUCT 2016. Saint-Petersburg; Russian Federation, DOI 10.1109/FRUCT.2016.7584769 (PDF)
  2. Можарова В.А., Лукашевич Н.В. Двухэтапный подход к извлечению именованных сущностей // Труды конференции по искусственному интеллекту КИИ-2016, т.2., 2016. - С.81-88. (PDF)

Благодарности

Коллекция создана при поддержке РФФИ (проект № 15-07-09306)