LABINFORM.RU |
Размеченная коллекция Named_Entities_5 создана для оценки качества алгоритмов автоматического извлечения именованных сущностей из текстов на русском языке. В качестве основы для разметки этих коллекций взята коллекция Persons-1000, подготовленная Исследовательским центром Искусственного интеллекта Института программных систем РАН.
В коллекции Persons-1000 были размечены упоминания имен персон в текстах, а также было приведено каноническое названия упомянутых персон. Особенностью этой разметки было то, что размечались только собственные имена персон, в разметку не включались, в частностью упоминания ролей персон (президент, отец) считаются реляционным типом информации.
В коллекции Named_Entities_5 разметка имен людей из коллекции Persons-1000 была дополнена следующими типами имен:
Особенностью новой разметки является то, что в подавляющем числе случаев размеченное имя должно начинаться с заглавной буквы. Важными принципами разметки являются следующие:
Конкретные случаи
[Библиотека имени В.И. Ленина] - org
Общественный совет Правительства Москвы
[Общественный совет] - Org
Правительства - Org
Москвы - Loc
Гостиница "Москва" - Org
Разметка производилась одним экспертом с помощью инструмента Brat. Затем на этой разметке была обучена система извлечения именованных сущностей с использованием кросс-валидации. Автоматическая разметка тестовой части сравнивалась с ручной разметкой и выявлялись случаи, когда система разметила правильно, а эксперт ошибся (пропустил, спутал тип сущности, неточно установил границы сущности). В случае обнаружения неточности экспертной разметки, в разметку вносилась правка.
Число размеченных объектов в коллекции: | ||
Типы сущностей | Количество | |
Pers | 10623 | |
Org | 7032 | |
Media | 1509 | |
Loc | 3141 | |
Geopolit | 4103 |
Также сделан вариант разметки именованных сущностей по трем классам Named_Entities_3:
Скачать коллекции
Коллекция создана при поддержке РФФИ (проект № 15-07-09306)