LABINFORM.RU СУЩЕСТВИТЕЛЬНЫЕ ПРИЛАГАТЕЛЬНЫЕ ГЛАГОЛЫ English

Главная RuWordNet

Тезаурус русского языка в формате WordNet - RuWordNet

Одним из самых известных в мире компьютерно-лингвистических ресурсов является тезаурус WordNet, который описывает лексику английского языка в виде сети понятий, так называемых синсетов.

Синсеты представляют собой совокупности синонимов, между синсетами установлены отношения. Современный объем тезауруса WordNet составляет 150 тысяч слов и выражений английского языка.Тезаурус WordNet используется во многих исследованиях и экспериментах, связанных с обработкой текстов на английском языке. Формализованная структура тезауруса позволяет разработчикам автоматизированно извлекать из него фрагменты для формирования специализированных ресурсов для решения конкретной прикладной задачи.

В течение многих лет наша группа развивала тезаурусы для автоматической обработки текстов со структуров, несколько отличающейся от тезаурусов типа WordNet. Обсуждение отличий нашего подхода к созданию тезаурусов в форме лингвистических онтологий можно найти здесь и здесь.

Однако многим исследователям и практикам хотелось бы иметь для русского языка тезаурус именно в формате WordNet. Действительно, проекты в области создания национальных ворднетов инициированы более чем для 60 языков, раз в д ва года проводится специализированная международная конференция разработчиков (http://globalwordnet.org/). Можно согласиться с тем, что существование представительного и качественного тезауруса типа WordNet дает дополнительные возможности для многоязычной обработки текстов, поскольку позволяет устанавливать межъязыковые связи между ворднетами, созданными для разных языков.

Также представление лексических системы различных языков в формализованном виде в похожих форматах, в данном случае в формате англоязычного WordNet, создает основу для межъязыкового, типологического сопоставления таких лексических систем.

В итоге было принято решение автоматизированно породить тезаурус русского языка типа WordNet (RuWordNet) на основе знаний о русском языке и окружающем мире, собранных в тезаурусе РуТез.

               

Тезаурус в формате WordNet - RuWordNet создан и сопровождается при частичной поддержке  фонда РГНФ, грант 15-04-12017в и НИР ААА-А17-117021310318-4.

Тезаурус RuWordNet содержит синсеты трех частей речи: существительные (отдельные существительные, группы существительного, предложные группы), глаголы (отдельные глаголы и глагольные группы), прилагательные (отдельные прилагательные и группы прилагательного):

- 29297 синсетов существительных;

- 12865 синсетов прилагательных;

- 7636 синсетов глаголов.

Между синсетами, относящимися к разным частям речи, но выражающих один и тот же смысл, установлены отношения частеречной синонимии, соединяющие разделенные синсеты.

Между синсетами каждой части речи установлены связи гипоним-гипероним (род-вид). Кроме того, между синсетами установлены отношения: часть-целое, экземпляр-класс и отношение антонимии, предметной области. Для глаголов указаны отношения причины и следования. Поисковый интерфейс RuWordNet расположен на сайте ruwordnet.ru.

Для некоммерческого использования можно получить xml-файлы с данными тезауруса RuWordNet. Для получения файлов обращайтесь по адресу louk_nat@mail.ru.

 

Литература

1. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011.

(Доиздательская версия книги - скачать PDF)

2. Loukachevitch, Natalia, and Boris Dobrov. "RuThes linguistic ontology vs. Russian wordnets." Proceedings of Global WordNet Conference GWC-2014. 2014

3. Loukachevitch, Natalia, Dobrov, Boris and Ilia Chetviorkin. "Ruthes-lite, a publicly available version of thesaurus of russian language ruthes." Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue", Bekasovo, Russia. 2014.

4. Loukachevitch, Natalia, and Ilia Chetviorkin. "Determining the most frequent senses using Russian linguistic ontology RuThes." Proceedings of the Workshop on Semantic resources and Semantic Annotation for Natural Language Processing and the Digital Humanities at NODALIDA 2015, Vilnius, 11th May, 2015. No. 112. Linkoping University Electronic Press, 2015.

5. Loukachevitch N. V., Lashevich G., Gerasimova A. A., Ivanov V. V., Dobrov B. V. Creating Russian WordNet by Conversion. In Proceedings of Conference on Computatilnal linguistics and Intellectual technologies Dialog-2016, 2016. pp.405-415.

5. Loukachevitch N., Lashevich G. Multiword expressions in Russian Thesauri RuThes and RuWordNet. Proceedings of the AINL FRUCT 2016, 2016. pp.66-71.