Labinform.ru О проекте Справка English
А
Б
В
Г
Д
Е
Ж
З
И
Й
К
Л
М
Н
О
П
Р
С
Т
У
Ф
Х
Ц
Ч
Ш
Щ
Ы
Э
Ю
Я

Главная РуТез

О лингвистической онтологии "Тезаурус РуТез"

 

Новости. 18.01.2016.
Опубликована вторая версия тезауруса: РуТез-2.0

Новая версия РуТез-2.0 содержит более 31.5 понятий, 111.5 тысяч различных текстовых входов (слов и выражений русского языка), более 130 тысяч с учетом значений многозначных слов.

Тезаурус распространяется в формате XML по запросу по адресу louk_nat@mail.ru,
а также опубликован на сайте (http://www.labinform.ru/pub/ruthes/index.htm).

В связи с распространенностью и популярностью тезаурусов, построенных по модели WordNet,
версия тезауруса РуТез-2.0 стала основой для порождения ворднета для русского языка (RuWordNet).

Новая версия тезауруса РуТез-2.0 и новый тезаурус в формате WordNet - RuWordNet созданы и опубликованы при частичной поддержке фонда РГНФ, грант 15-04-12017в.

 

О тезаурусе

На данном сайте представлена часть тезауруса русского языка РуТез (далее РуТез-lite). Тезаурус РуТез представляет собой лингвистический ресурс концептуального типа, то есть представляет собой иерархическую сеть понятий, к которым приписаны текстовые выражения. И в этом смысле РуТез относится к тому же классу, что и тезаурус WordNet. При этом, в отличие от WordNet, который создавался как модель человеческой памяти (раздельное описание частей речи, специальные типы отношений и др.), тезаурус РуТез создавался именно как ресурс для автоматической обработки текстов.

До недавнего времени тезаурус РуТез использовался только как корпоративный ресурс, применяемый в таких приложениях как концептуальный информационный поиск, автоматическое расширение запроса, автоматическая рубрикация, автоматическое аннотирование, автоматическая кластеризация. Полезность использования знаний, описанных в тезаурусе РуТез, была показана в ряде кампаний в рамках на ряде международных конференций по оценке (SUMMAC) и российского семинара по методам информационного поиска РОМИП. Приложения, основанные на тезаурусе РуТез, использовались в проектах с государственными и коммерческими организациями.

Текущий объем тезауруса РуТез составляет 158 тысяч слов и выражений, уложенных в сеть 55 тысяч понятий, между которыми вручную установлено более 210 тысяч отношений. Особенностью тезауруса является то, что в течение многих лет он тестировался в реальных проектах.

Объем опубликованного тезауруса РуТез-lite составляет 115 тысяч слов и выражений. Тезаурус РуТез-lite опубликован при поддержке Фонда Дмитрия Зимина "Династия" и финансовой поддержке основателей компании "Яндекс".

Версия тезауруса РуТез-lite выложена для бесплатного некоммерческого использования (лицензия типа Attribution-NonCommercial-ShareAlike 3.0 Unported, позволяющая копировать, изменять и некоммерчески использовать данную версию тезауруса).

При использовании данных следует ссылаться на книгу:
Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011.

(Доиздательская версия книги - скачать PDF)

Для некоммерческого использования можно получить xml-файлы с данными тезауруса. Для получения файлов обращайтесь по адресу louk_nat@mail.ru .

Другие публикации о тезаурусе РуТез:

1. Loukachevitch N., Dobrov B. RuThes Linguistic Ontology vs. Russian Wordnets // Proceedings of Global WordNet Conference GWC-2014, Tartu. pdf

2. Loukachevitch, Natalia, Dobrov, Boris and Ilia Chetviorkin. "Ruthes-lite, a publicly available version of thesaurus of russian language ruthes." Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue", Bekasovo, Russia. 2014.

3. Loukachevitch, Natalia, and Ilia Chetviorkin. "Determining the most frequent senses using Russian linguistic ontology RuThes." Proceedings of the Workshop on Semantic resources and Semantic Annotation for Natural Language Processing and the Digital Humanities at NODALIDA 2015, Vilnius, 11th May, 2015. No. 112. Linkoping University Electronic Press, 2015.

4. Loukachevitch N. V., Lashevich G., Gerasimova A. A., Ivanov V. V., Dobrov B. V. Creating Russian WordNet by Conversion. In Proceedings of Conference on Computatilnal linguistics and Intellectual technologies Dialog-2016, 2016. pp.405-415.

5. Loukachevitch N., Lashevich G. Multiword expressions in Russian Thesauri RuThes and RuWordNet. Proceedings of the AINL FRUCT 2016, 2016. pp.66-71.

6. Loukachevitch, Natalia, and Boris Dobrov. "The Sociopolitical Thesaurus as a resource for automatic document processing in Russian." Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication 21.2 (2015): 237-262.