Labinform.ru | О проекте | Справка | English |
Новости. 18.01.2016.
|
О тезаурусеНа данном сайте представлена часть тезауруса русского языка РуТез (далее РуТез-lite). Тезаурус РуТез представляет собой лингвистический ресурс концептуального типа, то есть представляет собой иерархическую сеть понятий, к которым приписаны текстовые выражения. И в этом смысле РуТез относится к тому же классу, что и тезаурус WordNet. При этом, в отличие от WordNet, который создавался как модель человеческой памяти (раздельное описание частей речи, специальные типы отношений и др.), тезаурус РуТез создавался именно как ресурс для автоматической обработки текстов. До недавнего времени тезаурус РуТез использовался только как корпоративный ресурс, применяемый в таких приложениях как концептуальный информационный поиск, автоматическое расширение запроса, автоматическая рубрикация, автоматическое аннотирование, автоматическая кластеризация. Полезность использования знаний, описанных в тезаурусе РуТез, была показана в ряде кампаний в рамках на ряде международных конференций по оценке (SUMMAC) и российского семинара по методам информационного поиска РОМИП. Приложения, основанные на тезаурусе РуТез, использовались в проектах с государственными и коммерческими организациями. Текущий объем тезауруса РуТез составляет 158 тысяч слов и выражений, уложенных в сеть 55 тысяч понятий, между которыми вручную установлено более 210 тысяч отношений. Особенностью тезауруса является то, что в течение многих лет он тестировался в реальных проектах. Объем опубликованного тезауруса РуТез-lite составляет 115 тысяч слов и выражений. Тезаурус РуТез-lite опубликован при поддержке Фонда Дмитрия Зимина "Династия" и финансовой поддержке основателей компании "Яндекс". Версия тезауруса РуТез-lite выложена для бесплатного некоммерческого использования (лицензия типа Attribution-NonCommercial-ShareAlike 3.0 Unported, позволяющая копировать, изменять и некоммерчески использовать данную версию тезауруса).
При использовании данных следует ссылаться на книгу: (Доиздательская версия книги - скачать PDF) Для некоммерческого использования можно получить xml-файлы с данными тезауруса. Для получения файлов обращайтесь по адресу louk_nat@mail.ru . Другие публикации о тезаурусе РуТез:
1. Loukachevitch N., Dobrov B. RuThes Linguistic Ontology vs. Russian Wordnets // Proceedings of Global WordNet Conference GWC-2014, Tartu. pdf |