, Volume 33, Issue 2, pp 195-209
Date: 29 Apr 2009

О корпусе русского литературного языка (www.narusco.ru)

Rent the article at a discount

Rent now

* Final gross prices may vary according to local VAT.

Get Access

Аннотация

В статье излагаются принципы создания сбалансированного корпуса русского литературного языка объемом 1 млн. словоупотреблений с разделением на подкорпусы (художественная литература, драматургия, научно-популярная проза и публицистика). Корпус создан в Лаборатории моделирования речевой деятельности факультета филологии и искусств Санкт-Петербургского государственного университета.

В текстах корпуса восстановлена буква ё и обеспечена сплошная акцентуация. При морфологическом аннотировании применяется система дескрипторов, несколько отличающаяся от обычно используемых.

Корпус строится методами полуавтоматической интерактивной обработки текстов с использованием пополняемых рабочих словарей. Разработчики корпуса считают важным добиться минимизации, а в идеале сведения к нулю ошибок: как представляется, к продукции такого рода должны применяться те же требования, что и к словарям, энциклопедиям, учебникам и пр., т.е. наличие фактических ошибок здесь недопустимо в принципе.

На базе корпуса создан частотный словарь акцентуированных словоформ объемом более 100 тысяч единиц. Несмотря на небольшой объем выборки, распределение наиболее частотных единиц словаря оказалось сопоставимым с аналогичными, полученными на корпусах объемом 100 и более млн. словоупотреблений. Корпус и частотный словарь используются в ряде практических исследований.

Корпус и частотный словарь доступны на сайте www.narusco.ru.

Abstract

This paper describes the basic principles of developing a balanced corpus of Standard Russian. In its present state, the corpus, subdivided into four subcorpora (fiction, drama, popular-science prose and media), includes one million entries. The corpus was created in the Laboratory for Speech Modeling at the Faculty of Philology and Arts, St. Petersburg State University.

In this corpus, the letter ё is reintroduced and all the entries are accentuated. A special system of morphological descriptors is created and used for tagging purposes.

The corpus is systematically expanded by way of semi-automatic interactive processing of texts using enlarged auxilliary lexicons. The corpus developers consider it important to reduce any possible mistakes to the minimum (ideally, to zero): products of this kind should meet the same requirements as those for dictionaries, encyclopedias, textbooks, etc., where factual mistakes cannot be tolerated.

On the basis of the corpus, a frequency wordlist of accentuated wordforms is created. Notwithstanding its modest scope, the distribution of the most frequent entries is found comparable to the figures obtained for larger corpora of 100 million and more entries. The corpus and the frequency list are used in a number of projects in applied linguistics. The corpus and the frequency list are available at the website www.narusco.ru.

Работа выполнена при частичной финансовой поддержке РГНФ (грант № 07-04-00161а).