Russian Linguistics

, Volume 33, Issue 2, pp 195–209

О корпусе русского литературного языка (www.narusco.ru)

  • Anatolij Vladimirovič VencovАнатолий Владимирович Венцов
  • Elena Valer’evna GrudevaЕлена Валерьевна Грудева
Article

DOI: 10.1007/s11185-009-9037-8

Cite this article as:
Vencov, A.V. & Grudeva, E.V. Russian Linguistics (2009) 33: 195. doi:10.1007/s11185-009-9037-8
  • 62 Downloads

Аннотация

В статье излагаются принципы создания сбалансированного корпуса русского литературного языка объемом 1 млн. словоупотреблений с разделением на подкорпусы (художественная литература, драматургия, научно-популярная проза и публицистика). Корпус создан в Лаборатории моделирования речевой деятельности факультета филологии и искусств Санкт-Петербургского государственного университета.

В текстах корпуса восстановлена буква ё и обеспечена сплошная акцентуация. При морфологическом аннотировании применяется система дескрипторов, несколько отличающаяся от обычно используемых.

Корпус строится методами полуавтоматической интерактивной обработки текстов с использованием пополняемых рабочих словарей. Разработчики корпуса считают важным добиться минимизации, а в идеале сведения к нулю ошибок: как представляется, к продукции такого рода должны применяться те же требования, что и к словарям, энциклопедиям, учебникам и пр., т.е. наличие фактических ошибок здесь недопустимо в принципе.

На базе корпуса создан частотный словарь акцентуированных словоформ объемом более 100 тысяч единиц. Несмотря на небольшой объем выборки, распределение наиболее частотных единиц словаря оказалось сопоставимым с аналогичными, полученными на корпусах объемом 100 и более млн. словоупотреблений. Корпус и частотный словарь используются в ряде практических исследований.

Корпус и частотный словарь доступны на сайте www.narusco.ru.

On the Corpus of Standard Written Russian (www.narusco.ru)

Abstract

This paper describes the basic principles of developing a balanced corpus of Standard Russian. In its present state, the corpus, subdivided into four subcorpora (fiction, drama, popular-science prose and media), includes one million entries. The corpus was created in the Laboratory for Speech Modeling at the Faculty of Philology and Arts, St. Petersburg State University.

In this corpus, the letter ё is reintroduced and all the entries are accentuated. A special system of morphological descriptors is created and used for tagging purposes.

The corpus is systematically expanded by way of semi-automatic interactive processing of texts using enlarged auxilliary lexicons. The corpus developers consider it important to reduce any possible mistakes to the minimum (ideally, to zero): products of this kind should meet the same requirements as those for dictionaries, encyclopedias, textbooks, etc., where factual mistakes cannot be tolerated.

On the basis of the corpus, a frequency wordlist of accentuated wordforms is created. Notwithstanding its modest scope, the distribution of the most frequent entries is found comparable to the figures obtained for larger corpora of 100 million and more entries. The corpus and the frequency list are used in a number of projects in applied linguistics. The corpus and the frequency list are available at the website www.narusco.ru.

Copyright information

© Springer Science+Business Media B.V. 2009

Authors and Affiliations

  • Anatolij Vladimirovič VencovАнатолий Владимирович Венцов
    • 1
  • Elena Valer’evna GrudevaЕлена Валерьевна Грудева
    • 1
  1. 1.The Faculty of Philology and ArtsSt. Petersburg State UniversitySt. PetersburgRussia