Russian Linguistics

, Volume 33, Issue 2, pp 195–209

О корпусе русского литературного языка (www.narusco.ru)

  • Anatolij Vladimirovič Vencov (Анатолий Владимирович Венцов)
  • Elena Valer’evna Grudeva (Елена Валерьевна Грудева)
Article
  • 71 Downloads

Аннотация

В статье излагаются принципы создания сбалансированного корпуса русского литературного языка объемом 1 млн. словоупотреблений с разделением на подкорпусы (художественная литература, драматургия, научно-популярная проза и публицистика). Корпус создан в Лаборатории моделирования речевой деятельности факультета филологии и искусств Санкт-Петербургского государственного университета.

В текстах корпуса восстановлена буква ё и обеспечена сплошная акцентуация. При морфологическом аннотировании применяется система дескрипторов, несколько отличающаяся от обычно используемых.

Корпус строится методами полуавтоматической интерактивной обработки текстов с использованием пополняемых рабочих словарей. Разработчики корпуса считают важным добиться минимизации, а в идеале сведения к нулю ошибок: как представляется, к продукции такого рода должны применяться те же требования, что и к словарям, энциклопедиям, учебникам и пр., т.е. наличие фактических ошибок здесь недопустимо в принципе.

На базе корпуса создан частотный словарь акцентуированных словоформ объемом более 100 тысяч единиц. Несмотря на небольшой объем выборки, распределение наиболее частотных единиц словаря оказалось сопоставимым с аналогичными, полученными на корпусах объемом 100 и более млн. словоупотреблений. Корпус и частотный словарь используются в ряде практических исследований.

Корпус и частотный словарь доступны на сайте www.narusco.ru.

On the Corpus of Standard Written Russian (www.narusco.ru)

Abstract

This paper describes the basic principles of developing a balanced corpus of Standard Russian. In its present state, the corpus, subdivided into four subcorpora (fiction, drama, popular-science prose and media), includes one million entries. The corpus was created in the Laboratory for Speech Modeling at the Faculty of Philology and Arts, St. Petersburg State University.

In this corpus, the letter ё is reintroduced and all the entries are accentuated. A special system of morphological descriptors is created and used for tagging purposes.

The corpus is systematically expanded by way of semi-automatic interactive processing of texts using enlarged auxilliary lexicons. The corpus developers consider it important to reduce any possible mistakes to the minimum (ideally, to zero): products of this kind should meet the same requirements as those for dictionaries, encyclopedias, textbooks, etc., where factual mistakes cannot be tolerated.

On the basis of the corpus, a frequency wordlist of accentuated wordforms is created. Notwithstanding its modest scope, the distribution of the most frequent entries is found comparable to the figures obtained for larger corpora of 100 million and more entries. The corpus and the frequency list are used in a number of projects in applied linguistics. The corpus and the frequency list are available at the website www.narusco.ru.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Материалы конференций

  1. Венцов, А. В., & Грудева, Е. В. (2007). К вопросу о создании частотного словаря словоформ русского языка. В Е. В. Грудева & Р. Л. Смулаковская (ред.), Русская языковая личность: Материалы шестой выездной школы-семинара (Череповец, 25–27 октября 2007 г.) (стр. 70–80). Череповец. Google Scholar
  2. Венцов, А. В., Грудева, Е. В., Касевич, В. Б., & Ягунова, Е. В. (2004). Идиомы в Национальном корпусе русского литературного языка. В Международная конференция “Корпусная лингвистика-2004”. Тезисы докладов (12–14 октября 2004 г., С.-Петербург) (стр. 17–18). Санкт-Петербург. Google Scholar
  3. Венцов, А. В., Касевич, В. Б., & Сведенцова, Е. А. (2004). Омография, омофония и восприятие речи. В Карпова, Л. А. (ред.), Человек пишущий и читающий: проблемы и наблюдения. Материалы междунар. конфер. (14–16 марта 2002 г., С.-Петербург) (стр. 182–189). Санкт-Петербург. Google Scholar
  4. Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2003а). Корпус русских текстов и модель восприятия речи. В Материалы III Всероссийской конференции “Теория и практика речевых исследований” (АРСО-2003), 8–10 сентября 2003 г., Москва, МГУ им. М. В. Ломоносова (стр. 40–44). Москва. Google Scholar
  5. Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2004а). Национальный корпус русского литературного языка и разработка модели восприятия речи. В Международная конференция “Корпусная лингвистика-2004”. Тезисы докладов (12–14 октября 2004 г., С.-Петербург). Санкт-Петербург. Google Scholar

Литература

  1. Баранов, А. Н. (2003). Введение в прикладную лингвистику. Москва. Google Scholar
  2. Баскулина, Ю. Н. (2008). Идиоматические сочетания в русском языке: теоретические и прикладные аспекты (на материале Национального корпуса русского литературного языка). Автореферат канд. филол. наук Санкт-Петербург. ftp://lib.herzen.spb.ru/text/baskulina_un_akd.pdf (03-24-2009).
  3. Венцов, А. В., Грудева, Е. В., Касевич, В. Б. и др. (ред.) (2004). Словарь омографов русского языка. Санкт-Петербург. Google Scholar
  4. Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2003б). Корпус русского языка и восприятие речи. Научно-техническая информация. Серия 2: Информационные процессы и системы, 6, 25–32. Google Scholar
  5. Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2004б). Идиома, слово, фонетическое слово. В Г. Е. Кедрова & В. В. Потапов (ред.), Язык и речь: проблемы и решения. Сборник научных трудов к юбилею проф. Л. В. Златоустовой (стр. 357–363). Москва. Google Scholar
  6. Ефремова, Т. Ф. (2004). Толковый словарь служебных частей речи русского языка. Москва. Google Scholar
  7. Касевич, В. Б., Венцов, А. В., Грудева, Е. В., & Ягунова, Е. В. (2005). Национальный корпус русского литературного языка: некоторые результаты, приложения и задачи. Научно-техническая информация. Серия 2: Информационные процессы и системы, 6, 35–40. Google Scholar
  8. Лефельдт, В. (2006). Акцент и ударение в русском языке. Москва. Google Scholar
  9. Резникова, Т. И., & Копотев, М. В. (2005). Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов). В Национальный корпус русского языка: 2003–2005. Результаты и перспективы (стр. 31–61). Москва. Google Scholar
  10. Рогожникова, Р. П. (2003). Толковый словарь сочетаний, эквивалентных слову. Москва. Google Scholar
  11. Телия, В. Н. (ред.) (1990). Фразеография в Машинном фонде русского языка. Москва. Google Scholar
  12. Частотный словарь (1977): Засорина, Л. Н. (ред.) (1977). Частотный словарь русского языка. Москва. Google Scholar
  13. Частотный словарь (1993): Лённгрен, Л. (ред.) (1993). Частотный словарь современного русского языка. Uppsala. Google Scholar
  14. Штейнфельдт, Э. (1963). Частотный словарь современного русского литературного языка. Таллин. Google Scholar

Copyright information

© Springer Science+Business Media B.V. 2009

Authors and Affiliations

  • Anatolij Vladimirovič Vencov (Анатолий Владимирович Венцов)
    • 1
  • Elena Valer’evna Grudeva (Елена Валерьевна Грудева)
    • 1
  1. 1.The Faculty of Philology and ArtsSt. Petersburg State UniversitySt. PetersburgRussia

Personalised recommendations