Skip to main content
Log in

An open diachronic corpus of historical Spanish

  • Project Note
  • Published:
Language Resources and Evaluation Aims and scope Submit manuscript

Abstract

The impact-es diachronic corpus of historical Spanish compiles over one hundred books—containing approximately 8 million words—in addition to a complementary lexicon which links more than 10,000 lemmas with attestations of the different variants found in the documents. This textual corpus and the accompanying lexicon have been released under an open license (Creative Commons by-nc-sa) in order to permit their intensive exploitation in linguistic research. Approximately 7 % of the words in the corpus (a selection aimed at enhancing the coverage of the most frequent word forms) have been annotated with their lemma, part of speech, and modern equivalent. This paper describes the annotation criteria followed and the standards, based on the Text Encoding Initiative recommendations, used to represent the texts in digital form.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Institutional subscriptions

Fig. 1
Fig. 2
Fig. 3
Fig. 4

Notes

  1. See http://corpus.rae.es/cordenet.html and http://www.corpusdelespanol.org, respectively.

  2. IMproving ACcess to Text, http://www.impact-project.eu.

  3. http://www.cervantesvirtual.com.

  4. http://creativecommons.org/licenses/by-nc-sa/3.0/.

  5. http://www.digitisation.eu/tools/language-resources/impact-es/.

  6. http://creativecommons.org/licenses/by-sa/3.0/.

  7. http://www.gnu.org/licenses/gpl.html.

  8. http://demos.bitext.com/codea.

  9. http://www.iling.unam.mx/chem/.

  10. Although the number of works in the bvc section is about four times the number of works in the gt section, it contains only one third of the word forms because the six volumes of the Diccionario de la lengua castellana account for 4 million word forms in the gt section.

  11. http://www.tei-c.org/release/doc/tei-p5-doc/en/html.

  12. http://www.europeanaregia.eu.

  13. http://www.perseus.tufts.edu.

  14. http://www.natcorp.ox.ac.uk.

References

  • Carreras, X., Chao, I., Padró, L., & Padró, M. (2004). FreeLing: An open-source suite of language analyzers. In: Proceedings of the 4th international conference on language resources and evaluation, Lisbon, Portugal, pp. 239–242.

  • Davies, M. (2002). Un corpus anotado de 100.000.000 palabras del español histórico y moderno. Procesamiento del Lenguaje Natural 29, 21–27.

    Google Scholar 

  • Davies, M. (2010a). The corpus of contemporary American English as the first reliable monitor corpus of English. Literary and Linguistic Computing 25(4), 447–464.

    Article  Google Scholar 

  • Davies, M. (2010b). Creating useful historical corpora: A comparison of CORDE, the Corpus del Español, and the Corpus do Português. In Diacronía de las lenguas iberorromances: nuevas perspectivas desde la lingüística de corpus, Vervuert/Iberoamericana, Frankfurt, Germany/Madrid, Spain, pp. 137–166.

  • Depuydt, K., & de Does, J. (2009). Fons Verborum. Feestbundel voor prof. dr. A.M.F.J. (Fons) Moerdijk, aangeboden door vrienden en collega’s bij zijn afscheid van het INL, Instituut voor Nederlandse Lexicologie, Leiden/Amsterdam (chap Computational tools and lexica to improve access to text) pp. 187–199.

  • de Does, J., & Depuydt, K. (2012). Lexicon-supported OCR of eighteenth century Dutch books: A case study. In Proceedings of the 20th document recognition and retrieval conference, San Francisco, CA USA (to appear).

  • Erjavec, T. (2012). The goo300k corpus of historical Slovene. In Proceedings of the eight international conference on language resources and evaluation, European Language Resources Association (ELRA), Istanbul, Turkey.

  • Forcada, M. L., Ginestí-Rosell, M., Nordfalk, J., O’Regan, J., Ortiz-Rojas, S., Pérez-Ortiz, J. A., Sánchez-Martínez, F., Ramírez-Sánchez, G., & Tyers, F. M. (2011). Apertium: A free/open-source platform for rule-based machine translation. Machine Translation 25(2), 127–144.

    Article  Google Scholar 

  • Francis, W. N., & Kucera, H. (1979). Brown corpus manual. Online at http://www.hit.uib.no/icame/brown/bcm.html.

  • Kenter, T., Erjavec, T., Dulmin, M. Z., & Fiser, D. (2012). Lexicon construction and corpus annotation of historical language with the CoBaLT editor. In Proceedings of the 6th workshop on language technology for cultural heritage, social sciences, and humanities, Association for Computational Linguistics, Avignon, France, pp. 1–6.

  • Kocjančič, P. (2009). Internet y los recursos lingüísticos para la lengua española: Diccionarios y corpus. Verba hispanica: Anuario del Departamento de la Lengua y Literatura Españolas de la Facultad de Filosofía y Letras de la Universidad de Ljubljana, Vol. 17, pp. 145–164.

    Google Scholar 

  • Medina Urrea, A., & Méndez Cruz, C. F. (2011). El corpus histórico del español en México. Revista Digital Universitaria 12(7), 3–25.

    Google Scholar 

  • Montgomery, D. C. (2009). Introduction to statistical quality control. New York: Wiley.

    Google Scholar 

  • Neudecker, C., Schlarb, S., Dogan, M., Missier, P., Sufi, S., Williams, A., et al. (2011). An experimental workflow development platform for historical document digitisation and analysis. In: Proceedings of the 2011 workshop on historical document imaging and processing, Beijing, China, pp. 161–168.

  • Procházková, P. (2006). Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de investigación con corpus. Available online at http://prochazkova.de/fundamentos_de_la_lingüística_de_corpus.pdf.

  • Real Academia Española. (2001a). Diccionario De La Lengua Española (22nd ed.). Espasa Calpe, Madrid. Online at http://lema.rae.es/drae.

  • Real Academia Española. (2001b). Nuevo tesoro lexicográfico de la lengua española (1st ed.). Espasa Calpe, Madrid. Online at http://buscon.rae.es/ntlle/SrvltGUILoginNtlle.

  • Real Academia Española. (s.a.). Banco de datos CORDE, corpus diacrónico del español. Online at http://corpus.rae.es/cordenet.html. Last accessed 2012.09.24.

  • Sánchez Marco, C., Boleda, G., & Fontana, J. M. (2009). Propuesta de codificación de la información paleográfica y lingüística para textos diacrónicos del español. uso del estándar TEI. In Proceedings of the Congreso Internacional Tradición e innovación: Nuevas perspectivas para la edición y el estudio de documentos antiguos, Madrid, Spain.

  • Sánchez-Marco, C., Boleda, G., & Padró, L. (2011). Extending the tool, or how to annotate historical language varieties. In Proceedings of the 5th ACL-HLT workshop on language technology for cultural heritage, social sciences, and humanities, Portland, OR, USA, pp. 1–9.

  • Sánchez-Prieto Borja, P. (2012). Desarrollo y explotación de un corpus de documentos españoles anteriores a 1700 (CODEA). Scriptum Digital 1, 5–35.

    Google Scholar 

  • World Wide Web Consortium. (2008). Extensible markup language (XML) 1.0 (5th ed.). Online at http://www.w3.org/TR/2008/REC-xml-20081126.

Download references

Acknowledgments

Work funded by the European Commission under the Seventh Framework Programme (FP7) through the IMPACT (IMproving ACcess to Text) project. We thank Mikel L. Forcada for his fruitful suggestions.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Felipe Sánchez-Martínez.

Appendices

Appendix 1: Content: the GT section

Author

Title

First edition

Source edition

Anonymous

 Vida de Lazarillo de Tormes

1554

1652

Francisco de Quevedo

 El Parnasso español

1648

1648

Garcilaso de la Vega

 Obras de Garcilasso de la Vega con las anotaciones por el Mtro. Francisco Sánchez Brocense

1574

1612

Inca Garcilaso de la Vega

 Commentarios reales

1609

1609

Jorge Juan

 Observaciones astronomicas y phisicas hechas de orden de S. M. en los Reynos del Peru

1748

1748

Juan Boscán

 Las obras de Boscán y algunas de Garcilasso de la Vega repartidas en cuatro libros

1543

1543

Lope de Vega

 Las comedias del famoso poeta Lope de Vega

1604

1604

Luis de Góngora

 El Polifemo de Don Luis de Góngora with comments by Don García de Salzedo

1629

1629

Mateo Alemán

 Vida y hechos del pìcaro Guzmán de Alfarache

1599

1681

Miguel de Cervantes Saavedra

 El ingenioso hidalgo Don Quixote de la Mancha

1605

1605

Pedro Calderón de la Barca

 Primera parte de comedias del célebre poeta español, Don Pedro Calderón de la Barca

1685

1685

Real Academia Española de la Lengua

 Diccionario de la lengua castellana […] Tomo primero. Que contiene las letras A, B

1726

1726

 Diccionario de la lengua castellana […] Tomo segundo. Que contiene la letra C

1729

1729

 Diccionario de la lengua castellana […] Tomo tercero. Que contiene las letras D, E, F

1732

1732

 Diccionario de la lengua castellana […] Tomo quarto. Que contiene las letras G, H, I, J, K, L, M, N

1734

1734

 Diccionario de la lengua castellana […] Tomo quinto. Que contiene las letras O, P, Q, R

1737

1737

 Diccionario de la lengua castellana […] Tomo sexto. Que contiene las letras S, T, V, X, Y, Z

1739

1739

Ruy López de Sigura

 Libro de la invención liberal y arte del juego del Axedrez

1561

1561

San Juan de la Cruz

 Obras del venerable y mistico Dotor F. Joan de la Cruz

1629

1629

Santa Teresa de Jesús

 Los libros de la Madre Teresa de Jesús

1588

1588

Sor Juana Inés de la Cruz

 Carta athenagorica

1690

1690

Appendix 2: Content: the BVC section

Author

Title

First edition

Source edition

Baltasar Gracián

 Oráculo manual y arte de la prudencia

1647

1647

Beato Juan de Ávila

 Epistolario espiritual

1578

1962

Cristóbal de Castillejo

 Dialogo de mujeres

1544

1544

 Obras morales y de devoción

1542

1958

Diego Sánchez de Badajoz

 Farsa de Abraham

1554

1554

 Farsa de la muerte

1554

1554

 Farsa racional del libre alvedrío

1554

1554

Feliciano de Silva

 Segunda Celestina

1536

1536

Fernando Rojas

 La Celestina

1499–1502

1499, 1514

Fernán Pérez de Oliva

 Dialogo de la dignidad del hombre

1585

1586

Francisco de la Torre

 Poesías

Various

1969

Francisco Delicado

 La Lozana Andaluza

1528

1528

Gabriel Lobo Lasso de la Vega

 Tragedia de la honra de Dido restaurada

1587

1587

Guillén de Castro

 Las Mocedades del Cid

1605–1615

1618

Íñigo de Mendoza

 Coplas de Vita Christi Frayy

1482

1482

Juan Boscán

 Obra completa

Various

1917

Juan Cortés de Tolosa

 El desgraciado

1617

1620

 El nacimiento de la verdad

1617

1620

 La Comadre

1617

1620

 Novela del licenciado periquín

1617

1620

 Novela de un miserable llamado Gonzalo

1617

1620

Juan de Encina

 Égloga representada en la noche postrera de Carnal

1496

1496

 Aucto del repelón

1509

1509

 Égloga de Cristino y Febea

1509

1509

 Égloga de Fileno, Zambardo y Cardonio

1509

1509

 Égloga de las grandes lluvias

1507

1507

 Égloga de Mingo, Gil y Pascuala

1496

1496

 Égloga de Plácida y Vitoriano

1513

1962

 Representación sobre el poder del amor

1507

1507

Juan de Mena

 Laberinto de Fortuna

1481

1505

Juan Ruiz de Alarcón y Mendoza

 El antichristo

1634

1990

 El desdichado en fingir

1628

1990

 El dueño de las estrellas

1634

1990

 El tejedor de Sevilla

1634

1990

 Examen de maridos

1634

1990

 Ganar amigos

1634

1990

 La amistad castigada

1634

1990

 La crueldad por el honor

1634

1990

 La cueva de Salamanca

1628

1990

 La industria y la suerte

1628

1990

 La manganilla de Melilla

1634

1990

 La prueba de las promesas

1634

1990

 Los empeños de un engaño

1634

1990

 Los pechos privilegiados

1634

1990

 Mudarse por mejorarse

1628

1990

 Todo es ventura

1628

1990

Lope de Vega

 Comedia del Príncipe Ynocente

1590

1762

Luis Vélez de Guevara

 La serrana de la Vera

1613

1916

Miguel de Cervantes Saavedra

 Comedia del çerco de Numancia

1615

1615

 Comedia famosa de la casa de los zelos y seluas de Ardenia

1615

1615

 Comedia famosa del gallardo español

1615

1615

 Comedia famosa del laberinto de amor

1615

1615

 Comedia famosa de los baños de Argel

1615

1615

 Comedia famosa de Pedro de Vrdemalas

1615

1615

 Comedia famosa intitvlada el rvfian Dichoso

1615

1615

 Comedia famosa intitvlada la gran svltana doña Catalina de Ouiedo

1615

1615

 Comedia llamada Trato de Argel

1615

1615

 Don Quijote de la Mancha (1a parte)

1605

1605

 Don Quijote de la Mancha (2a parte)

1615

1615

 Entremes de la cueua de Salamanca

1615

1615

 Entremes de la eleccion de los alcaldes de Daganço

1615

1615

 Entremes de la guarda cuydadosa

1615

1615

 Entremes del juez de los diuorcios

1615

1615

 Entremes del retablo de las marauillas

1615

1615

 Entremes del rufian viudo, llamado Trampagos

1615

1615

 Entremes del viejo zeloso

1615

1615

 Entremes del vizcayno fingido

1615

1615

 La entretenida

1615

1615

 La Española inglessa

1613

1613/1614

 La Galatea

1585

1585

 Novela de la Fuerça de la sangre

1613

1613/1614

 Novela de la Gitanilla

1613

1613/1614

 Novela de la Illustre Fregona

1613

1613/1614

 Novela del amante liberal

1613

1613/1614

 Novela de las dos Donzellas

1613

1613/1614

 Novela de la Señora Cornelia

1613

1613/1614

 Novela del Casamiento engañoso

1613

1613/1614

 Novela del Licenciado Vidriera

1613

1613/1614

 Novela del Zeloso estremeño

1613

1788

 Novela de Rinconete y Cortadillo

1613

1788

 Novelas exemplares

1613

1613/1614

 Novela y coloquio que passó entre Cipion y Bergança, perros del hospital de la Resureccion

1613

1613/1614

 Ocho comedias y ocho entremeses nuevos

1615

1615

 Persiles y Sigismunda

1617

1617

 Poesías sueltas

1615

1615

 Viaje del Parnaso

1614

1614

Rights and permissions

Reprints and permissions

About this article

Cite this article

Sánchez-Martínez, F., Martínez-Sempere, I., Ivars-Ribes, X. et al. An open diachronic corpus of historical Spanish. Lang Resources & Evaluation 47, 1327–1342 (2013). https://doi.org/10.1007/s10579-013-9239-y

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s10579-013-9239-y

Keywords

Navigation