Abstract
The impact-es diachronic corpus of historical Spanish compiles over one hundred books—containing approximately 8 million words—in addition to a complementary lexicon which links more than 10,000 lemmas with attestations of the different variants found in the documents. This textual corpus and the accompanying lexicon have been released under an open license (Creative Commons by-nc-sa) in order to permit their intensive exploitation in linguistic research. Approximately 7 % of the words in the corpus (a selection aimed at enhancing the coverage of the most frequent word forms) have been annotated with their lemma, part of speech, and modern equivalent. This paper describes the annotation criteria followed and the standards, based on the Text Encoding Initiative recommendations, used to represent the texts in digital form.
Notes
See http://corpus.rae.es/cordenet.html and http://www.corpusdelespanol.org, respectively.
IMproving ACcess to Text, http://www.impact-project.eu.
Although the number of works in the bvc section is about four times the number of works in the gt section, it contains only one third of the word forms because the six volumes of the Diccionario de la lengua castellana account for 4 million word forms in the gt section.
References
Carreras, X., Chao, I., Padró, L., & Padró, M. (2004). FreeLing: An open-source suite of language analyzers. In: Proceedings of the 4th international conference on language resources and evaluation, Lisbon, Portugal, pp. 239–242.
Davies, M. (2002). Un corpus anotado de 100.000.000 palabras del español histórico y moderno. Procesamiento del Lenguaje Natural 29, 21–27.
Davies, M. (2010a). The corpus of contemporary American English as the first reliable monitor corpus of English. Literary and Linguistic Computing 25(4), 447–464.
Davies, M. (2010b). Creating useful historical corpora: A comparison of CORDE, the Corpus del Español, and the Corpus do Português. In Diacronía de las lenguas iberorromances: nuevas perspectivas desde la lingüística de corpus, Vervuert/Iberoamericana, Frankfurt, Germany/Madrid, Spain, pp. 137–166.
Depuydt, K., & de Does, J. (2009). Fons Verborum. Feestbundel voor prof. dr. A.M.F.J. (Fons) Moerdijk, aangeboden door vrienden en collega’s bij zijn afscheid van het INL, Instituut voor Nederlandse Lexicologie, Leiden/Amsterdam (chap Computational tools and lexica to improve access to text) pp. 187–199.
de Does, J., & Depuydt, K. (2012). Lexicon-supported OCR of eighteenth century Dutch books: A case study. In Proceedings of the 20th document recognition and retrieval conference, San Francisco, CA USA (to appear).
Erjavec, T. (2012). The goo300k corpus of historical Slovene. In Proceedings of the eight international conference on language resources and evaluation, European Language Resources Association (ELRA), Istanbul, Turkey.
Forcada, M. L., Ginestí-Rosell, M., Nordfalk, J., O’Regan, J., Ortiz-Rojas, S., Pérez-Ortiz, J. A., Sánchez-Martínez, F., Ramírez-Sánchez, G., & Tyers, F. M. (2011). Apertium: A free/open-source platform for rule-based machine translation. Machine Translation 25(2), 127–144.
Francis, W. N., & Kucera, H. (1979). Brown corpus manual. Online at http://www.hit.uib.no/icame/brown/bcm.html.
Kenter, T., Erjavec, T., Dulmin, M. Z., & Fiser, D. (2012). Lexicon construction and corpus annotation of historical language with the CoBaLT editor. In Proceedings of the 6th workshop on language technology for cultural heritage, social sciences, and humanities, Association for Computational Linguistics, Avignon, France, pp. 1–6.
Kocjančič, P. (2009). Internet y los recursos lingüísticos para la lengua española: Diccionarios y corpus. Verba hispanica: Anuario del Departamento de la Lengua y Literatura Españolas de la Facultad de Filosofía y Letras de la Universidad de Ljubljana, Vol. 17, pp. 145–164.
Medina Urrea, A., & Méndez Cruz, C. F. (2011). El corpus histórico del español en México. Revista Digital Universitaria 12(7), 3–25.
Montgomery, D. C. (2009). Introduction to statistical quality control. New York: Wiley.
Neudecker, C., Schlarb, S., Dogan, M., Missier, P., Sufi, S., Williams, A., et al. (2011). An experimental workflow development platform for historical document digitisation and analysis. In: Proceedings of the 2011 workshop on historical document imaging and processing, Beijing, China, pp. 161–168.
Procházková, P. (2006). Fundamentos de la lingüística de corpus. Concepción de los corpus y métodos de investigación con corpus. Available online at http://prochazkova.de/fundamentos_de_la_lingüística_de_corpus.pdf.
Real Academia Española. (2001a). Diccionario De La Lengua Española (22nd ed.). Espasa Calpe, Madrid. Online at http://lema.rae.es/drae.
Real Academia Española. (2001b). Nuevo tesoro lexicográfico de la lengua española (1st ed.). Espasa Calpe, Madrid. Online at http://buscon.rae.es/ntlle/SrvltGUILoginNtlle.
Real Academia Española. (s.a.). Banco de datos CORDE, corpus diacrónico del español. Online at http://corpus.rae.es/cordenet.html. Last accessed 2012.09.24.
Sánchez Marco, C., Boleda, G., & Fontana, J. M. (2009). Propuesta de codificación de la información paleográfica y lingüística para textos diacrónicos del español. uso del estándar TEI. In Proceedings of the Congreso Internacional Tradición e innovación: Nuevas perspectivas para la edición y el estudio de documentos antiguos, Madrid, Spain.
Sánchez-Marco, C., Boleda, G., & Padró, L. (2011). Extending the tool, or how to annotate historical language varieties. In Proceedings of the 5th ACL-HLT workshop on language technology for cultural heritage, social sciences, and humanities, Portland, OR, USA, pp. 1–9.
Sánchez-Prieto Borja, P. (2012). Desarrollo y explotación de un corpus de documentos españoles anteriores a 1700 (CODEA). Scriptum Digital 1, 5–35.
World Wide Web Consortium. (2008). Extensible markup language (XML) 1.0 (5th ed.). Online at http://www.w3.org/TR/2008/REC-xml-20081126.
Acknowledgments
Work funded by the European Commission under the Seventh Framework Programme (FP7) through the IMPACT (IMproving ACcess to Text) project. We thank Mikel L. Forcada for his fruitful suggestions.
Author information
Authors and Affiliations
Corresponding author
Appendices
Appendix 1: Content: the GT section
Author Title | First edition | Source edition |
---|---|---|
Anonymous | ||
Vida de Lazarillo de Tormes | 1554 | 1652 |
Francisco de Quevedo | ||
El Parnasso español | 1648 | 1648 |
Garcilaso de la Vega | ||
Obras de Garcilasso de la Vega con las anotaciones por el Mtro. Francisco Sánchez Brocense | 1574 | 1612 |
Inca Garcilaso de la Vega | ||
Commentarios reales | 1609 | 1609 |
Jorge Juan | ||
Observaciones astronomicas y phisicas hechas de orden de S. M. en los Reynos del Peru | 1748 | 1748 |
Juan Boscán | ||
Las obras de Boscán y algunas de Garcilasso de la Vega repartidas en cuatro libros | 1543 | 1543 |
Lope de Vega | ||
Las comedias del famoso poeta Lope de Vega | 1604 | 1604 |
Luis de Góngora | ||
El Polifemo de Don Luis de Góngora with comments by Don García de Salzedo | 1629 | 1629 |
Mateo Alemán | ||
Vida y hechos del pìcaro Guzmán de Alfarache | 1599 | 1681 |
Miguel de Cervantes Saavedra | ||
El ingenioso hidalgo Don Quixote de la Mancha | 1605 | 1605 |
Pedro Calderón de la Barca | ||
Primera parte de comedias del célebre poeta español, Don Pedro Calderón de la Barca | 1685 | 1685 |
Real Academia Española de la Lengua | ||
Diccionario de la lengua castellana […] Tomo primero. Que contiene las letras A, B | 1726 | 1726 |
Diccionario de la lengua castellana […] Tomo segundo. Que contiene la letra C | 1729 | 1729 |
Diccionario de la lengua castellana […] Tomo tercero. Que contiene las letras D, E, F | 1732 | 1732 |
Diccionario de la lengua castellana […] Tomo quarto. Que contiene las letras G, H, I, J, K, L, M, N | 1734 | 1734 |
Diccionario de la lengua castellana […] Tomo quinto. Que contiene las letras O, P, Q, R | 1737 | 1737 |
Diccionario de la lengua castellana […] Tomo sexto. Que contiene las letras S, T, V, X, Y, Z | 1739 | 1739 |
Ruy López de Sigura | ||
Libro de la invención liberal y arte del juego del Axedrez | 1561 | 1561 |
San Juan de la Cruz | ||
Obras del venerable y mistico Dotor F. Joan de la Cruz | 1629 | 1629 |
Santa Teresa de Jesús | ||
Los libros de la Madre Teresa de Jesús | 1588 | 1588 |
Sor Juana Inés de la Cruz | ||
Carta athenagorica | 1690 | 1690 |
Appendix 2: Content: the BVC section
Author Title | First edition | Source edition |
---|---|---|
Baltasar Gracián | ||
Oráculo manual y arte de la prudencia | 1647 | 1647 |
Beato Juan de Ávila | ||
Epistolario espiritual | 1578 | 1962 |
Cristóbal de Castillejo | ||
Dialogo de mujeres | 1544 | 1544 |
Obras morales y de devoción | 1542 | 1958 |
Diego Sánchez de Badajoz | ||
Farsa de Abraham | 1554 | 1554 |
Farsa de la muerte | 1554 | 1554 |
Farsa racional del libre alvedrío | 1554 | 1554 |
Feliciano de Silva | ||
Segunda Celestina | 1536 | 1536 |
Fernando Rojas | ||
La Celestina | 1499–1502 | 1499, 1514 |
Fernán Pérez de Oliva | ||
Dialogo de la dignidad del hombre | 1585 | 1586 |
Francisco de la Torre | ||
Poesías | Various | 1969 |
Francisco Delicado | ||
La Lozana Andaluza | 1528 | 1528 |
Gabriel Lobo Lasso de la Vega | ||
Tragedia de la honra de Dido restaurada | 1587 | 1587 |
Guillén de Castro | ||
Las Mocedades del Cid | 1605–1615 | 1618 |
Íñigo de Mendoza | ||
Coplas de Vita Christi Frayy | 1482 | 1482 |
Juan Boscán | ||
Obra completa | Various | 1917 |
Juan Cortés de Tolosa | ||
El desgraciado | 1617 | 1620 |
El nacimiento de la verdad | 1617 | 1620 |
La Comadre | 1617 | 1620 |
Novela del licenciado periquín | 1617 | 1620 |
Novela de un miserable llamado Gonzalo | 1617 | 1620 |
Juan de Encina | ||
Égloga representada en la noche postrera de Carnal | 1496 | 1496 |
Aucto del repelón | 1509 | 1509 |
Égloga de Cristino y Febea | 1509 | 1509 |
Égloga de Fileno, Zambardo y Cardonio | 1509 | 1509 |
Égloga de las grandes lluvias | 1507 | 1507 |
Égloga de Mingo, Gil y Pascuala | 1496 | 1496 |
Égloga de Plácida y Vitoriano | 1513 | 1962 |
Representación sobre el poder del amor | 1507 | 1507 |
Juan de Mena | ||
Laberinto de Fortuna | 1481 | 1505 |
Juan Ruiz de Alarcón y Mendoza | ||
El antichristo | 1634 | 1990 |
El desdichado en fingir | 1628 | 1990 |
El dueño de las estrellas | 1634 | 1990 |
El tejedor de Sevilla | 1634 | 1990 |
Examen de maridos | 1634 | 1990 |
Ganar amigos | 1634 | 1990 |
La amistad castigada | 1634 | 1990 |
La crueldad por el honor | 1634 | 1990 |
La cueva de Salamanca | 1628 | 1990 |
La industria y la suerte | 1628 | 1990 |
La manganilla de Melilla | 1634 | 1990 |
La prueba de las promesas | 1634 | 1990 |
Los empeños de un engaño | 1634 | 1990 |
Los pechos privilegiados | 1634 | 1990 |
Mudarse por mejorarse | 1628 | 1990 |
Todo es ventura | 1628 | 1990 |
Lope de Vega | ||
Comedia del Príncipe Ynocente | 1590 | 1762 |
Luis Vélez de Guevara | ||
La serrana de la Vera | 1613 | 1916 |
Miguel de Cervantes Saavedra | ||
Comedia del çerco de Numancia | 1615 | 1615 |
Comedia famosa de la casa de los zelos y seluas de Ardenia | 1615 | 1615 |
Comedia famosa del gallardo español | 1615 | 1615 |
Comedia famosa del laberinto de amor | 1615 | 1615 |
Comedia famosa de los baños de Argel | 1615 | 1615 |
Comedia famosa de Pedro de Vrdemalas | 1615 | 1615 |
Comedia famosa intitvlada el rvfian Dichoso | 1615 | 1615 |
Comedia famosa intitvlada la gran svltana doña Catalina de Ouiedo | 1615 | 1615 |
Comedia llamada Trato de Argel | 1615 | 1615 |
Don Quijote de la Mancha (1a parte) | 1605 | 1605 |
Don Quijote de la Mancha (2a parte) | 1615 | 1615 |
Entremes de la cueua de Salamanca | 1615 | 1615 |
Entremes de la eleccion de los alcaldes de Daganço | 1615 | 1615 |
Entremes de la guarda cuydadosa | 1615 | 1615 |
Entremes del juez de los diuorcios | 1615 | 1615 |
Entremes del retablo de las marauillas | 1615 | 1615 |
Entremes del rufian viudo, llamado Trampagos | 1615 | 1615 |
Entremes del viejo zeloso | 1615 | 1615 |
Entremes del vizcayno fingido | 1615 | 1615 |
La entretenida | 1615 | 1615 |
La Española inglessa | 1613 | 1613/1614 |
La Galatea | 1585 | 1585 |
Novela de la Fuerça de la sangre | 1613 | 1613/1614 |
Novela de la Gitanilla | 1613 | 1613/1614 |
Novela de la Illustre Fregona | 1613 | 1613/1614 |
Novela del amante liberal | 1613 | 1613/1614 |
Novela de las dos Donzellas | 1613 | 1613/1614 |
Novela de la Señora Cornelia | 1613 | 1613/1614 |
Novela del Casamiento engañoso | 1613 | 1613/1614 |
Novela del Licenciado Vidriera | 1613 | 1613/1614 |
Novela del Zeloso estremeño | 1613 | 1788 |
Novela de Rinconete y Cortadillo | 1613 | 1788 |
Novelas exemplares | 1613 | 1613/1614 |
Novela y coloquio que passó entre Cipion y Bergança, perros del hospital de la Resureccion | 1613 | 1613/1614 |
Ocho comedias y ocho entremeses nuevos | 1615 | 1615 |
Persiles y Sigismunda | 1617 | 1617 |
Poesías sueltas | 1615 | 1615 |
Viaje del Parnaso | 1614 | 1614 |
Rights and permissions
About this article
Cite this article
Sánchez-Martínez, F., Martínez-Sempere, I., Ivars-Ribes, X. et al. An open diachronic corpus of historical Spanish. Lang Resources & Evaluation 47, 1327–1342 (2013). https://doi.org/10.1007/s10579-013-9239-y
Published:
Issue Date:
DOI: https://doi.org/10.1007/s10579-013-9239-y