Tagset Conversion with Decision Trees

  • Bartosz Zaborowski
  • Adam Przepiórkowski
Part of the Lecture Notes in Computer Science book series (LNCS, volume 7614)


This paper addresses the problem of converting part of speech – or, more generally, morphosyntactic – annotations within a single language. Conversion between tagsets is a difficult task and, typically, it is either expensive (when performed manually) or inaccurate (lossy automatic conversion or re-tagging with classical taggers). A statistical method of annotation conversion is proposed here which achieves high accuracy, provided the source annotation is of high quality. The paper also presents an evaluation of an implementation of the converter when applied to a pair of Polish tagsets.


morphosyntactic annotation part of speech tagsets decision trees 


Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.


  1. 1.
    Bień, J.S., Woliński, M.: Wzbogacony korpus Słownika frekwencyjnego polszczyzny współczesnej. In: Linde-Usiekniewicz, J. (ed.) Prace Lingwistyczne Dedykowane Prof. Jadwidze Sambor, pp. 6–10. Uniwersytet Warszawski, Wydział Polonistyki (2003)Google Scholar
  2. 2.
    Holte, R.C.: Very simple classification rules perform well on most commonly used datasets. Machine Learning 11, 63–91 (1993)zbMATHCrossRefGoogle Scholar
  3. 3.
    Kurcz, I., Lewicki, A., Sambor, J., Szafran, K., Woronczak, J.: Słownik frekwencyjny polszczyzny współczesnej. Wydawnictwo Instytutu Języka Polskiego PAN, Cracow (1990)Google Scholar
  4. 4.
    Ogrodniczuk, M.: Nowa edycja wzbogaconego korpusu słownika frekwencyjnego. In: Gajda, S. (ed.) Językoznawstwo w Polsce. Stan i perspektywy, pp. 181–190. Komitet Językoznawstwa, Polska Akademia Nauk and Instytut Filologii Polskiej, Uniwersytet Opolski, Opole (2003),
  5. 5.
    Przepiórkowski, A.: A comparison of two morphosyntactic tagsets of Polish. In: Koseska-Toszewa, V., Dimitrova, L., Roszko, R. (eds.) Representing Semantics in Digital Lexicography: Proceedings of MONDILEX Fourth Open Workshop, Warsaw, pp. 138–144 (2009)Google Scholar
  6. 6.
    Przepiórkowski, A., Woliński, M.: The unbearable lightness of tagging: A case study in morphosyntactic tagging of Polish. In: Proceedings of the 4th International Workshop on Linguistically Interpreted Corpora (LINC 2003), EACL 2003, pp. 109–116 (2003)Google Scholar
  7. 7.
    Quinlan, J.R.: C4.5 Programs for Machine Learning. Morgan Kaufmann, Los Alios (1993)Google Scholar
  8. 8.
    Radziszewski, A., Acedański, S.: Taggers Gonna Tag: An Argument against Evaluating Disambiguation Capacities of Morphosyntactic Taggers. In: Sojka, P., Horák, A., Kopeček, I., Pala, K. (eds.) TSD 2012. LNCS, vol. 7499, pp. 81–87. Springer, Heidelberg (2012)CrossRefGoogle Scholar
  9. 9.
    Saloni, Z., Gruszczyński, W., Woliński, M., Wołosz, R.: Słownik gramatyczny języka polskiego. Wiedza Powszechna, Warsaw (2007)Google Scholar
  10. 10.
    Szałkiewicz, Ł., Przepiórkowski, A.: Anotacja morfoskładniowa NKJP. In: Przepiórkowski, A., Bańko, M., Górski, R.L., Lewandowska-Tomaszczyk, B. (eds.) Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN, Warsaw (2012)Google Scholar
  11. 11.
    Witten, I.H., Frank, E.: Data Mining: Practical machine learning tools and techniques, 2nd edn. Morgan Kaufmann, San Francisco (2005), zbMATHGoogle Scholar
  12. 12.
    Woliński, M.: Morfeusz — a practical tool for the morphological analysis of Polish. In: Kłopotek, M.A., Wierzchoń, S.T., Trojanowski, K. (eds.) Intelligent Information Processing and Web Mining. Advances in Soft Computing, pp. 503–512. Springer, Berlin (2006)Google Scholar
  13. 13.
    Zeman, D.: Reusable tagset conversion using tagset drivers. In: Proceedings of the Sixth International Conference on Language Resources and Evaluation, LREC 2008. ELRA, Marrakech (2008)Google Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2012

Authors and Affiliations

  • Bartosz Zaborowski
    • 1
  • Adam Przepiórkowski
    • 1
    • 2
  1. 1.Institute of Computer SciencePolish Academy of SciencesPoland
  2. 2.University of WarsawPoland

Personalised recommendations