Skip to main content

Lexicometry: A Quantifying Heuristic for Social Scientists in Discourse Studies

  • Chapter
  • First Online:
Quantifying Approaches to Discourse for Social Scientists

Part of the book series: Postdisciplinary Studies in Discourse ((PSDS))

Abstract

This chapter introduces lexicometry as a quantitative heuristic methodology for the analysis of discourses that complements qualitative hermeneutic methods. On this understanding, it draws a connection between Bachelard’s concept of ‘epistemic rupture’ and quantitative methods which allows the discovery of discursive phenomena prior to the interpretation of meaning in texts. Lexicometry is a corpus-driven approach that deploys, besides common corpus linguistic methods, complex algorithms to analyse the lexis of a given corpus exhaustively. It does so by contrasting different corpus parts organised in partitions. Taking examples from a corpus of 4000 press texts on the global financial crisis of 2008, the contribution illustrates how a large text corpus can be reduced systematically to a readable size. It also demonstrates different ways of exploring the lexicosemantic macro-structures using correspondence analysis, descending hierarchical classification, and other methods.

I am thankful to Malcolm MacDonald for his helpful comments on earlier versions of this text. Additionally, I want to thank André Salem for the numerous personal tutorial sessions and discussions of the software Lexico3 with which most of the analyses in this text have been conducted.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 129.00
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Hardcover Book
USD 169.99
Price excludes VAT (USA)
  • Durable hardcover edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Italic in original.

  2. 2.

    ALCESTE stands for ‘Analyse des Lexèmes Cooccurrents dans un Ensemble de Segments de Texte’, which means analysis of co-occurring lexemes in a totality of text segments.

  3. 3.

    For French and English corpora the software uses more sophisticated dictionaries which exclude functional words for this type of analysis.

  4. 4.

    The term ‘co-occurrence’ refers to an instance of an above-chance frequency of occurrence of two terms (probability distribution). Instances of a systematic co-occurrence taking into account word order or syntactic relations would be referred to with the term ‘collocation’ in this terminology.

  5. 5.

    Mutual Information score addresses the same issue but with a different algorithm.

  6. 6.

    Merkel: Es gab jetzt eine ganze Reihe von Jahren, in denen der Fonds seine klassische Rolle—die Unterstützung von Ländern, die in ernste wirtschaftliche und finanzielle Schwierigkeiten geraten sind—kaum noch ausüben musste. Deshalb wurde das Sparprogramm beschlossen. Wenn wir dem IWF aber nun neue Aufgaben bei der Überwachung der Finanzmarktstabilität übertragen, müssen wir ihn auch ordentlich ausstatten. Mit unserem Paket zur Stabilisierung der Konjunktur geben wir dagegen sofort wirksame Hilfen für Investitionen und Konsum. […] Wir bauen damit Unternehmen und Bürgern eine Brücke, damit 2009 die Folgen der weltweiten Krise aufgefangen werden und es 2010 wieder aufwärts geht.

  7. 7.

    Steinbrück: Wie tief die Rezession ausfällt, wird man erst hinterher genau wissen.

    Spiegel: Wenn man sieht, wie man sich im Ausland gegen diese Rezession stemmt, dann muss man den Eindruck bekommen, dass sie ziemlich passiv sind. Oder einfach nur stur.

    Steinbrück: Ich bin nicht stur, ich gehorche der ökonomischen Vernunft.

  8. 8.

    SZ: Brauchen wir eine europäische Wirtschaftsregierung, wie sie Frankreichs Präsident Sarkozy fordert?

    Barroso: Nach dem Treffen der Staats—und Regierungschefs am 7. November sind wir uns in Europa einig, dass wir nationale Aktivitäten besser koordinieren, aber nicht alles vereinheitlichen müssen. Wenn etwa Polen ein Wirtschaftsprogramm beschließt, wirkt sich das auf Deutschland aus und sicher auch umgekehrt.

  9. 9.

    Spiegel: Haben die Banker moralisch versagt?

    Enzensberger: Es ist ein bisschen viel verlangt, dass ausgerechnet die Banker für die Moral zuständig sein sollen. […]

    Spiegel: Aus dem Finanzdebakel erwächst eine tiefgreifende Krise der sogenannten Realwirtschaft.

    Enzensberger: Es ist mir unbegreiflich, weshalb die ganze Welt davon so überrascht ist. Das ist ein bisschen wie in England. Wenn es dort im Winter schneit, dann sind die Engländer ganz verblüfft, weil ganze Regionen im Schnee versinken, so, als wäre der Winter nicht ein periodisch wiederkehrendes Faktum. Genauso folgt jedem Aufschwung ein Absturz. Das ist natürlich sehr ungemütlich.

References

  • Bachelard, Gaston. 1962. La philosophie du non. Essai d’une philosophie du nouvel esprit scientifique. Paris: PUF. Original edition, 1940.

    Google Scholar 

  • Bécue-Bertaut, Mónica. 2014. Distributional equivalence and linguistics. In Visualization and verbalisation of data, ed. Jörg Blasius and Michael Greenacre, 149–163. London and New York: CRC.

    Google Scholar 

  • Benzécri, Jean-Paul. 1963. Course de Linguistique Mathématique. Rennes: Universitée de Rennes.

    Google Scholar 

  • ———. 1969. Statistical analysis as a tool to make patterns emerge from data. In Methodologies of pattern recognition, ed. Satosi Watanabe, 35–74. New York: Academic Press.

    Chapter  Google Scholar 

  • ———. 1980. Pratique de l’analyse des données. Paris: Dunod.

    Google Scholar 

  • ———. 1982. Histoire et préhistoire de l’analyse des données. Paris: Dunod.

    Google Scholar 

  • Bonnafous, Simone, and Maurice Tournier. 1995. Analyse du discours, lexicométrie, communication et politique. Mots – Les langages du politique 29 (117): 67–81.

    Google Scholar 

  • Busse, Dietrich, and Wolfgang Teubert. 2014. Using corpora for historical semantics. In The discourse studies reader. Main currents in theory and analysis, ed. Johannes Angermuller, Dominique Mainguenau and Ruth Wodak, 340–349. Amsterdam: John Benjamins. Original edition, 1994.

    Google Scholar 

  • Demonet, Michel, Annie Geffroy, Jean Gouazé, Pierre Lafon, Maurice Mouillaud, and Maurice Tournier. 1975. Des tracts en mai 1968. Paris: Colin.

    Google Scholar 

  • Diaz-Bone, Rainer. 2007. Die französische Epistemologie und ihre Revisionen. Zur Rekonstruktion des methodologischen Standortes der Foucaultschen Diskursanalyse. Forum Qualitative Sozialforschung/Forum: Qualitative Social Research 8 (2): Art. 24.

    Google Scholar 

  • Duchastel, Jules, and Victor Armony. 1993. Un protocole de description de discours politiques. Actes des Secondes journées internationales d’analyse statistique de données textuelles, Paris.

    Google Scholar 

  • ———. 1995. La catégorisation socio-sémantique. Actes des Secondes journées internationales d’analyse statistique de données textuelles, Rome.

    Google Scholar 

  • Fiala, Pierre. 1994. L’interprétation en lexicométrie. Une approche quantitative des données lexicales. Langue Française 103 (Sep.): 113–122.

    Article  Google Scholar 

  • Fiala, Pierre, Benoît Habert, Pierre Lafon, and Carmen Pineira. 1987. Des mots aux syntagmes. Figement et variations dans la Résolution générale du congrès de la CGT de 1978. Mots – Les Langages du Politiques 14 (1): 47–87.

    Google Scholar 

  • Foucault, Michel. 2003. On the archaeology of the sciences: Response to the epistemology circle. In The essential Foucault. Selections from the essential works of Foucault 1954–1984, ed. Paul Rabinow and Nikolas Rose, 392–422. New York: New Press. Original edition, 1968.

    Google Scholar 

  • Glady, Marc, and François Leimdorfer. 2015. Usages de la lexicométrie et interprétation sociologique. Bulletin de Me´thodologie Sociologique 127: 5–27.

    Article  Google Scholar 

  • Guiraud, Pierre. 1954. Les caractères statistiques du vocabulaire. Paris: PUF.

    Google Scholar 

  • ———. 1960. Problèmes et méthodes de la statistique linguistique. Paris: PUF.

    Google Scholar 

  • Harris, Zellig S. 1952. Discourse analysis: A sample text. Language 28 (4): 474–494.

    Article  Google Scholar 

  • Heiden, Serge, and Pierre Lafon. 1998. Cooccurrences. La CFDT de 1973 à 1992. In Des mots en liberté, Mélanges Maurice Tournier, ed. Pierre Fiala and Pierre Lafon, 65–83. Lyon: ÉNS Éditions.

    Google Scholar 

  • Herdan, Gustav. 1964. Quantitative linguistics. London: Butterworths.

    Google Scholar 

  • ———. 1966. The advanced theory of language as choice and chance. Berlin: Springer.

    Book  Google Scholar 

  • Husson, François, and Julie Josse. 2014. Multiple correspondence analysis. In Visualization and verbalisation of data, ed. Jörg Blasius and Michael Greenacre, 165–183. London and New York: CRC.

    Google Scholar 

  • Kleining, Gerhard. 1994. Qualitativ-heuristische Sozialforschung. Schriften zur Theorie und Praxis. Hamburg-Harvestehude: Fechner.

    Google Scholar 

  • Kuck, Kristin, and Ronny Scholz. 2013. Quantitative und qualitative Methoden der Diskursanalyse als Ansatz einer rekonstruktiven Weltpolitikforschung. Zur Analyse eines internationalen Krisendiskurses in der deutschen Presse. In Rekonstruktive Methoden der Weltpolitikforschung. Anwendungsbeispiele und Entwicklungstendenzen, ed. Ulrich Franke and Ulrich Roos, 219–270. Baden-Baden: Nomos.

    Chapter  Google Scholar 

  • Lafon, Pierre. 1984. Dépouillements et statistiques en lexicométrie. Paris: Champion.

    Google Scholar 

  • Lebart, Ludovic, and André Salem. 1988. Analyse statistique des données textuelles. Questions ouvertes et lexicométrie. Paris: Dunod.

    Google Scholar 

  • Lebart, Ludovic, André Salem, and Lisette Berry. 1998. Exploring textual data. Dordrecht: Kluwer.

    Book  Google Scholar 

  • Lebart, Ludovic, and Gilbert Saporta. 2014. Historical elements of correspondence analysis and multiple correspondence analysis. In Visualization and verbalisation of data, ed. Jörg Blasius and Michael Greenacre, 31–44. London and New York: CRC.

    Google Scholar 

  • Lee, David. 2001. Genres, registers, text types, domains, and styles: Clarifying the concepts and navigating a path through the BNC jungle. Language Learning & Technology 5 (3): 37–72.

    Google Scholar 

  • Leimdorfer, François. 2010. Les sociologues et le langage. Paris: Maison des sciences de l’homme.

    Google Scholar 

  • Leimdorfer, François, and André Salem. 1995. Usages de la lexicométrie en analyse de discours. Cahiers des Sciences Humaines 31 (1): 131–143.

    Google Scholar 

  • Martinez, William. 2011. Vers une cartographie géo-lexicale. In Situ, 15. Accessed July 1, 2018. http://journals.openedition.org/insitu/590.

  • ———. 2012. Au-delà de la cooccurrence binaire… Poly-cooccurrences et trames de cooccurrence. Corpus 11: 191–216.

    Google Scholar 

  • Mayaffre, Damon. 2005. De la lexicométrie à la logométrie. L’Astrolabe. Accessed July 1, 2018. https://hal.archives-ouvertes.fr/hal-00551921/document.

  • ———. 2007. Analyses logométriques et rhétorique du discours. In Introduction à la recherche en SIC, ed. Stéphane Olivesi, 153–180. Grenoble: Presses Universitaires de Grenoble.

    Google Scholar 

  • ———. 2016. Quantitative linguistics and political history. In Quantitative linguistics in France, ed. Jacqueline Léon and Sylvain Loiseau, 94–119. Lüdenscheid: Ram Verlag.

    Google Scholar 

  • Mayaffre, Damon, and Céline Poudat. 2013. Quantitative approaches to political discourse. Corpus linguistics and text statistics. In Speaking of Europe. Approaches to complexity in European political discourse, ed. Kjersti Fløttum, 65–83. Amsterdam: Benjamins.

    Chapter  Google Scholar 

  • Muller, Charles. 1967. Étude de statistique lexicale. Le vocabulaire du théâtre de Pierre Corneille. Translated by Pierre Corneille. Paris: Larousse.

    Google Scholar 

  • Pêcheux, Michel. 1982. Language, semantics and ideology (Language, Discourse, Society Series). London: Macmillan.

    Book  Google Scholar 

  • Pêcheux, Michel, Claudine Haroche, Paul Henry, and Jean-Pierre Poitou. 1979. Le rapport Mansholt: un cas d’ambiguïté idéologique. Technologies, Idéologies, Pratiques 2: 1–83.

    Google Scholar 

  • Reinert, Max. 1983. Une méthode de classification descendante hiérarchique. Cahiers analyse des données VIII (2): 187–198.

    Google Scholar 

  • Roux, Maurice. 1985. Algorithmes de classification. Paris: Masson.

    Google Scholar 

  • Salem, André. 1982. Analyse factorielle et lexicométrie. Mots – Les Langages du Politiques 4 (1): 147–168.

    Google Scholar 

  • ———. 1987. Pratique des segments répétés. Essai de statistique textuelle. Paris: Klincksieck.

    Google Scholar 

  • Scholz, Ronny. 2016. Towards a post-material prosperity? An analysis of legitimising narratives in German crisis discourses from 1973 and 2008. French Journal for Media Research [online] 5 (Narratives of the Crisis/Récits de crise). Accessed July 1, 2018. http://frenchjournalformediaresearch.com/index.php?id=614.

  • Scholz, Ronny, and Johannes Angermuller. 2013. Au nom de Bologne ? Une analyse comparative des discours politiques sur les réformes universitaires en Allemagne et en France. Mots – Les Langages du Politiques 102: 22–36.

    Google Scholar 

  • Scholz, Ronny, and Pierre Fiala. 2017. Politolinguistik in Frankreich. In Handbuch Sprache und Politik, ed. Jörg Kilian, Thomas Niehr, and Martin Wengeler, 1163–1199. Bremen: Hempen.

    Google Scholar 

  • Scholz, Ronny, and Annika Mattissek. 2014. Zwischen Exzellenz und Bildungsstreik. Lexikometrie als Methodik zur Ermittlung semantischer Makrostrukturen des Hochschulreformdiskurses. In Diskursforschung. Ein interdisziplinäres Handbuch. Band 2: Methoden und Analysepraxis. Perspektiven auf Hochschulreformdiskurse, ed. Martin Nonhoff, Eva Herschinger, Johannes Angermuller, Felicitas Macgilchrist, Martin Reisigl, Juliette Wedl, Daniel Wrana, and Alexander Ziem, 86–112. Bielefeld: Transcript.

    Google Scholar 

  • Scholz, Ronny, and Alexander Ziem. 2013. Lexikometrie meets FrameNet: das Vokabular der ‘Arbeitsmarktkrise’ und der ‘Agenda 2010’ im Wandel. In Sprachliche Konstruktionen von Krisen: Interdisziplinäre Perspektiven auf ein fortwährend aktuelles Phänomen, ed. Martin Wengeler and Alexander Ziem, 155–185. Bremen: Hempen.

    Google Scholar 

  • ———. 2015. Das Vokabular im diskurshistorischen Vergleich: Skizze einer korpuslinguistischen Untersuchungsheuristik. In Diskurs – interdisziplinär. Zugänge, Gegenstände, Perspektiven, ed. Heidrun Kämper and Ingo Warnke, 281–313. Berlin and New York: De Gruyter.

    Chapter  Google Scholar 

  • Tognini-Bonelli, Elena. 2001. Corpus linguistics at work. Amsterdam: Benjamins.

    Book  Google Scholar 

  • Tournier, Maurice. 1975. Un vocabulaire ouvrier en 1848. Essai de lexicométrie. Quatre volumes multicopiés. Saint-Cloud: École Normale Supérieure.

    Google Scholar 

  • ———. 1993. Lexicometria – Séminaire de lexicométrie. Lisbonne: Universidade Aberta. Original edition, 1988.

    Google Scholar 

  • Wengeler, Martin. 2015. Patterns of argumentation and the heterogeneity of social knowledge. Journal of Language and Politics 14 (5): 689–711.

    Article  Google Scholar 

  • Yule, George Udny. 1944. The statistical study of literary vocabulary. Cambridge: Cambridge University Press.

    Google Scholar 

  • Žagar, Igor Ž. 2010. Topoi in critical discourse analysis. Lodz Papers in Pragmatics 6 (1): 3–27.

    Article  Google Scholar 

  • Ziem, Alexander. 2014. Frames of understanding in text and discourse. Theoretical foundations and descriptive applications. Amsterdam: Benjamins.

    Google Scholar 

  • Zipf, George K. 1929. Relative frequency as a determinant of phonetic change. Harvard Studies in Classical Philology 40: 1–95.

    Article  Google Scholar 

  • ———. 1935. The psycho-biology of language. An introduction to dynamic philology. Boston: Mifflin.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Ronny Scholz .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2019 The Author(s)

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Scholz, R. (2019). Lexicometry: A Quantifying Heuristic for Social Scientists in Discourse Studies. In: Scholz, R. (eds) Quantifying Approaches to Discourse for Social Scientists. Postdisciplinary Studies in Discourse. Palgrave Macmillan, Cham. https://doi.org/10.1007/978-3-319-97370-8_5

Download citation

  • DOI: https://doi.org/10.1007/978-3-319-97370-8_5

  • Published:

  • Publisher Name: Palgrave Macmillan, Cham

  • Print ISBN: 978-3-319-97369-2

  • Online ISBN: 978-3-319-97370-8

  • eBook Packages: Social SciencesSocial Sciences (R0)

Publish with us

Policies and ethics