Advertisement

Beyond Spectral Clustering: A Comparative Study of Community Detection for Document Clustering

  • Christian Backhage
  • Kostadin CvejoskiEmail author
  • César Ojeda
  • Rafet Sifa
Conference paper

Zusammenfassung

Dokumenten-Clustering ist ein allgegenwärtiges Problem bei der Datengewinnung, da Textdaten eine der gebräuchlichsten Kommunikationsformen sind. Die Reichhaltigkeit der Daten erfordert Methoden, die – je nach den Eigenschaften der Informationen, die gewonnen werden sollen – auf verschiedene Aufgaben zugeschnitten sind. In letzter Zeit wurden graphenbasierte Methoden entwickelt, die es hierarchischen, unscharfen und nicht-gaußförmigen Dichtemerkmalen erlauben, Strukturen in komplizierten Datenreihen zu identifizieren. In dieser Abhandlung zeigen wir eine neue Methodologie für das Dokumenten-Clustering, das auf einem Graphen basiert, der durch ein Vektorraummodell definiert ist. Wir nutzen einen überlappenden hierarchischen Algorithmus und zeigen die Gleichwertigkeit unserer Qualitätsfunktion mit der von Ncut. Wir vergleichen unsere Methode mit spektralem Clustering und anderen graphenbasierten Modellen und stellen fest, dass unsere Methode eine gute und flexible Alternative für das Nachrichten-Clustering darstellt, wenn eingehende Details zwischen den Themen benötigt werden.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. [1] Atzmueller, M., Doerfel, S., Mitzlaff, F.: Description-oriented community detection using exhaustive subgroup discovery. Information Sciences 329, 965–984 (2016)Google Scholar
  2. [2] Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent dirichlet allocation. the Journal of machine Learning research 3, 993–1022 (2003)Google Scholar
  3. [3] Girvan, M., Newman, M.E.: Community structure in social and biological networks. Proceedings of the national academy of sciences 99(12), 7821–7826 (2002)Google Scholar
  4. [4] Lancichinetti, A., Fortunato, S., Kertész, J.: Detecting the overlapping and hierarchical community structure in complex networks. New Journal of Physics 11(3), 033015 (2009)Google Scholar
  5. [5] Lancichinetti, A., Sirer, M.I., Wang, J.X., Acuna, D., Körding, K., Amaral, L.A.N.: High-reproducibility and high-accuracy method for automated topic classification. Physical Review X 5(1), 011007 (2015)Google Scholar
  6. [6] Le, Q.V., Mikolov, T.: Distributed representations of sentences and documents. In: Proc. of ICML (2014)Google Scholar
  7. [7] MacKay, D.J.: Information theory, inference and learning algorithms. Cambridge university press (2003)Google Scholar
  8. [8] Manning, C.D., Raghavan, P., Schütze, H., et al.: Introduction to information retrieval, vol. 1. Cambridge university press Cambridge (2008)Google Scholar
  9. [9] Martinsson, P.G., Rokhlin, V., Tygert, M.: A randomized algorithm for the decomposition of matrices. Applied and Computational Harmonic Analysis 30(1), 47–68 (2011)Google Scholar
  10. [10] Shi, J., Malik, J.: Normalized cuts and image segmentation. Pattern Analysis and Machine Intelligence, IEEE Transactions on 22(8), 888–905 (2000)Google Scholar
  11. [11] Von Luxburg, U.: A tutorial on spectral clustering. Statistics and computing 17(4), 395–416 (2007)Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden GmbH 2017

Authors and Affiliations

  • Christian Backhage
    • 1
    • 2
  • Kostadin Cvejoski
    • 1
    Email author
  • César Ojeda
    • 1
  • Rafet Sifa
    • 1
    • 2
  1. 1.Fraunhofer IAISSt. AugustinDeutschland
  2. 2.University of BonnBonnDeutschland

Personalised recommendations