Skip to main content

Klassifikations- und Regressionsbäume (Trees)

  • Chapter
  • First Online:
Predictive Analytics und Data Mining
  • 11k Accesses

Zusammenfassung

Bei der Erstellung von Klassifikations- und Regressionsbäumen werden durch fortgesetztes Splitten der Lerndaten immer homogenere Knoten erzeugt, d.h. innerhalb der Knoten variieren die Werte der Zielgröße nur sehr wenig. Es werden verschiedene Heterogenitätsmaße sowie - für die Evaluation der Prognosegüte - weitere Performancemaße eingeführt. Die Kreuzvalidierung als Alternative zur einfachen Aufteilung in Trainings- und Testdaten wird im Detail beschrieben. Um unterschiedliche Fehlklassifikationsarten unterschiedlich stark zu gewichten, können Fehlklassifikationskosten eingesetzt werden. Eine Verallgemeinerung einzelner Baummodelle bilden Random Forests. Alle Begriffe werden durch Beispiele illustriert.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 34.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 44.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Die Baumtiefe und die Wahl des Heterogenitätsmaßes werden hier durch die Standardeinstellungen des Algorithmus bestimmt.

  2. 2.

    Unreinheit und Entropie wählen manchmal unterschiedliche Splitvariablen aus. Dabei hat das Ginimaß eine höhere Präferenz für gleichgroße Kindknoten.

  3. 3.

    Jede Bootstrap-Stichprobe enthält ca. 63 % des Originaldatensatzes. Begründung:

    Wahrscheinlichkeit dafür, dass ein Objekt nicht gezogen wird: \(1-\frac{1}{n}\) \(\Longrightarrow \) nach n Ziehungen: \(\left( 1-\frac{1}{n}\right) ^{n}\approx e^{-1}\approx 0{.}37\)

    \(\Longrightarrow \) Wahrscheinlichkeit dafür, dass ein Objekt gezogen wird: 0, 63.

  4. 4.

    geometrischer Mittelwert aus n Werten: \(x_{geo} = \root n \of {x_1 \cdot \ldots \cdot x_n}\).

  5. 5.

    \( \overline{x}_{harm}=\frac{1}{\dfrac{1}{n}\sum \frac{1}{x_{i}}}=\frac{n}{\sum \frac{1}{x_{i}}}=\frac{2}{\frac{1}{prec}+\frac{1}{rec}}=2\cdot \frac{1}{ \frac{prec+rec}{prec\cdot rec}}=2\cdot \frac{prec\cdot rec}{prec+rec} \)

  6. 6.

    Wahrscheinlichkeit dafür, dass ein Objekt nicht gezogen wird: \(1-\frac{1}{n}\)

    \(\Longrightarrow \) nach n Ziehungen: \(\left( 1-\frac{1}{n}\right) ^{n}\approx e^{-1}\approx 0{.}37\)

    \(\Longrightarrow \)Wahrscheinlichkeit dafür, dass ein Objekt gezogen wird : 0.63.

  7. 7.

    Um die Unsicherheiten zu quantifizieren, erstellt man in der klassischen Statistik Prognoseintervalle, wobei man annimmt, dass die Abweichungen der einzelnen Punkte von der Geraden unabhängig voneinander und normalverteilt sind. Als Alternative könnte man mit sogenannten Resampling-Methoden wie dem Bootstrapping verschiedene Geraden aus Teilstichproben erstellen, mit jeder Geraden einen Prognosewert erzeugen und hieraus ein Intervall bilden.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Marlis von der Hude .

Rights and permissions

Reprints and permissions

Copyright information

© 2020 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

von der Hude, M. (2020). Klassifikations- und Regressionsbäume (Trees). In: Predictive Analytics und Data Mining . Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-30153-8_11

Download citation

Publish with us

Policies and ethics