Klassifikations- und Regressionsbäume (Trees)

von der Hude, Marlis

doi:10.1007/978-3-658-30153-8_11

Marlis von der Hude²

11k Accesses

Zusammenfassung

Bei der Erstellung von Klassifikations- und Regressionsbäumen werden durch fortgesetztes Splitten der Lerndaten immer homogenere Knoten erzeugt, d.h. innerhalb der Knoten variieren die Werte der Zielgröße nur sehr wenig. Es werden verschiedene Heterogenitätsmaße sowie - für die Evaluation der Prognosegüte - weitere Performancemaße eingeführt. Die Kreuzvalidierung als Alternative zur einfachen Aufteilung in Trainings- und Testdaten wird im Detail beschrieben. Um unterschiedliche Fehlklassifikationsarten unterschiedlich stark zu gewichten, können Fehlklassifikationskosten eingesetzt werden. Eine Verallgemeinerung einzelner Baummodelle bilden Random Forests. Alle Begriffe werden durch Beispiele illustriert.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 34.99; Price excludes VAT (USA)

Softcover Book: USD 44.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Die Baumtiefe und die Wahl des Heterogenitätsmaßes werden hier durch die Standardeinstellungen des Algorithmus bestimmt.
2.
Unreinheit und Entropie wählen manchmal unterschiedliche Splitvariablen aus. Dabei hat das Ginimaß eine höhere Präferenz für gleichgroße Kindknoten.
3.
Jede Bootstrap-Stichprobe enthält ca. 63 % des Originaldatensatzes. Begründung:
Wahrscheinlichkeit dafür, dass ein Objekt nicht gezogen wird: \(1-\frac{1}{n}\) \(\Longrightarrow \) nach n Ziehungen: \(\left( 1-\frac{1}{n}\right) ^{n}\approx e^{-1}\approx 0{.}37\)
\(\Longrightarrow \) Wahrscheinlichkeit dafür, dass ein Objekt gezogen wird: 0, 63.
4.
geometrischer Mittelwert aus n Werten: \(x_{geo} = \root n \of {x_1 \cdot \ldots \cdot x_n}\).
5.
\( \overline{x}_{harm}=\frac{1}{\dfrac{1}{n}\sum \frac{1}{x_{i}}}=\frac{n}{\sum \frac{1}{x_{i}}}=\frac{2}{\frac{1}{prec}+\frac{1}{rec}}=2\cdot \frac{1}{ \frac{prec+rec}{prec\cdot rec}}=2\cdot \frac{prec\cdot rec}{prec+rec} \)
6.
Wahrscheinlichkeit dafür, dass ein Objekt nicht gezogen wird: \(1-\frac{1}{n}\)
\(\Longrightarrow \) nach n Ziehungen: \(\left( 1-\frac{1}{n}\right) ^{n}\approx e^{-1}\approx 0{.}37\)
\(\Longrightarrow \)Wahrscheinlichkeit dafür, dass ein Objekt gezogen wird : 0.63.
7.
Um die Unsicherheiten zu quantifizieren, erstellt man in der klassischen Statistik Prognoseintervalle, wobei man annimmt, dass die Abweichungen der einzelnen Punkte von der Geraden unabhängig voneinander und normalverteilt sind. Als Alternative könnte man mit sogenannten Resampling-Methoden wie dem Bootstrapping verschiedene Geraden aus Teilstichproben erstellen, mit jeder Geraden einen Prognosewert erzeugen und hieraus ein Intervall bilden.

Author information

Authors and Affiliations

Berlin, Deutschland
Marlis von der Hude

Authors

Marlis von der Hude
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Marlis von der Hude .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

von der Hude, M. (2020). Klassifikations- und Regressionsbäume (Trees). In: Predictive Analytics und Data Mining . Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-30153-8_11

Download citation

DOI: https://doi.org/10.1007/978-3-658-30153-8_11
Published: 17 July 2020
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-30152-1
Online ISBN: 978-3-658-30153-8
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics