Zusammenfassung
Bei der Erstellung von Klassifikations- und Regressionsbäumen werden durch fortgesetztes Splitten der Lerndaten immer homogenere Knoten erzeugt, d.h. innerhalb der Knoten variieren die Werte der Zielgröße nur sehr wenig. Es werden verschiedene Heterogenitätsmaße sowie - für die Evaluation der Prognosegüte - weitere Performancemaße eingeführt. Die Kreuzvalidierung als Alternative zur einfachen Aufteilung in Trainings- und Testdaten wird im Detail beschrieben. Um unterschiedliche Fehlklassifikationsarten unterschiedlich stark zu gewichten, können Fehlklassifikationskosten eingesetzt werden. Eine Verallgemeinerung einzelner Baummodelle bilden Random Forests. Alle Begriffe werden durch Beispiele illustriert.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Die Baumtiefe und die Wahl des Heterogenitätsmaßes werden hier durch die Standardeinstellungen des Algorithmus bestimmt.
- 2.
Unreinheit und Entropie wählen manchmal unterschiedliche Splitvariablen aus. Dabei hat das Ginimaß eine höhere Präferenz für gleichgroße Kindknoten.
- 3.
Jede Bootstrap-Stichprobe enthält ca. 63 % des Originaldatensatzes. Begründung:
Wahrscheinlichkeit dafür, dass ein Objekt nicht gezogen wird: \(1-\frac{1}{n}\) \(\Longrightarrow \) nach n Ziehungen: \(\left( 1-\frac{1}{n}\right) ^{n}\approx e^{-1}\approx 0{.}37\)
\(\Longrightarrow \) Wahrscheinlichkeit dafür, dass ein Objekt gezogen wird: 0, 63.
- 4.
geometrischer Mittelwert aus n Werten: \(x_{geo} = \root n \of {x_1 \cdot \ldots \cdot x_n}\).
- 5.
\( \overline{x}_{harm}=\frac{1}{\dfrac{1}{n}\sum \frac{1}{x_{i}}}=\frac{n}{\sum \frac{1}{x_{i}}}=\frac{2}{\frac{1}{prec}+\frac{1}{rec}}=2\cdot \frac{1}{ \frac{prec+rec}{prec\cdot rec}}=2\cdot \frac{prec\cdot rec}{prec+rec} \)
- 6.
Wahrscheinlichkeit dafür, dass ein Objekt nicht gezogen wird: \(1-\frac{1}{n}\)
\(\Longrightarrow \) nach n Ziehungen: \(\left( 1-\frac{1}{n}\right) ^{n}\approx e^{-1}\approx 0{.}37\)
\(\Longrightarrow \)Wahrscheinlichkeit dafür, dass ein Objekt gezogen wird : 0.63.
- 7.
Um die Unsicherheiten zu quantifizieren, erstellt man in der klassischen Statistik Prognoseintervalle, wobei man annimmt, dass die Abweichungen der einzelnen Punkte von der Geraden unabhängig voneinander und normalverteilt sind. Als Alternative könnte man mit sogenannten Resampling-Methoden wie dem Bootstrapping verschiedene Geraden aus Teilstichproben erstellen, mit jeder Geraden einen Prognosewert erzeugen und hieraus ein Intervall bilden.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2020 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this chapter
Cite this chapter
von der Hude, M. (2020). Klassifikations- und Regressionsbäume (Trees). In: Predictive Analytics und Data Mining . Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-30153-8_11
Download citation
DOI: https://doi.org/10.1007/978-3-658-30153-8_11
Published:
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-30152-1
Online ISBN: 978-3-658-30153-8
eBook Packages: Computer Science and Engineering (German Language)