Forschung im Ingenieurwesen

, Volume 83, Issue 2, pp 273–288

Regression with individual weigths to prevent overfitting

Methodical application to an overload clutch
• Mark Henss
• Stefan Kemmler
• Alexander Kremer
• Bernd Bertsche
Originalarbeiten/Originals

Abstract

The Moving Least Squares (MLS) method has been established in the context of regression analysis for the mathematical description of a non-linear relationship. Compared to the Ordinary Least Squares (LS) method, it takes known points in the region of a desired point into greater consideration (weighted). Therefore this approach allows to model non-linear functions by local linear approximations. Especially with data sets of varying quality in the sampled independent variables or with a very different correlation with the dependent variable, MLS does not always deliver optimal models. In statistics this can be assigned to the problem of overfitting. Overfitting means that the model learns a too complex representation of the data and fail to generalize. In practice, this problem can be solved by different approaches of regularization. In this paper, a regularization is presented by adapting a variable-dependent coefficient to the weighting function of the Moving Least Squares method (CMLS). Besides the mathematical implementation, a methology to determine the coefficients and further hyperparameters is given. The significant quantitative and qualitative improvements are demonstrated through two examples. The first example comprises a data set of a simulated, finite-element overload clutch as used in pneumatic commercial-vehicle brakes. The second data set describes a periodically analytic function. For both data sets, the new CMLS approach exhibits significantly better results than MLS (Sect. 4).

Regression mit individuellen Gewichten zur Reduktion von Overfitting

Methodische Anwendung an einer Überlastkupplung

Zusammenfassung

Die Moving Least Squares (MLS) Methode wird im Rahmen der Regressionsanalyse zur mathematischen Beschreibung nichtlinearer Beziehungen genutzt. Im Vergleich zur Least Squares (LS) Methode werden bekannte Punkte im Bereich eines gewünschten Punktes stärker berücksichtigt (gewichtet). Dieser Ansatz ermöglicht die Modellierung nichtlinearer Funktionen durch eine lokale lineare Approximation. Insbesondere bei Datensätzen mit unterschiedlicher Qualität in den unabhängigen Variablen oder bei einer stark unterschiedlichen Korrelation mit der abhängigen Variablen liefert MLS nicht immer optimale Modelle. In der Statistik kann dies dem Overfitting zugeordnet werden. Modelle die overfitten haben eine zu komplexe Darstellung der Daten gelernt und verallgemeinern nicht ausreichend. In der Praxis wird dieses Problem durch verschiedene Ansätze der Regularisierung gelöst. In diesem Beitrag wird eine Regularisierung vorgestellt, bei der ein Variablen abhängiger Koeffizient die Gewichtungsfunktion der Moving Least Squares Methode (CMLS) korrigiert. Neben der mathematischen Formulierung wird eine Methode zur praktischen Abschätzung der Koeffizienten und weiterer Hyperparameter gezeigt. Die signifikante Verbesserung, quantitativ wie auch qualitativ, wird an zwei Beispielen demonstriert. Das erste Beispiel umfasst eine simulierte Überlastkupplung, wie sie in pneumatischen Nutzfahrzeugbremsen verwendet wird. Der zweite Datensatz beschreibt eine periodisch-analytische Funktion. Für beide Datensätze zeigt der neue CMLS Ansatz deutlich bessere Ergebnisse als MLS (Abschn. 4).

References

1. 1.
Most T, Bucher C (2005) A moving least squares weighting function for the element-free Galerkin method which almost fulfills essential boundary conditions. Struct Eng Mech 21(3):315–332
2. 2.
Fahrmeir L, Kneib T, Lang S (2009) Regression: Modelle, Methoden und Anwendungen. Springer, Berlin, Heidelberg
3. 3.
von der Lippe P (2006) Deskriptive Statistik. Oldenbourg, München (Formeln, Aufgaben, Klausurtraining)Google Scholar
4. 4.
Harrell FE (2015) Regression modeling strategies: with applications to linear models, logistic and ordinal regression, and survival analysis. Series in statistics. Springer, New York
5. 5.
Björck Å (1996) Numerical methods for least squares problems. Society for Industrial and Applied Mathematics, Philadelphia
6. 6.
Hedderich J, Sachs L (2016) Angewandte Statistik. Springer, Berlin, Heidelberg
7. 7.
Chapman P, Clinton J, Kerber R, Khabaza T, Reinartz T, Shearer C, Wirth R (2000) Crisp-Dm 1.0. In CRISP-DM Consortium, p 76Google Scholar
8. 8.
Piatetsky G (2014) CRISP-DM, still the top methodology for analytics, data mining, or data science projectsGoogle Scholar
9. 9.
Bertsche B, Göhner P, Jensen U, Schinköthe W, Wunderlich H-J (2009) Zuverlässigkeit mechatronischer Systeme. Springer, Berlin, HeidelbergGoogle Scholar
10. 10.
Bruchmüller T, Matthiesen S, Wettstein A, Grauberger P (2015) Modellunterstützte Reduktion von Störgrößen in einem Messsystem zur Erfassung der Geräte-Werkstück-Wechselwirkungen. 26. DfX Symposium, p 13Google Scholar
11. 11.
McKay MD, Beckman RJ, Conover WJ (2012) A comparison of three methods for selecting values of input variables in the analysis of output from a computer code. Technometrics 21:37–41
12. 12.
Kemmler S, Dazer M, Leopold T, Bertsche B (2017) Lebensdaueranalyse auf Basis von multidimensionaler Zuverlässigkeits- und Robust Design Simulation – Integrale Betrachtung der Robusten Zuverlässigkeit. Tagung Technische Zuverlässigkeitstechnik.Google Scholar

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019

Authors and Affiliations

• Mark Henss
• 1
Email author
• Stefan Kemmler
• 2
• Alexander Kremer
• 1
• Bernd Bertsche
• 1
1. 1.Institute of Machine ComponentsUniversity of StuttgartStuttgartGermany
2. 2.Knorr-Bremse Commercial Vehicle SystemsMunichGermany