Zusammenfassung
Viele ML-Methoden verwenden das Prinzip der ERM (siehe Kap. 4), um eine Hypothese aus einem Hypothesenraum zu lernen, indem sie den durchschnittlichen Verlust (Trainingsfehler) auf einer Menge von beschrifteten Datenpunkten (Trainingsset) minimieren.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Ein wichtiges Beispiel für eine solche strukturelle Ähnlichkeit im Falle von linearen Prädiktoren \(h^{(t)}(\mathbf{x}) =\big (\mathbf{w}^{(t)} \big )^{T} \mathbf{x}\) liegt vor, wenn die Gewichtsvektoren \(\mathbf{w}^{(T)}\) eine kleine gemeinsame Unterstützung \(\bigcup _{t=1,\ldots ,T} {{\,\mathrm{supp}\,}}( w^{(t)} )\) haben. Die Forderung, dass die Gewichtsvektoren eine kleine gemeinsame Unterstützung haben, entspricht der Forderung, dass der gestapelte Vektor \(\widetilde{\mathbf{w}}=\big (\mathbf{w}^{(1)},\ldots ,\mathbf{w}^{(T)} \big ) \) block- (gruppen-) spärlich ist [12].
Literatur
O. Chapelle, B. Schölkopf, A. Zien (Hrsg.), Semi-Supervised Learning (The MIT Press, Cambridge, MA, 2006)
R. Caruana, Multitask learning. Mach. Learn. 28(1), 41–75 (1997)
M. Wainwright, High-Dimensional Statistics: A Non-Asymptotic Viewpoint (Cambridge University Press, Cambridge, 2019)
P. Bühlmann, S. van de Geer, Statistics for High-Dimensional Data (Springer, New York, 2011)
S. Shalev-Shwartz, S. Ben-David, Understanding Machine Learning—From Theory to Algorithms (Cambridge University Press, Cambridge, 2014)
V.N. Vapnik, The Nature of Statistical Learning Theory (Springer, Berlin, 1999)
S. Boyd, L. Vandenberghe, Convex Optimization (Cambridge University Press, Cambridge, UK, 2004)
D.P. Bertsekas, Nonlinear Programming, 2. Aufl. (Athena Scientific, Belmont, MA, 1999)
T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning Springer Series in Statistics. (Springer, New York, 2001)
T. Hastie, R. Tibshirani, M. Wainwright, Statistical Learning with Sparsity: The Lasso and Its Generalizations (CRC Press, Boca Raton, FL, 2015)
A. Jung, A fixed-point of view on gradient methods for big data. Frontiers in Applied Mathematics and Statistics 3, 18 (2017)
Y.C. Eldar, P. Kuppinger, H. Bölcskei, Block-sparse signals: Uncertainty relations and efficient recovery. IEEE Trans. Signal Processing 58(6), 3042–3054 (2010). (June)
S. Pan, Q. Yang, A survey on transfer learning. IEEE Trans. Knowl. Data Eng. 22(10), 1345–1359 (2010)
J. Howard, S. Ruder, Universal language model fine-tuning for text classification, in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Association for Computational Linguistics, Stroudsburg, 2018), S. 328–339
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2024 Der/die Autor(en), exklusiv lizenziert an Springer Nature Singapore Pte Ltd.
About this chapter
Cite this chapter
Jung, A. (2024). Regularisierung. In: Maschinelles Lernen. Springer, Singapore. https://doi.org/10.1007/978-981-99-7972-1_7
Download citation
DOI: https://doi.org/10.1007/978-981-99-7972-1_7
Published:
Publisher Name: Springer, Singapore
Print ISBN: 978-981-99-7971-4
Online ISBN: 978-981-99-7972-1
eBook Packages: Computer Science and Engineering (German Language)