Fehlerbehebung durch Rücksetzen in Multiprozessor-Baumkonfigurationen

  • L. Lehmann
  • G. Distler
  • T. Riemer
  • F. Höpfl
Conference paper
Part of the Informatik-Fachberichte book series (INFORMATIK, volume 188)

Zusammenfassung

Eine Technik zur verteilten Fehlerbehandlung in Multiprozessorsystemen mit Baumtopologie als Verbindungsstruktur wird vorgestellt. Das erste Kapitel diskutiert die Eignung von Baumrechnern zur Parallelverarbeitung. Die wesentlichen Schritte der verteilten Fehlerbehebung durch Rücksetzen der Anwendung auf verteilte globale Systemsicherungspunkte wird anschließend beschrieben. Mittels Messungen an einer realen Anwendung (nebenläufige Berechnung von Mandelbrot-Mengen) auf einer Baumkonfiguration des Multiprozessor-systems DIRMU 25 erfolgt im letzten Kapitel eine Aufwandsbewertung der Rücksetzpunkterstellung.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. [Bag87]
    Bagdon, S.; Hoffmann, W.; Lebsanft, K.; Paul, S.: Architektur und Leistungsbewertung von Multi-prozessor Systemen, Siemens Forschungsbericht, Dezember 1987.Google Scholar
  2. [Dal87]
    Dal Cin, M.: Ein Diagnoseverfahren für Systeme mit mehreren Verarbeitungseinheiten, Proc. 3. Int. GI/NTG/GMA-Fachtagung “Fault-Tolerant Computing Systems, Bremerhaven 1987, Informatik-Fachberichte 147, S.191–199, Springer — Verlag, Berlin-Heidelberg 1987Google Scholar
  3. [Des78]
    Despain, A.; Patterson, D.: X-tree: A tree structure multiprocessor computer architecture, Proc. 5th Ann. Symp. Comput. Architect., Palo Alto, CA, April. 1978, S. 144–151.Google Scholar
  4. [Dil86]
    Dilger, E.; Maehle, E.: Systemarchitektur und Fehlertoleranz, Informatik Spektrum, Themenheft “Fehlertoleranz in Systemen”, Vol. 9, Nr.2, S. 110–118, April 1986Google Scholar
  5. [Gen88]
    Gentzsch, W.; Block, U.: Parallele Algorithmen für Baumrechner, erscheint in “Parallele Algorithmen und Rechnerstrukturen”, PARS 1988.Google Scholar
  6. [Gro86]
    Großpietsch, K.-E.; Voges, U.: Methoden der Fehlerbehandlung, Informatik Spektrum, Themen-heft “Fehlertoleranz in Systemen”, Vol. 9, Nr.2, S. 95–109, April 1986Google Scholar
  7. [Hän85]
    Händler, W.; Maehle, E.: Wirl, K.: DIRMU Multiprocessor Configurations, Proc 1985 Int. Conf. on Parallel Processing, St. Charles, Illinois 1985, S. 652–656Google Scholar
  8. [Hay86]
    Hayes, J.P; Yanney, R.N.: Distributed Recovery in Fault-Tolerant Multiprocessor Networks, IEEE Transactions on Computers, Vol. 35, Nr.10, Oktober 1986, S.871–879CrossRefGoogle Scholar
  9. [Hor83]
    Horowitz, E,; Zorat, A.: Divide-and-conquer for parallel processing, IEEE Trans. on Comp., Vol. 32, No. 6, S.582–585, Juni 1983.CrossRefMATHGoogle Scholar
  10. [Mae86a]
    Maehle, E.; Moritzen, K.; Wirl, K.: Fault-Tolerant Hardware Configuration Management on the Multiprocessor DIRMU 25, Proc. CONPAR 86, Aachen 1986, Lecture Notes in Computer Science 237, S.190–197, Springer-Verlag, Berlin-Heidelberg 1986Google Scholar
  11. [Mae86b]
    Maehle, E.; Moritzen, K.; Wirl, K.: A Graph Modell and its Application to a Fault-Tolerant Multiprocessor System, Proc. Int. Symposium on Fault-Tolerant Computing 1FTCS-161, Wien 1986, S.292–297Google Scholar
  12. [Mae86c]
    Maehle, E.: Multiprocessor Testbed DIRMU 25: Efficiency and Fault-Tolerance, Proc. 1986 IBM Europe Institute: Seminar on Parallel Processing, Oberlech 1986.Google Scholar
  13. [Mae88]
    Maehle, E.: Multiprozessortopologien mit begrenzter Nachbarschaft, interner Bericht des IMMD III an der Universität Erlangen-Nürnberg, Juni 1988.Google Scholar
  14. [Leh87]
    Lehmann, L.; Brehm, J.: Rollback Recovery in Multiprocessor Ring Configurations, Proc. 3. Int. GI/NTG/GMA-Fachtagung “Fault-Tolerant Computing Systems, Bremerhaven 1987, Informatik-Fachberichte 147, S.213–223, Springer — Verlag, Berlin-Heidelberg 1987.Google Scholar
  15. [Pei86]
    Peitgen, H.O., Richter, P.: The Beauty of Fractals, Springer-Verlag, N.Y. 1986.CrossRefMATHGoogle Scholar
  16. [Shi82]
    Shin, K.G.; Lee, Y.H.: Design of HM2p — a hierarchical multiprocessor for general-purpose applications, IEEE Trans, on Comp., Vol. 31, No.11, S.1045–1053, November 1982.CrossRefGoogle Scholar
  17. [Wös88]
    Wöst, W.: Wie funktioniert der TX3 ?, c’t-Magazin Juni 1988, S.134–146.Google Scholar
  18. [You78]
    Young, J.W.: A First Order Approximation to the Optimum Checkpoint Interval, Communications of the ACM, Vol. 17, No. 6, S.493–499, September 1978.Google Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 1988

Authors and Affiliations

  • L. Lehmann
    • 1
  • G. Distler
    • 1
  • T. Riemer
    • 1
  • F. Höpfl
    • 1
  1. 1.Institut für Mathematische Maschinen und DatenverarbeitungUniversität Erlangen-NürnbergErlangenDeutschland

Personalised recommendations