Gauß-Seidel-Verfahren

In der numerischen Mathematik ist das Gauß-Seidel-Verfahren oder Einzelschrittverfahren (nach Carl Friedrich Gauß und Ludwig Seidel) ein Algorithmus zur näherungsweisen Lösung von linearen Gleichungssystemen. Es ist, wie das Jacobi-Verfahren und das SOR-Verfahren, ein spezielles Splitting-Verfahren. Das Verfahren wurde zuerst von Gauß entwickelt, aber nicht veröffentlicht, sondern nur in einem Brief im Jahr 1823 an Gerling erwähnt. Erst 1874 wurde es, bevor seine Anwendung durch Gauß bekannt war, von Seidel veröffentlicht.

Entwickelt wurde das Verfahren, da das Gaußsche Eliminationsverfahren, ein exakter Löser, bei Handrechnung für Rechenfehler sehr anfällig ist. Eine iterative Vorgehensweise hat diesen Nachteil nicht.

Beschreibung des Verfahrens

Gegeben ist ein lineares Gleichungssystem in Variablen mit den Gleichungen

${\begin{matrix}a_{11}\cdot x_{1}+\dotsb +a_{1n}\cdot x_{n}&=&b_{1}\\a_{21}\cdot x_{1}+\dotsb +a_{2n}\cdot x_{n}&=&b_{2}\\&\vdots &\\a_{n1}\cdot x_{1}+\dotsb +a_{nn}\cdot x_{n}&=&b_{n}\\\end{matrix}}.$

Um dieses zu lösen, wird ein Iterationsverfahren durchgeführt. Gegeben sei ein Näherungsvektor $x^{{(m)}}$ an die exakte Lösung. Nun wird die -te Gleichung nach der -ten Variablen $x_{k}$ aufgelöst, wobei die vorher berechneten Werte des aktuellen Iterationsschritts mit verwendet werden, im Gegensatz zum Jacobi-Verfahren, bei dem nur die Werte des letzten Iterationsschrittes verwendet werden. Das heißt für den (m+1) -ten Iterationsschritt:

$x_{k}^{(m+1)}:={\frac {1}{a_{kk}}}\left(b_{k}-\sum _{i=1}^{k-1}a_{ki}\cdot x_{i}^{(m+1)}-\sum _{i=k+1}^{n}a_{ki}\cdot x_{i}^{(m)}\right),\,k=1,\dotsc ,n$

Das Ergebnis der Rechnung ist ein neuer Näherungsvektor $x^{{(m+1)}}$ für den gesuchten Lösungsvektor . Wiederholt man diesen Vorgang, gewinnt man eine Folge von Werten, die sich dem Lösungsvektor im Falle der Konvergenz immer mehr annähern:

$x^{(0)},x^{(1)},x^{(2)},\dotsc \rightarrow x.$

Das Gauß-Seidel-Verfahren ist inhärent sequentiell, das heißt bevor eine Gleichung aufgelöst werden kann, müssen die Ergebnisse der vorherigen Gleichungen vorliegen. Es ist damit wie das Vorwärts- und Rückwärtseinsetzen mit einer LR-Zerlegung nur eingeschränkt zur Nutzung auf Parallelrechnern geeignet, insbesondere nur für dünnbesetzte Matrizen.

Als Algorithmusskizze mit Abbruchbedingung ergibt sich:

wiederhole

${\text{fehler}}:=0$

für

bis

$x_{k}^{(m+1)}:={\frac {1}{a_{kk}}}\left(b_{k}-\sum _{i=1}^{k-1}a_{ki}\cdot x_{i}^{(m+1)}-\sum _{i=k+1}^{n}a_{ki}\cdot x_{i}^{(m)}\right)$

${\text{fehler}}:=\max({\text{fehler}},|x_{k}^{(m+1)}-x_{k}^{(m)}|)$

nächstes

bis ${\text{fehler}}<{\text{fehlerschranke}}$

Dabei wurden die Erstbelegung des Variablenvektors, die willkürlich gewählt werden kann, und eine Fehlerschranke als Eingangsgrößen des Algorithmus angenommen, die Näherungslösung ist die vektorielle Rückgabegröße. Die Fehlerschranke misst hier, welche Größe die letzte Änderung des Variablenvektors hatte. Als Bedingung für die Durchführbarkeit des Algorithmus lässt sich festhalten, dass die Hauptdiagonalelemente $a_{{kk}}$ von Null verschieden sein müssen.

Bei dünnbesetzten Matrizen reduziert sich der Aufwand des Verfahrens pro Iteration deutlich.

Beschreibung des Verfahrens in Matrixschreibweise

Die Matrix $A\in \mathbb {R} ^{n\times n}$ des linearen Gleichungssystems $A\cdot x=b$ wird hierzu in eine Diagonalmatrix , eine strikte obere Dreiecksmatrix und eine strikte untere Dreiecksmatrix zerlegt, so dass gilt:

In jedem Iterationsschritt gilt dann $Dx^{({\text{neu}})}=b-Lx^{({\text{neu}})}-Ux^{({\text{alt}})}$ . Nach Umstellen ergibt sich formal

$(D+L)x^{({\text{neu}})}=b-Ux^{({\text{alt}})}$ und daraus $x^{({\text{neu}})}=(D+L)^{-1}(b-Ux^{({\text{alt}})})$ .

Man legt dann einen Startvektor $x^{{(0)}}$ fest und setzt ihn in die Iterationsvorschrift ein:

$x^{(k+1)}=-(D+L)^{-1}Ux^{(k)}+(D+L)^{-1}b$ .

Beispiel

Es ist das lineare Gleichungssystem $A\cdot x=b$ mit

$A={\begin{pmatrix}16&3\\7&-11\\\end{pmatrix}}$ und $b={\begin{pmatrix}11\\13\end{pmatrix}}$

gegeben. Dazu wird die Gleichung $x^{(k+1)}=L_{*}^{-1}(b-Ux^{(k)})$ in der Form $x^{(k+1)}=Tx^{(k)}+C$ verwendet, wobei $T=-L_{*}^{-1}U$ und $C=L_{*}^{-1}b$ ist. Dafür muss die Matrix $A_{}^{}$ als Summe einer unteren Dreiecksmatrix $L_{*}^{}$ und einer oberen Dreiecksmatrix $U_{}^{}$ dargestellt werden:

$A=L_{*}+U={\begin{pmatrix}16&0\\7&-11\\\end{pmatrix}}+{\begin{pmatrix}0&3\\0&0\\\end{pmatrix}}$

Die inverse Matrix von $L_{*}^{}$ ist

$L_{*}^{-1}={\begin{pmatrix}16&0\\7&-11\end{pmatrix}}^{-1}\approx {\begin{pmatrix}0{,}0625&0{,}0000\\0{,}0398&-0{,}0909\\\end{pmatrix}}$

Daraus ergibt sich

$T=-L_{*}^{-1}U=-{\begin{pmatrix}0{,}0625&0{,}0000\\0{,}0398&-0{,}0909\end{pmatrix}}\times {\begin{pmatrix}0&3\\0&0\end{pmatrix}}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1194\end{pmatrix}}$

$C=L_{*}^{-1}b={\begin{pmatrix}0{,}0625&0{,}0000\\0{,}0398&-0{,}0909\end{pmatrix}}\times {\begin{pmatrix}11\\13\end{pmatrix}}={\begin{pmatrix}0{,}6875\\-0{,}7439\end{pmatrix}}$

Daraus können die Vektoren mithilfe der Iterationsvorschrift $x^{(k+1)}=-(D+L)^{-1}Ux^{(k)}+(D+L)^{-1}b$ iterativ berechnet werden.

Als erstes wird der Startvektor gesetzt, z. B.

$x^{(0)}={\begin{pmatrix}1{,}0\\1{,}0\end{pmatrix}}$

Daraus ergibt sich schrittweise

$x^{(1)}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1193\end{pmatrix}}\times {\begin{pmatrix}1{,}0\\1{,}0\end{pmatrix}}+{\begin{pmatrix}0{,}6875\\-0{,}7443\end{pmatrix}}={\begin{pmatrix}0{,}5000\\-0{,}8636\end{pmatrix}}$

$x^{(2)}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1193\end{pmatrix}}\times {\begin{pmatrix}0{,}5000\\-0{,}8636\end{pmatrix}}+{\begin{pmatrix}0{,}6875\\-0{,}7443\end{pmatrix}}={\begin{pmatrix}0{,}8494\\-0{,}6413\end{pmatrix}}$

$x^{(3)}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1193\end{pmatrix}}\times {\begin{pmatrix}0{,}8494\\-0{,}6413\\\end{pmatrix}}+{\begin{pmatrix}0{,}6875\\-0{,}7443\end{pmatrix}}={\begin{pmatrix}0{,}8077\\-0{,}6678\end{pmatrix}}$

$x^{(4)}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1193\end{pmatrix}}\times {\begin{pmatrix}0{,}8077\\-0{,}6678\end{pmatrix}}+{\begin{pmatrix}0{,}6875\\-0{,}7443\end{pmatrix}}={\begin{pmatrix}0{,}8127\\-0{,}6646\end{pmatrix}}$

$x^{(5)}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1193\end{pmatrix}}\times {\begin{pmatrix}0{,}8127\\-0{,}6646\end{pmatrix}}+{\begin{pmatrix}0{,}6875\\-0{,}7443\end{pmatrix}}={\begin{pmatrix}0{,}8121\\-0{,}6650\end{pmatrix}}$

$x^{(6)}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1193\end{pmatrix}}\times {\begin{pmatrix}0{,}8121\\-0{,}6650\end{pmatrix}}+{\begin{pmatrix}0{,}6875\\-0{,}7443\end{pmatrix}}={\begin{pmatrix}0{,}8122\\-0{,}6650\end{pmatrix}}$

$x^{(7)}={\begin{pmatrix}0{,}000&-0{,}1875\\0{,}000&-0{,}1193\end{pmatrix}}\times {\begin{pmatrix}0{,}8122\\-0{,}6650\end{pmatrix}}+{\begin{pmatrix}0{,}6875\\-0{,}7443\end{pmatrix}}={\begin{pmatrix}0{,}8122\\-0{,}6650\end{pmatrix}}$

Der Algorithmus konvergiert also gegen die Lösung

$x=A^{-1}b\approx {\begin{pmatrix}0{,}8122\\-0{,}6650\end{pmatrix}}$

Diagonaldominanz und Konvergenz

Das Verfahren konvergiert linear, wenn der Spektralradius der Iterationsmatrix $T=-(D+L)^{{-1}}U$ kleiner 1 ist. In diesem Falle ist der Fixpunktsatz von Banach bzw. der Konvergenzsatz der Neumann-Reihe (auf eine hinreichend große Potenz von ) anwendbar und das Verfahren konvergiert. Im gegenteiligen Fall divergiert das Verfahren, wenn die rechte Seite des Gleichungssystems einen Anteil eines Eigenvektors zu einem Eigenwert mit Betrag größer als 1 beinhaltet. Je geringer der Spektralradius, desto schneller konvergiert das Verfahren.

Die Bestimmung des Spektralradius ist für den praktischen Einsatz meist ungeeignet, weswegen über die hinreichende Bedingung, dass eine Matrixnorm der Verfahrensmatrix kleiner als 1 sein muss, bequemere Kriterien gefunden werden können. Diese Matrixnorm ist gleichzeitig die Kontraktionskonstante im Sinne des banachschen Fixpunktsatzes.

Im Falle, dass sowohl $D^{{-1}}U$ als auch $D^{{-1}}L$ "kleine" Matrizen bzgl. der gewählten Matrixnorm sind, gibt es die folgende Abschätzung der Matrixnorm für $T=(I+D^{{-1}}L)^{{-1}}\cdot D^{{-1}}U$ (siehe Neumann-Reihe für den ersten Faktor):

${\begin{aligned}\|T\|&\leq \|(I+D^{-1}L)^{-1}\|\cdot \|D^{-1}U\|\leq {\frac {\|D^{-1}U\|}{1-\|D^{-1}L\|}}\\&=1-{\frac {1-\left(\|D^{-1}L\|+\|D^{-1}U\|\right)}{1-\|D^{-1}L\|}}\end{aligned}}$

Der letzte Ausdruck ist für $\|D^{{-1}}L\|+\|D^{{-1}}U\|<1$ ebenfalls kleiner als 1. Obwohl die Konvergenzbedingung diejenige des Jacobi-Verfahrens ist, ist die so erhaltene Abschätzung der Kontraktionskonstante $\|T\|$ des Gauß-Seidel-Verfahrens immer kleinergleich der entsprechenden Abschätzung der Kontraktionskonstante des Jacobi-Verfahrens.

Das einfachste und gebräuchlichste hinreichende Konvergenzkriterium der Diagonaldominanz ergibt sich für die Supremumsnorm der Vektoren und die Zeilensummennorm als zugehörige induzierte Matrixnorm. Es verlangt die Erfüllung des Zeilensummenkriteriums, also der Ungleichung

$\sum _{i=1 \atop i\neq k}^{n}|a_{ki}|<|a_{kk}|$ für $k=1,\dotsc ,n$ .

Je größer die kleinste Differenz zwischen rechten und linken Seiten der Ungleichung ist, desto schneller konvergiert das Verfahren. Man kann versuchen, diese Differenz mittels Zeilen- und Spaltenvertauschungen zu vergrößern, d.h. durch Umnummerieren der Zeilen und Spalten. Dabei kann man beispielsweise anstreben, die betragsgrößten Elemente der Matrix auf die Diagonale zu bringen. Die Zeilenvertauschungen müssen natürlich auch auf der rechten Seite des Gleichungssystems vollzogen werden.

Anwendungen

Für moderne Anwendungen wie die Lösung großer dünnbesetzter Gleichungssysteme, die aus der Diskretisierung partieller Differentialgleichungen stammen, ist das Verfahren ungeeignet. Es wird jedoch mit Erfolg als Vorkonditionierer in Krylow-Unterraum-Verfahren oder als Glätter in Mehrgitterverfahren eingesetzt.

Erweiterung auf nichtlineare Gleichungssysteme

Die Idee des Gauß-Seidel-Verfahrens lässt sich auf nichtlineare Gleichungssysteme f(x)=g mit einer mehrdimensionalen nichtlinearen Funktion erweitern. Wie im linearen Fall wird im -ten Schritt die -te Gleichung bezüglich der -ten Variablen gelöst, wobei für die weiteren Variablen der bisherige Näherungswert und für die vorherigen Variablen der vorher berechnete neue Wert genommen wird:

Für k=1, … bis zur Konvergenz

Für i=1, …, n:

Löse $f_{i}(x_{1}^{k+1},\dotsc ,x_{i-1}^{k+1},x_{i}^{k+1},x_{i+1}^{k},\dotsc ,x_{n}^{k})=g_{i}$ nach $x_{i}^{k+1}$ auf.

Hierbei ist das Lösen in der Regel als die Anwendung eines weiteren iterativen Verfahrens zur Lösung nichtlinearer Gleichungen zu verstehen. Um dieses Verfahren vom Gauß-Seidel-Verfahren für lineare Gleichungssysteme zu unterscheiden, wird häufig vom Gauß-Seidel-Prozess gesprochen. Die Konvergenz des Prozesses folgt aus dem Banachschen Fixpunktsatz wieder als linear.

Literatur

A. Meister: Numerik linearer Gleichungssysteme, 2. Auflage, Vieweg 2005, ISBN 3528131357
W. C. Rheinboldt: Methods for Solving Systems of Nonlinear Equations, 2. Auflage, SIAM, 1998, ISBN 089871415X

Basierend auf einem Artikel in:

Wikipedia.de