Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen gezeigt.

Link zu dieser Vergleichsansicht

win:exec2010_cluster_heart_beat_timeout [2016/11/09 15:49]
pronto
win:exec2010_cluster_heart_beat_timeout [2016/11/10 08:47] (aktuell)
pronto
Zeile 1: Zeile 1:
 [[:win|{{ :​WindowsLogo.png?​40|}}]] [[:win|{{ :​WindowsLogo.png?​40|}}]]
-===== Cluster Heart Beat Timeout ​erhöhen =====+===== Cluster Heart Beat Toleranz ​erhöhen =====
 Ein Hochverfügbarkeitscluster stellt besondere Anforderungen an die Erreichbarkeit der einzelnen Knoten im Cluster. Werden ein oder mehrere Knoten eines Clusters in einem bestimmten Zeitraum nicht mehr erreicht, werden Maßnahmen durchgeführt,​ die bis hin zu einem Failoverswitch auf einen anderen Knoten führen. Ein Clusterknoten sendet dazu >><​fc #​008000>​Heartbeats</​fc><<,​ dass sind im Prinzip Pings zB an den zweiten Knoten im Cluster und es wird erwartet, dass diese innerhalb bestimmter Zeiträume >><​fc #​008000>​Delay</​fc><<​ und zu einer bestimmten Ping Verlust Rate >><​fc #​008000>​Threshold</​fc><<​ beantwortet werden müssen. Folgendes Kommando liest die aktuelle Konfiguration diesbzgl. aus (Ersetzen Sie >>//​DAG1//<<​ mit dem Namen ihres Clusters): Ein Hochverfügbarkeitscluster stellt besondere Anforderungen an die Erreichbarkeit der einzelnen Knoten im Cluster. Werden ein oder mehrere Knoten eines Clusters in einem bestimmten Zeitraum nicht mehr erreicht, werden Maßnahmen durchgeführt,​ die bis hin zu einem Failoverswitch auf einen anderen Knoten führen. Ein Clusterknoten sendet dazu >><​fc #​008000>​Heartbeats</​fc><<,​ dass sind im Prinzip Pings zB an den zweiten Knoten im Cluster und es wird erwartet, dass diese innerhalb bestimmter Zeiträume >><​fc #​008000>​Delay</​fc><<​ und zu einer bestimmten Ping Verlust Rate >><​fc #​008000>​Threshold</​fc><<​ beantwortet werden müssen. Folgendes Kommando liest die aktuelle Konfiguration diesbzgl. aus (Ersetzen Sie >>//​DAG1//<<​ mit dem Namen ihres Clusters):
  
Zeile 12: Zeile 12:
 SameSubnetThreshold ​      : 5</​xterm>​ SameSubnetThreshold ​      : 5</​xterm>​
  
-<​note><​fc #​800000>​**Note:​**</​fc>​ Das cmd-let >><​fc #​008000>​get-cluster</​fc><<​ ist Bestandteils des Powershell Moduls >><​fc #​008000>​failoverclusters</​fc><<​ und muss zuerst geladen werden: >><​fc #​008000>​import-module failoverclusters</​fc><<​((https://​technet.microsoft.com/​en-us/​library/​ee461009.aspx)). Alternativ dazu können Sie auch das Kommando >><​fc #​008000>​cluster.exe /​cluster:<​Clustername>​ /​prop</​fc><<​ verwenden.</fc></​note>​+<​note><​fc #​800000>​**Note:​**</​fc>​ Das cmd-let >><​fc #​008000>​get-cluster</​fc><<​ ist Bestandteils des Powershell Moduls >><​fc #​008000>​failoverclusters</​fc><<​ und muss zuerst geladen werden: >><​fc #​008000>​import-module failoverclusters</​fc><<​((https://​technet.microsoft.com/​en-us/​library/​ee461009.aspx)). Alternativ dazu können Sie auch das Kommando >><​fc #​008000>​cluster.exe /​cluster:<​Clustername>​ /​prop</​fc><<​ verwenden.</​note>​
  
 Die oben mit dem >><​fc #​008000>​get-cluster</​fc><<​ Kommando ermittelten Werte bilden die Standardeinstellungen ab. Der Wert >><​fc #​008000>​1000</​fc><<​ bei >><​fc #​008000>​SameSubnetDelay</​fc><<​ bedeutet, dass alle 1000 Millisekunden ein Ping gesendet wird und der Wert >><​fc #​008000>​5</​fc><<​ bei >><​fc #​008000>​SameSubnetThreshold</​fc><<​ bedeutet, dass maximal 5 dieser Pings verloren gehen dürfen, ehe Failovermaßnahmen ergriffen werden. Das bedeutet, dass die Netzwerkverbindung maximal 5 Sekunden ausfallen darf((https://​technet.microsoft.com/​en-us/​library/​dd197562%28v=ws.10%29.aspx?​f=255&​MSPPError=-2147217396))((https://​blogs.msdn.microsoft.com/​clustering/​2012/​11/​21/​tuning-failover-cluster-network-thresholds/​)). Die oben mit dem >><​fc #​008000>​get-cluster</​fc><<​ Kommando ermittelten Werte bilden die Standardeinstellungen ab. Der Wert >><​fc #​008000>​1000</​fc><<​ bei >><​fc #​008000>​SameSubnetDelay</​fc><<​ bedeutet, dass alle 1000 Millisekunden ein Ping gesendet wird und der Wert >><​fc #​008000>​5</​fc><<​ bei >><​fc #​008000>​SameSubnetThreshold</​fc><<​ bedeutet, dass maximal 5 dieser Pings verloren gehen dürfen, ehe Failovermaßnahmen ergriffen werden. Das bedeutet, dass die Netzwerkverbindung maximal 5 Sekunden ausfallen darf((https://​technet.microsoft.com/​en-us/​library/​dd197562%28v=ws.10%29.aspx?​f=255&​MSPPError=-2147217396))((https://​blogs.msdn.microsoft.com/​clustering/​2012/​11/​21/​tuning-failover-cluster-network-thresholds/​)).
Zeile 20: Zeile 20:
 Typische Fehler die auftreten können, wenn ein Knoten im Cluster ausfällt sind zB folgende: Typische Fehler die auftreten können, wenn ein Knoten im Cluster ausfällt sind zB folgende:
  
-{{ :​win:​bildschirmfoto_2016-11-09_um_15.40.31.png |}} +{{ :​win:​bildschirmfoto_2016-11-09_um_15.40.31_kopie.png |}} 
-==== Die Lösung ==== +Die Liste der Ereignisse ist standardmäßig erst mal leer, sie muss auch bei Eintreten eines Problems zuerst generiert werden. Rufen Sie dazu in der Navigationsleiste das Kontextmenü des Listenpunkts >><​fc #​008000>​Clusterereignisse</​fc><<​ auf und führen dort eine >><​fc #​008000>​Abfrage</​fc><<​ durch. Weitere Filter oder anderweitige Modifikationen der >><​fc #​008000>​Abfrage</​fc><<​ stehen Ihnen unmittelbar nach dem Aufruf des Kommandos zur Verfügung. 
-Es gibt eine Fülle von Empfehlungen,​ wie die Konfiguration idealerweise angepasst werden ​sollen, die häufigste stellt die Werte auf die maximal erlaubten >><​fc #​008000>​2000</​fc><<​ Millisekunden bei >><​fc #​008000>​SameSubnetDelay</​fc><<​ bzw. >><​fc #​008000>​CrossSubnetDelay</​fc><<​ und >><​fc #​008000>​10</​fc><<​ bei >><​fc #​008000>​SameSubnetThreshold</​fc><<​ bzw. >><​fc #​008000>​20</​fc><<​ bei >><​fc #​008000>​CrossSubnetThreshold</​fc><<​ ein. Unsere Knoten sind nicht über mehrere Subnetze verteilt, was bedeutet wir ändern nur die >>​SameSubnet<<​ Parameter:+==== Die Lösung==== 
 +Es gibt eine Fülle von Empfehlungen,​ wie die Konfiguration idealerweise angepasst werden ​soll (zB:​((https://​www.veeam.com/​blog/​how-to-backup-exchange-database-availability-groups-dags-with-veeam-backup-replication.html))), die häufigste stellt die Werte auf die maximal erlaubten >><​fc #​008000>​2000</​fc><<​ Millisekunden bei >><​fc #​008000>​SameSubnetDelay</​fc><<​ bzw. >><​fc #​008000>​CrossSubnetDelay</​fc><<​ und >><​fc #​008000>​10</​fc><<​ bei >><​fc #​008000>​SameSubnetThreshold</​fc><<​ bzw. >><​fc #​008000>​20</​fc><<​ bei >><​fc #​008000>​CrossSubnetThreshold</​fc><<​ ein. Unsere Knoten sind nicht über mehrere Subnetze verteilt, was bedeutet wir ändern nur die >><fc #008000>​SameSubnet*</​fc>​<< Parameter:
  
 <​xterm><​fc #​FF0000>​[PS]</​fc>​ C:​\Windows\system32><​fc #​008000>​cluster /​cluster:​DAG1 /prop SameSubnetDelay=2000:​DWORD</​fc>​ <​xterm><​fc #​FF0000>​[PS]</​fc>​ C:​\Windows\system32><​fc #​008000>​cluster /​cluster:​DAG1 /prop SameSubnetDelay=2000:​DWORD</​fc>​
Zeile 37: Zeile 38:
 Die Werte werden in die Registry nach >><​fc #​008000>​HKLM\Cluster</​fc><<​ geschrieben und auf die restlichen Mitglieder des Clusters repliziert. Die Einstellungen können auf einem beliebigen Mitglied des Clusters vorgenommen werden. Die Werte werden in die Registry nach >><​fc #​008000>​HKLM\Cluster</​fc><<​ geschrieben und auf die restlichen Mitglieder des Clusters repliziert. Die Einstellungen können auf einem beliebigen Mitglied des Clusters vorgenommen werden.
  
-<note important>​**<​fc #​800000>​Note:</​fc>​** ​Bedenken ​Sie, dass Sie damit nur ein sichtbares Symptom und nicht die eigentliche Ursache beheben. Die Netzwerkprobleme die zu diesen Failoveraktivitäten geführt haben, ​sind damit immer noch vorhanden. Benutzen Sie diese Einstellungen demnach mit Bedacht.</​note>​+<note important>​**<​fc #​800000>​Note:</​fc>​** ​__Bedenken ​Sie, dass Sie damit nur ein sichtbares Symptom und nicht die eigentliche Ursache beheben.__ Die Netzwerkprobleme die zu diesen Failoveraktivitäten geführt haben, ​werden ​damit in keinster Weise beeinflusst. Benutzen Sie diese Einstellungen demnach mit Bedacht.</​note>​ 
 + 
 +==== Weitere Überlegungen:​ ==== 
 + 
 +Da bei uns ausschließlich der Knoten mit der passiven Datenbankkopie betroffen war und dieses Problem ausschließlich während eines Umfangreichen Replikationstasks auftrat, liegt die Vermutung nahe, dass das Netzwerkinterface des Hypervisors der Flaschenhals ist. Best Practice Szenarien sehen hierfür ein dediziertes >><​fc #​008000>​Heartbeat-Netzwerk</​fc><<​ vor, was den virtuellen >><​fc #​008000>​Heartbeat-Adapter</​fc><<​ auf ein anderes physikalisches Netzwerinterface mappt. Dadurch bliebe auch der Cluster während großer Last auf dem Haupt-Interface innerhalb der Standard-Parameter erreichbar((https://​blogs.technet.microsoft.com/​askcore/​2009/​02/​13/​what-is-a-microsoft-failover-cluster-virtual-adapter-anyway/​)).
  
  --- //pronto 2016/11/09 15:03//  --- //pronto 2016/11/09 15:03//
win/exec2010_cluster_heart_beat_timeout.1478702945.txt.gz (7762 views) · Zuletzt geändert: 2016/11/09 15:49 von pronto
CC Attribution-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0