ASUS P9D-M, ASMB7-IKVM und die falschen vCenter-Alarme

2 Kommentare
Download PDF
ESXi-Host mit Lüfter-Alarm

ESXi-Host mit Lüfter-Alarm

Mit großer Verwunderung habe ich nach Inbetriebnahme meiner neuen Lab-Hardware zur Kenntnis genommen, dass die ESXi-Hosts einen kritisichen CPU-Lüfteralarm generieren. Seltsam, immerhin wurde der CPU-Lüfter korrekt angeschlossen – sonst würden sich die Systeme auch aus Sicherheitsgründen ausschalten. 🙂

Ein Blick in die IPMI Web-Oberfläche verriet, dass zwar ein Lüfter verbaut wurde – aber wieso heißt  dieser „FRNT_FAN1„?

IPMI Lüfter- und Temperatur-Sensoren

IPMI Lüfter- und Temperatur-Sensoren

In der entsprechenden Übersicht von vCenter Server spiegelte sich das auch soweit wieder:

vCenter Lüfter- und Temperatur-Sensoren

vCenter Lüfter- und Temperatur-Sensoren

Sämtliche nicht angeschlossene Lüfter und Temperatur-Sensoren werden als Alarm geführt. Ich habe zuerst vermutet, dass dieser Umstand den Alarm generiert und über einen Linux-Rechner mit ipmitool Schwellwerte analysiert:

# ipmitool -H myesxi.domain.loc -U admin sdr type Fan
Password: 
CPU_FAN1         | A0h | lnr  |  0.0 | 0 RPM
FRNT_FAN1        | A2h | lnr |  0.0 | 0 RPM
FRNT_FAN2        | A3h | lnr |  0.0 | 0 RPM
FRNT_FAN3        | A4h | ok  |  0.0 | 800 RPM
FRNT_FAN4        | A5h | lnr |  0.0 | 0 RPM
# ipmitool -H myesxi.domain.loc -U admin sensor get "FRNT_FAN1"
Password: 
Locating sensor record...
Sensor ID              : FRNT_FAN1 (0xa2)
 Entity ID             : 0.0 (Unspecified)
 Sensor Type (Threshold)  : Fan (0x04)
 Sensor Reading        : 0 (+/- 0) RPM
 Status                : Lower Non-Recoverable
 Nominal Reading       : 4480.000
 Normal Minimum        : 1040.000
 Normal Maximum        : 17920.000
 Upper non-recoverable : 20000.000
 Upper critical        : 18960.000
 Upper non-critical    : 18000.000
 Lower non-recoverable : 0.000
 Lower critical        : 0.000
 Lower non-critical    : 0.000
 Positive Hysteresis   : 80.000
 Negative Hysteresis   : 80.000
 Minimum sensor range  : Unspecified
 Maximum sensor range  : Unspecified
 Event Message Control : Per-threshold
 Readable Thresholds   : lnr lcr lnc unc ucr unr 
 Settable Thresholds   : lnr lcr lnc unc ucr unr 
 Threshold Read Mask   : lnr lcr lnc unc ucr unr 
 Assertion Events      : lnc- lcr- 
 Assertions Enabled    : lnc- lcr- 
 Deassertions Enabled  : lnc- lcr-

Die nicht angeschlossenen Lüfter generieren einen Alarm mit der Gewichtung lnr (lower non-recoverable) – also ein nicht korrigierbarer, zu niedriger Wert. Über ipmitool lassen sich Schwellwerte lesen und ändern, jedoch sind keine negativen Werte möglich. Ein Gedanke war es, die nicht vorhandenen Lüftersensoren mit negativen Schwellwerten zu versehen, um den Alarm zu stoppen:

# ipmitool -U admin -H myesxi.domain.loc sensor thres "FRNT_FAN1" -- "-1" "-1" "-1"
Password:
Valid threshold '-1' for sensor 'FRNT_FAN1' not specified!
...

In meinem Setup (ASUS P9D-M und ASMB7-IKVM) ist es auch nicht möglich, nicht benötigte Sensoren abzuschalten.

Zurück zur anderen Auffälligkeit – dem falschen Lüfternamen. Ein Blick auf das Mainboard verriet, dass der CPU-Lüfter definitiv in der „CPU_FAN1„-Buchse steckte. Nach einigem Herumprobieren stellte sich heraus, dass der Anschluss „FRNT_FAN1“ letztendlich von IPMI als „CPU_FAN1“ erkannt wird:

IPMI Lüfter- und Temperatur-Sensoren

IPMI Lüfter- und Temperatur-Sensoren

Und damit erlosch auch der Hosthardware-Alarm in ESXi bzw. vCenter.

Schlussendlich hat das geholfen, den Fehler zu beheben. Die nicht angeschlossenen Lüfter und Sensoren werden zwar weiterhin als Fehler aufgelistet, generieren jedoch keinen Alarm. Es wurden tatsächlich einfach die Lüfteranschlüsse auf dem Mainboard falsch beschriftet. Eventuell hängt das aber auch mit dem letzten Firmware-Update der IPMI-Karte ASMB7-IKVM zusammen – ich bilde mir ein, dass ich diese Fehlalarme vor dem Update noch nicht hatte. Da ich jedoch relativ kurzfristig nach der Installation von ESXi das Firmware-Update installiert habe, kann ich das nicht nachstellen.

Download PDF