Thursday, June 3, 2010

Lipsă monitorizare ventilatoare pe un MB Intel Server Board S3210SHLC

De ceva timp mă tot lupt cu un server făcut pe o placă de bază Intel Server Board S3210SHLC, al cărui BMC (Baseboard Management Controller) - care se ocupă cu managementul de la distanță și cu monitorizarea tensiunilor, temperaturii și răcirii serverului - nu vrea să "citească" turația ventilatoarelor montate în server.
Și are patru ventilatoare pe care trebuie să le monitorizez, că altfel serverul se încălzește și e jale...

MB-ul are ultimul update de BIOS, BMC, FRU & SDR.
SDR (Sensor Data Record) e configurat corect, pentru o carcasă alta decât una Intel, toate 4 SYS FAN sunt activate, dar când mă conectez la BMC situația e cam albastră...:

dpccli> sensors -v
04/28/10 | 16:38:41 | BB +1.8V SM          | ok           |    1.78 | Volts
04/28/10 | 16:38:42 | BB +3.3V             | ok           |    3.29 | Volts
04/28/10 | 16:38:42 | BB +3.3V STBY        | ok           |    3.24 | Volts
04/28/10 | 16:38:42 | BB +5.0V             | ok           |    4.92 | Volts
04/28/10 | 16:38:42 | Processor Vcc        | ok           |    1.14 | Volts
04/28/10 | 16:38:42 | BB Ambient Temp      | ok           |   37.00 | Celsius
04/28/10 | 16:38:42 | CPU Fan              | ok           |  935.00 | RPM
04/28/10 | 16:38:42 | System Fan 3         | ok           |    0.00 | RPM
04/28/10 | 16:38:43 | P1 Therm Margin      | ok           |  -68.00 | Celsius

După cum se vede, nu recunoaște decât un singur ventilator de sistem și ăla e cu turație zero, dar el zice că e OK!!!! Deștept băiatul!

Am configurat din nou SDR-ul prin EFI, activat toate ventilatoarele, etc. Nimic.
Având în vedere că BMC-ul nu lua în seamă configurarea făcută de mine pentru SDR, am citit regiștrii SDR-ului cu FRUSDR.efi. Acolo toate erau la locul lor, în sensul că senzorii înregistrați concordau cu cei afișați. Adică era normal să-mi afișeze doar un singur ventilator, pentru că aveam doar un singur registru, pentru System Fan 3.

Nu-i a bună!
Resetarea BMC-ului nu are nici un efect.
Am abandonat problema, din lipsă de timp și de inspirație.
Între timp, am pus problema și pe comunitatea de asistență tehnică de la Intel și am primit un răspuns, cum că rescrierea firmware-ului pentru BMC ar putea să rezolve această problemă.

Când am mai făcut rost de ceva timp, am purces la rescrierea completă a firmware-ului pentru BMC, FRU, SDR și a BIOS-ului. Zis și făcut.
Când am ajuns la SDR, din greșeală am selectat în loc de o carcasă non-Intel, carcasa "Intel(R) Server Chassis SC5299 UP". După reboot, în BMC lucrurile stăteau altfel:

dpccli> sensors -v
06/02/10 | 18:56:16 | BB +1.8V SM          | ok           |    1.78 | Volts
06/02/10 | 18:56:17 | BB +3.3V             | ok           |    3.30 | Volts
06/02/10 | 18:56:17 | BB +3.3V STBY        | ok           |    3.24 | Volts
06/02/10 | 18:56:18 | BB +5.0V             | ok           |    4.94 | Volts
06/02/10 | 18:56:18 | Processor Vcc        | ok           |    1.14 | Volts
06/02/10 | 18:56:19 | BB Ambient Temp      | ok           |   32.00 | Celsius
06/02/10 | 18:56:19 | CPU Fan              | ok           |  867.00 | RPM
06/02/10 | 18:56:20 | System Fan 1         | ok           | 3146.00 | RPM
06/02/10 | 18:56:20 | System Fan 2         | ok           | 3068.00 | RPM
06/02/10 | 18:56:21 | P1 Therm Margin      | ok           |  -68.00 | Celsius
dpccli>


Eii..., altă treabă..., se pare că ventilatoarele mergeau până la urmă, doar că SC5299 UP suportă doar 2...
Am repetat procedura de update, ca să capăt și restul de 2 ventilatoare care-mi lipseau din monitorizare:

dpccli> sensors -v
06/02/10 | 19:19:19 | BB +1.8V SM          | ok           |    1.78 | Volts
06/02/10 | 19:19:19 | BB +3.3V             | ok           |    3.30 | Volts
06/02/10 | 19:19:20 | BB +3.3V STBY        | ok           |    3.24 | Volts
06/02/10 | 19:19:20 | BB +5.0V             | ok           |    4.94 | Volts
06/02/10 | 19:19:21 | Processor Vcc        | ok           |    1.14 | Volts
06/02/10 | 19:19:21 | BB Ambient Temp      | ok           |   32.00 | Celsius
06/02/10 | 19:19:22 | Chassis Fan 1        | ok           | 1750.00 | RPM
06/02/10 | 19:19:22 | Chassis Fan 2        | critical     |    0.00 | RPM
06/02/10 | 19:19:23 | Chassis Fan 3        | ok           | 3150.00 | RPM
06/02/10 | 19:19:23 | Chassis Fan 4        | ok           | 3360.00 | RPM
06/02/10 | 19:19:24 | Chassis Fan 5        | ok           | 3290.00 | RPM
06/02/10 | 19:19:24 | P1 Therm Margin      | ok           |  -66.00 | Celsius
dpccli>

În sfârșit, aveam acces la toate ventilatoarele, dar unul din ele se pare că nu putea fi monitorizat...
În urma update-ului, denumirea ventilatoarelor în BMC s-a schimbat și acum trebuia să identific care ventilator conectat la MB era de fapt cel raportat defect de către BMC, pentru că fizic toate 4 mergeau în realitate cât se poate de bine, doar la Chassis Fan 2 nu aveam turația. Fie un senzor din BMC era defect, fie senzorul de turație din ventilator era defect.

M-am pus pe cartografiat MB-ul și prin deconectarea/conectarea fiecărui ventilator în parte iată ce a ieșit:


MB BMC
--- ---
CPU FAN Chassis Fan 1
SYS FAN 1 Chassis Fan 4
SYS FAN 2 Chassis Fan 5
SYS FAN 3 Chassis Fan 2
SYS FAN 4 Chassis Fan 3



Deci ventilatorul pe care trebuia să-l verific era SYS FAN 3, care e unul de 12CM. L-am înlocuit și totul a revenit la normal, turația era OK.
Problemă rezolvată!

5 comments:

  1. Am o problema asemanatoare cu o MB S5000XVN SATAR.

    ReplyDelete
  2. Carcasa este un ANTEC650 (Cea originala trebuia sa fie 'Server Chassis SC5299W...)am gasit-o mai ieftina in Romania.Serverul il folosesc ca statie grafica.Nu stiu sa configurez sistemul de racire nicidecum,si din aceasta cauza,serverul(ca sa-l numesc asa)nu lucreaza la performanta maxima.Nevazand coolerele sistemul lucreaza intr-un regim de avarie ca sa zic asa.Nu mai nimic despre servere,eu fac editare video.Mi-ar fi de mare folos un ajutor calificat.Habar n-am cum se poate rescrie un firmware FRUSDR (nu ca as stii ce este).

    ReplyDelete
  3. Am activat din bios "open loop" vs "closed loop" ceea ce ar insemna ca este pregatit de monitorizare.Am instalat "Intel® Active System Console",dar in rapoarte nu apare ca as avea coolere conectate.As dori macar in mare sa ma indrumi ce trebuie sa fac.I-mi dau seama ca nu-i simplu deloc.Cu greu am gasit un coment in legatura cu aceasta problema.

    ReplyDelete
  4. @viorel - tu ai problema clasică la MB-urile Intel și carcase non-Intel, trebuie configurat manual SDR-ul, astfel încât MB-ul să știe de cum sunt instalate ventilatoarele din carcasă. Descarci de pe site-ul Intel cea mai nouă versiune de BIOS (pentru EFI) pentru placa ta de bază, o dezarhivezi, o pui pe un Flash Disc, bootezi în EFI și execuți update-ul. La un moment dat o să te întrebe dacă vrei să actualizezi SDR, confirmi, când te întreabă de carcasă selectezi "Other" și confirmi ce ventilatoare ai montate (verifici înainte prin desfacerea carcasei). După aia continui cu update-ul și după restart sistemul ar trebui să se "liniștească"...

    @viorakiss - cred că trebuie să faci același lucru ca și viorel, trebuie update de SDR, ca MB-ul să știe cu ce carcasă/ventilatoare are de-a face.

    ReplyDelete
  5. Salut.Multumesc pt. raspuns.S-a rezolvat, am actualizat SDR-ul cu ventilatoarele montate de mine pe placa.
    Mai este o problema pe care nu o inteleg(de fapt sunt o groaza) in events i-mi apare ca "warning " "PCIe Link8 reports correctable bus error" ( Sensor type - Critical Interrupt). In paralel i-mi clipeste "System Status Led" aflat in spatele serverului (culoarea verde). Am resetat CMOS, dupa care nu mai apare o vreme.Din bios am resetat "Clear System Event Logs" pentru a dispare si informarea din Active System Console.La repornirea sistemului apare aceiasi problema.
    PS.viorel si viorakiss - este aceiasi persoana, m-am inregistrat fara sa vreau (din neatentie) de doua ori cred.

    ReplyDelete