Guasto a un server ESXi: un caso di continuità operativa reale.

Sembra impossibile, ma gli imprevisti capitano nei momenti meno opportuni. Altrimenti, che imprevisti sarebbero?

Nel mio caso stavo caricando le valigie nel baule dell’auto e la mia mente era già proiettata verso i clamorosi giorni di immersione che mi attendevano a Lampedusa, quando il mio iPhone fu invaso da una pletora di messaggi inquietanti con mittente vcenter@customersdomain.com (il VMware vCenter del cliente mi invia email tempestive per segnalarmi problemi o malfunzionamenti al sistema IT). Stranamente questi non furono prontamente seguiti dalla telefonata allarmata dell’ufficio IT del cliente.

Ma si sa, la passione e lo spiccato senso di responsabilità che anima i sistemisti è troppo grande. Per cui andai al PC, aprii un accesso verso la rete del cliente e lanciai il VI Client. Tutte la macchine virtuali erano “up and running”.

Cambiai visualizzazione da “VMs and Templates” a “Hosts and Clusters” e, dramma, un server ESXi era disconnesso dal cluster. Ping: “richiesta scaduta”, Accesso https alla scheda di management: “Internet Explorer cannot display the webpage”. OK. Panico.

A questo punto chiamai il cliente, il quale confermò che avevano avuto qualche problema di disconnessione dal server Exchange, ma che, dopo aver chiuso e riaperto Outlook, non si era più presentato. Superata l’ansia iniziale, una sensazione di profonda soddisfazione mi pervase.

Per quanto si possa essere certi di aver apportato le giuste configurazioni all’ambiente, si hanno sempre dubbi se il sistema si comporterà nel modo corretto in presenza di un guasto. Nel mio caso è stato così: l’HA di VMware ha riacceso le macchine virtuali su un altro host ESX disponibile. Insomma, VMware ha garantito all’azienda la continuità operativa reale, come dimostra il fatto che loro non se ne erano quasi accorti!

Ecco un estratto dei log recuperato da vCenter.

srv06 warning (25/07/2012 09:42:28): vSphere HA restarted virtual machine srv06 on host srvesx02.CustomersDomain.com in cluster CustomersDomainCL1

srv03 warning (25/07/2012 09:42:28): vSphere HA restarted virtual machine srv03 on host srvesx02.CustomersDomain.com in cluster CustomersDomainCL1

SRV07 warning (25/07/2012 09:42:28): vSphere HA restarted virtual machine srv07 on host srvesx02.CustomersDomain.com in cluster CustomersDomainCL1

srvvma01 warning (25/07/2012 09:42:28): vSphere HA restarted virtual machine srvvma01 on host srvesx02.CustomersDomain.com in cluster CustomersDomainCL1

srv02 warning (25/07/2012 09:42:27): vSphere HA restarted virtual machine srv02 on host srvesx02.CustomersDomain.com in cluster CustomersDomainCL1

srv01 warning (25/07/2012 09:42:07): vSphere HA restarted virtual machine srv01 on host srvesx02.CustomersDomain.com in cluster CustomersDomainCL1

srv05 warning (25/07/2012 09:42:07): vSphere HA restarted virtual machine srv05 on host srvesx02.CustomersDomain.com in cluster CustomersDomainCL1

Durante la visita on site presso il cliente rilevammo la rottura della piastra madre, prontamente sostituita dal vendor.

Tutto è bene quel che finisce bene.

Notizie: abbiamo molto da raccontare