Ejemplo de los mensajes que nos podemos encontrar en los que se puede ver el error “Hardware Error Machine check events logged“:
Los chequeos que realiza MCE pueden ser entre otros:
Puede ser que esos errores se corrijan o no. Habitualmente se corrigen si son errores leves, pero es posible que no, así que debemos revisar el log de syslog y comprobar lo que aparece; normalmente veremos el mensaje de error : Hardware Error Machine check events logged
Este es un ejemplo de los errores que podemos ver en el log de syslog:
Feb 10 09:46:41 host1 kernel: [Hardware Error]: Machine check events logged
Feb 10 09:47:37 host1 kernel: [Hardware Error]: Machine check events logged
Si revisamos más a fondo el log de syslog, o el de messages, veremos:
Feb 10 09:46:41host1 kernel: [Hardware Error]: Machine check events logged
Feb 10 09:47:37 host1 kernel: [Hardware Error]: Machine check events logged
Feb 10 09:48:03 host1 mcelog: Corrected memory errors on page 115444000 exceed threshold 10 in 24h: 10 in 24h
Vemos que en este caso sí que se ha corregido el error: Corrected memory errors
Machine Check Exception (MCE) o Excepción de verificación de máquina, es un tipo de error de es un tipo de error de hardware de computadora, que ocurre cuando la cpu detecta errores de hardware. Para interactuar con estos mensajes correctamente, es necesario que esté instalado el paquete mcelog.
Instalamos el paquete mcelog para poder leer estos errores:
sudo apt-get install mcelog
Los eventos serán registrados en /var/log/mcelog, donde podemos revisar el log y encontrar los errores, por ejemplo así:
grep -i 'Hardware Error' /var/log/messages
Pero también podemos ejecutar este comando de mcelog:
sudo mcelog --client
Para comprobar que ha habido errores que se han corregido, podemos buscar en el log de mce el mensaje:
mcelog: Corrected memory errors on page
Ejecutando mcelog podremos ver el status de los errores y las posibles correcciones de errores realizadas:
sudo mcelog –client
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
10 total
0 in 24h
uncorrected memory errors:
0 total
0 in 24h
SOCKET 0 CHANNEL 0 DIMM 0
corrected memory errors:
10 total
10 in 24h
uncorrected memory errors:
0 total
0 in 24h
Per page corrected memory statistics:
315444000: total 10 seen "10 in 24h" offline triggered
Y en el log /var/log/mcelog veremos:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 8
MISC 3f07f48000001582 ADDR 315444540
TIME 1613094483 Fri Feb 12 01:48:03 2021
MCG status:
MCi status:
Corrected error
En este caso vemos que el error se ha corregido sin problemas, pero está bien revisarlo por si fuera necesaria la intervención manual para arreglar errores, que pueden ser errores leves o errores graves de hardware en el servidor.