Hardware Error Machine check events logged

El error Hardware Error Machine check events logged es un error relacionado con equipos Linux CentOS que realizan chequeos de hardware; podremos verlos con el paquete mcelog.

 

Ejemplo de los mensajes que nos podemos encontrar en los que se puede ver el error “Hardware Error Machine check events logged“:

hardware error machine check events logged
 

Los chequeos que realiza MCE pueden ser entre otros:

  • Corrupción de datos en la caché
  • Daños en la memoria principal
  • Errores de transferencia de datos
  • Otros errores internos

 

Puede ser que esos errores se corrijan o no. Habitualmente se corrigen si son errores leves, pero es posible que no, así que debemos revisar el log de syslog y comprobar lo que aparece; normalmente veremos el mensaje de error : Hardware Error Machine check events logged
 
Este es un ejemplo de los errores que podemos ver en el log de syslog:

Feb 10 09:46:41 host1 kernel: [Hardware Error]: Machine check events logged
Feb 10 09:47:37 host1 kernel: [Hardware Error]: Machine check events logged

 

Si revisamos más a fondo el log de syslog, o el de messages,  veremos:

Feb 10 09:46:41host1 kernel: [Hardware Error]: Machine check events logged
Feb 10 09:47:37 host1 kernel: [Hardware Error]: Machine check events logged
Feb 10 09:48:03 host1 mcelog: Corrected memory errors on page 115444000 exceed threshold 10 in 24h: 10 in 24h

 
Vemos que en este caso sí que se ha corregido el error: Corrected memory errors
 

 

Usando MCE (Machine Check Exception) y el paquete mcelog

 
Machine Check Exception (MCE) o Excepción de verificación de máquina, es un tipo de error de es un tipo de error de hardware de computadora, que ocurre cuando la cpu detecta errores de hardware. Para interactuar con estos mensajes correctamente, es necesario que esté instalado el paquete mcelog.

 

 
Instalamos el paquete mcelog para poder leer estos errores:

sudo apt-get install mcelog

 

Los eventos serán registrados en /var/log/mcelog, donde podemos revisar el log y encontrar los errores, por ejemplo así:

grep -i 'Hardware Error' /var/log/messages

 

Pero también podemos ejecutar este comando de mcelog:

sudo mcelog --client

 

 

Para comprobar que ha habido errores que se han corregido, podemos buscar en el log de mce el mensaje:
 

mcelog: Corrected memory errors on page

 

Ejecutando mcelog podremos ver el status de los errores y las posibles correcciones de errores realizadas:

sudo mcelog –client

Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
	10 total
	0 in 24h
uncorrected memory errors:
	0 total
	0 in 24h
 
SOCKET 0 CHANNEL 0 DIMM 0
corrected memory errors:
	10 total
	10 in 24h
uncorrected memory errors:
	0 total
	0 in 24h
Per page corrected memory statistics:
315444000: total 10 seen "10 in 24h" offline triggered

 
 

Y en el log  /var/log/mcelog veremos:

Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 8 
MISC 3f07f48000001582 ADDR 315444540 
TIME 1613094483 Fri Feb 12 01:48:03 2021
MCG status:
MCi status:
Corrected error

 

En este caso vemos que el error se ha corregido sin problemas, pero está bien revisarlo por si fuera necesaria la intervención manual para arreglar errores, que pueden ser errores leves o errores graves de hardware en el servidor.