El error Hardware Error Machine check events logged es un error relacionado con equipos Linux CentOS que realizan chequeos de hardware; podremos verlos con el paquete mcelog.
Ejemplo de los mensajes que nos podemos encontrar en los que se puede ver el error “Hardware Error Machine check events logged“:
Los chequeos que realiza MCE pueden ser entre otros:
- Corrupción de datos en la caché
- Daños en la memoria principal
- Errores de transferencia de datos
- Otros errores internos
Puede ser que esos errores se corrijan o no. Habitualmente se corrigen si son errores leves, pero es posible que no, así que debemos revisar el log de syslog y comprobar lo que aparece; normalmente veremos el mensaje de error : Hardware Error Machine check events logged
Este es un ejemplo de los errores que podemos ver en el log de syslog:
Feb 10 09:46:41 host1 kernel: [Hardware Error]: Machine check events logged Feb 10 09:47:37 host1 kernel: [Hardware Error]: Machine check events logged |
Si revisamos más a fondo el log de syslog, o el de messages, veremos:
Feb 10 09:46:41host1 kernel: [Hardware Error]: Machine check events logged Feb 10 09:47:37 host1 kernel: [Hardware Error]: Machine check events logged Feb 10 09:48:03 host1 mcelog: Corrected memory errors on page 115444000 exceed threshold 10 in 24h: 10 in 24h |
Vemos que en este caso sí que se ha corregido el error: Corrected memory errors
Usando MCE (Machine Check Exception) y el paquete mcelog
Machine Check Exception (MCE) o Excepción de verificación de máquina, es un tipo de error de es un tipo de error de hardware de computadora, que ocurre cuando la cpu detecta errores de hardware. Para interactuar con estos mensajes correctamente, es necesario que esté instalado el paquete mcelog.
Instalamos el paquete mcelog para poder leer estos errores:
sudo apt-get install mcelog |
Los eventos serán registrados en /var/log/mcelog, donde podemos revisar el log y encontrar los errores, por ejemplo así:
grep -i 'Hardware Error' /var/log/messages |
Pero también podemos ejecutar este comando de mcelog:
sudo mcelog --client |
Para comprobar que ha habido errores que se han corregido, podemos buscar en el log de mce el mensaje:
mcelog: Corrected memory errors on page |
Ejecutando mcelog podremos ver el status de los errores y las posibles correcciones de errores realizadas:
sudo mcelog –client
Memory errors SOCKET 0 CHANNEL any DIMM any corrected memory errors: 10 total 0 in 24h uncorrected memory errors: 0 total 0 in 24h SOCKET 0 CHANNEL 0 DIMM 0 corrected memory errors: 10 total 10 in 24h uncorrected memory errors: 0 total 0 in 24h Per page corrected memory statistics: 315444000: total 10 seen "10 in 24h" offline triggered |
Y en el log /var/log/mcelog veremos:
Hardware event. This is not a software error. MCE 0 CPU 0 BANK 8 MISC 3f07f48000001582 ADDR 315444540 TIME 1613094483 Fri Feb 12 01:48:03 2021 MCG status: MCi status: Corrected error |
En este caso vemos que el error se ha corregido sin problemas, pero está bien revisarlo por si fuera necesaria la intervención manual para arreglar errores, que pueden ser errores leves o errores graves de hardware en el servidor.