S.M.A.R.T.

De Wikipedia, la enciclopedia libre

S.M.A.R.T. (siglas de Self-Monitoring, Analysis and Reporting Technology; a veces escrito SMART) es un sistema de monitoreo para las unidades de disco duro para detectar y reportar diversos indicadores de confiabilidad, con la idea de anticipar fallos.

Cuando una falla es anticipada por S.M.A.R.T., el usuario puede elegir remplazar la unidad para evitar un corte inesperado y la pérdida de datos. El fabricante también puede utilizar los datos de S.M.A.R.T. para descubrir dónde están las fallas y prevenirlas en diseños de unidades futuros.

Origen

El propósito de SMART es advertir al usuario de una pronta falla de la unidad mientras todavía haya tiempo de tomar medidas, tales como copiar los datos a un dispositivo de reemplazo.

Hay dos clases básicas de fallas de discos duros:

  • Fallas predecibles que derivan de procesos lentos tales como agotamiento mecánico y degradación gradual de las superficies de almacenamiento. Monitorearlas puede determinar cuándo pueden llegar a ocurrir estas fallas.
  • Las fallas impredecibles suceden de repente y sin advertencia. Van desde componentes electrónicos defectuosos a fallas mecánicas repentinas (quizás por un manejo inadecuado).

Las fallas mecánicas comprenden el 60% de todas las fallas de discos.[1] Mientras que la falla eventual puede ser catastrófica, la mayoría de las fallas mecánicas resultan de un desgaste gradual y por lo general hay ciertas indicaciones que avisan que el fallo es inminente. Estas pueden incluir mayor emanación de calor, nivel de ruido incrementado, problemas la lectura o escritura de datos, o un incremento en la cantidad de esctores dañados del disco.

Un estudio hecho en Google de más de 100.000 discos encontró correlaciones entre cierta información de SMART y las tasas reales de fallos. En los 60 días siguientes luego del primer análisis sin conexión incorregible en un disco (atributo SMART 0xC6 o 198), el disco fue, en promedio, 39 veces más propenso a fallar que lo que hubiera sido si ese error no hubiese ocurrido. Los primeros errores en reasignaciones, reasignaciones sin conexión (atributos SMART 0xC4 y 0x05 o 196 y 5) y conteos probatorios (atributo SMART 0xC5 o 197) también fueron fuertemente correlacionadas a altas probabilidades de fallos. Por el contrario, hubo poca correlación con la temperatura elevada y ninguna correlación para los niveles de uso. Sin embargo, una larga proporción (56%) de los discos fallados fallaron sin dar ninguna advertencia de S.M.A.R.T. de ningún tipo, lo que significó que los datos solos de S.M.A.R.T. fueron de poca utilidad para anticipar fallas. [2]

La página de PCTechGuide sobre SMART (2003)[3] comenta que la tecnología pasó por tres etapas:

En su encarnación original SMART proveía predicción de fallas al monitorear ciertas actividades en línea del disco duro. Una versión siguiente mejoró la predicción de fallas al añadir un análisis automático sin conexión para monitorear operaciones adicionales. La última tecnología "SMART" no solo monitorea las actividades del disco duro, sino que también agrega prevención de fallos al intentar detectar y reparar sectores defectuosos. Además, mientras que las versiones anteriores e la tecnología solo monitoreaban la actividad del disco duro para los datos que eran recolectados por el sistema operativo, el último SMART comprueba todos los datos y todos los sectores de un disco con la "recolección de datos sin conexión" para confirmar la salud del disco durante períodos de inactividad.

Historia y predecesores

Una tecnología anterior de monitoreo de discos duros fue presentada por IBM en 1992 en su Matriz de discos IBM 9337 para servidores AS/400 con unidades de disco IBM 0662 SCSI-2. Luego fue llamado tecnología de Análisis de predicción de errores (PFA). Estaba midiendo varios parámetros de salud de dispositivos clave y evaluándolos dentro del firmware de la unidad. Las comunicaciones entre la unidad física y el software de monitoreo eran limitadas a un resultado binario: es decir "el dispositivo está bien" o "el dispositivo puede fallar pronto".

Más adelante, otra variable, que fue llamada IntelliSafe, fue creada por el fabricante de computadoras Compaq y los fabricantes de discos duros Seagate, Quantum, y Conner.[4] Los discos duros medirían los "parámetros de salud" del disco, y los valores serían transferidos al sistema operativo y al software de monitoreo del espacio de usuario. Cada fabricante de unidades de disco era libre para decidir qué parámetros iba a incluir para monitorear, y cuales serían sus umbrales. La unificación se encontraba a nivel protocolo con el host.

Compaq envió su implementación al comité de Small Form Factor (SFF) para su estandarización a principios de 1995. [5] Era apoyado por IBM, por los socios de desarrollo de Compaq, Seagate, Quantum, y Conner, y por Western Digital, que no tenía un sistema de predicción de fallas en ese entonces. El comité eligió el formato de IntelliSafe, ya que permitía más flexibilidad. Como resultado, el estándar desarrollado en conjunto fue llamado SMART.

Ese estándar SFF describió un protocolo de comunicación para que un host ATA utilice y controle el monitoreo y análisis en una unidad de disco duro, pero no especificó ninguna métrica en particular ni métodos de análisis. Más adelante, "SMART" se comenzó a utilizar (aunque sin ninguna especificación formal) para referirse a una variedad de métricas y métodos específicos y para aplicar protocolos no relacionados a ATA para comunicar el mismo tipo de cosas.

Información provista

La documentación técnica para SMART se encuentra en el estándar AT Attachment (ATA). Presentado por primera vez en 2004, [6] ha pasado por varias revisiones, [7] siendo la última en 2008. [8]

La información más básica que provee SMART es el SMART status. Muestra solo dos valores: "umbral no excedido" y "umbral excedido". A veces estos son representados como "disco OK" o "falla de disco" respectivamente. El valor "umbral excedido" pretende indicar que hay una gran probabilidad de que la unidad no será capaz de cumplir con sus especificaciones en el futuro, es decir, el disco está "a punto de fallar". La falla predicha puede ser catastrófica o puede ser algo leve como la inhabilidad de escribir en ciertos sectores, o quizás un rendimiento más lento que el mínimo declarado por el fabricante.

El SMART status no necesariamente indica la confiabilidad pasada o presente de la unidad. Si una unidad ya ha fallado catastróficamente, el SMART status puede ser inaccesible. Como alternativa, si una unidad ha experimentado problemas en el pasado, pero los sensores ya no detectan esos problemas, el SMART status puede, según la programación del fabricante, sugerir que el disco ahora está sano.

El impedimento de leer algunos sectores no siempre es un indicador de que el disco esté por fallar. Una forma de la que se pueden crear sectores ilegibles, incluso cuando el disco está funcionando dentro de las especificaciones, es con una falla de energía repentina mientras el disco esté escribiendo. Además, incluso si el disco físico está dañado en una ubicación, de manera que un cierto sector es ilegible, el disco puede ser capaz de usar el espacio de sobra para reemplazar el sector defectuoso, de manera que el sector pueda ser reescrito.[9]

Se pueden obtener más detalles sobre la salud de la unidad si se examinan los atributos SMART. Los atributos SMART estaban incluidos en algunos borradores del estándar ATA, pero fueron quitados antes de la versión final del estándar. El significado e interpretación de los atributos varía entre los fabricantes, y a veces son considerados un secreto comercial para algún que otro fabricante. Los atributos se detallan más adelante. [10]

Las unidades con SMART pueden mantener opcionalmente una cantidad de 'registros'. Los registros de error guardan información sobre los errores más recientes que el disco ha reportado a la computadora host. Examinar este registro puede ayudar a determinar si los problemas de la computadora están relacionados con el disco o son causados por algo más (las marcas de tiempo de los registros de error pueden "cerrarse" despues de 232 ms = 49.71 días [11])

Una unidad que implementa SMART puede implementar opcionalmente una cantidad de autopruebas o rutinas de mantenimiento, y los resultados de las pruebas se guardan en los registros de las autopruebas. Las rutinas de autoprueba se pueden utilizar para detectar cualquier sector ilegible en el disco, de manera que puedan ser restaurados de fuentes de respaldo (por ejemplo, de otros discos en un sistema RAID). Esto ayuda a reducir el riesgo de incurrir en una pérdidad permanente de datos.

Estándares e implementación

Falta de interpretación unificada

Muchas placas madre muestran un mensaje de advertencia cuando una unidad de disco está por fallar. Aunque existe un estándar de industria entre los fabricantes más grandes de discos duros, [3] hay algunos problemas todavía y demasiado "conocimiento secreto" guardado por los fabricantes según su enfoque específico. Como resultado, no siempre se implementa S.M.A.R.T. correctamente en muchas plataformas de computación debido a la ausencia de estándares de software y hardware de toda la industria para intercambio de datos S.M.A.R.T.

Desde el punto de vista legal, el término "S.M.A.R.T." se refiere solo a un método de señalización entre los sensores electromecánicos de la unidad de disco y la computadora host. Por lo tanto, los fabricantes pueden decir que una unidad implementa S.M.A.R.T. incluso si no cuenta con, por ejemplo, un sensor de temperatura, el cual un cliente puede esperar que esté incluido. Además, en los casos más extremos, un fabricante de discos podría, en teoría, producir un disco que incluya un sensor para solo un atributo físico, y luego promocionarlo legalmente como un producto "compatible con S.M.A.R.T.".

Visibilidad a los sistemas host

Según el tipo de interfaz utilizada, algunas placas madre con S.M.A.R.T. habilitado y software relacionada podrían no comunicarse con ciertas unidades que soportan S.M.A.R.T. Por ejemplo, pocos discos externos conectados por USB y Firewire envían datos S.M.A.R.T. correctamente a través de esas interfaces. Con tantas maneras de conectar un disco duro (SCSI, Canal de fibra, ATA, SATA, SAS, SSA, y muchas más), es difícil predecir si los reportes S.M.A.R.T. funcionarán correctamente en un determinado sistema.

Incluso con un disco duro y una interfaz que implementen la especificación, el sistema operativo podría no ver la información de S.M.A.R.T. debido a que el disco y la interfaz están encapsulados en una capa inferior. Por ejemplo, pueden ser parte de un subsistema RAID en el cual la controladora RAID ve a la unidad compatible con S.M.A.R.T., pero la computadora principal solo ve el volumen lógico generado por la controladora RAID.

En la plataforma Windows, muchos programas diseñados para monitorear y reportar información S.M.A.R.T. solo funcionarán bajo una cuenta de administrador. En la actualidad, S.M.A.R.T. se implementa de manera individual por los fabricantes, y mientras algunos aspectos están estandarizados para compatibilidad, otros todavía no.

Acceso

Para ver una lista de varios programas que permiten la lectura de datos SMART, consulte Coparación de herramientas S.M.A.R.T..

Atributos ATA S.M.A.R.T.

Cada fabricante de discos define una lista de atributos,, [12] [4]y establece los valores de umbrales que los atributos no deberían exceder bajo operaciones normales. Cada atributo tiene un valor bruto, cuyo significado depende enteramente del fabricante del disco (pero a veces corresponde a cuentas o a una unidad física, tales como grados Celsius o segundos), un valor normalizado, que va desde 1 a 253 (en el que 1 representa el peor caso y 253 el mejor) y un peor valor, que representa el valor normalizado más bajo registrado. Según el fabricante, 100 o 200 serán en ocasiones elegidos como el valor inicial normalizado.

Los fabricantes que han implementado al menos un atributo SMART en varios productos incluyen a Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Intel, STEC Inc, Western Digital y ExcelStor Technology.

Atributos ATA S.M.A.R.T. conocidos

El siguiente cuadro lista algunos atributos S.M.A.R.T. y el significado típico de sus valores brutos. Los valores normalizados siempre son mapeados de manera que los valores más altos sean mejores (con solo algunas raras excepciones como el atributo "Temperatura" en algunos discos Seagate [13]), pero los valores brutos de atributos pueden ser mejores o peores según el atributo y el fabricante. Por ejemplo, el valor normalizado del atributo "Cuenta de sectores reasignados" disminuye a medida que el contador de sectores reasignados incremente. En este caso, los valores brutos del atributo indicarán a menudo la cuenta real de sectores que fueron reasignados, aunque no se les exige de ninguna forma a los proveedores que se adhieran a esta convención. Ya que los fabricantes no necesariamente acuerdan sobre las definiciones precisas de los atributos y unidades de medida, la siguiente lista de atributos debería considerarse solo como una guía general.

Leyenda
Mayor valor bruto es mejor
Menor valor bruto es mejor
Crítico: fila de color rosa Indicadores potenciales de una inminente falla electromecánica
Identificación Código hexadecimal Nombre del atributo Mejor Descripción
01 0x01 Tasa de errores de lectura
(Valor bruto específico del proveedor.) Guarda datos relacionados a la tasa de errores de lectura del hardware que ocurren al momento de leer datos de la superficie del disco. El valor bruto tiene una estructura diferente según el proveedor y por lo general no tiene ningún significado como número decimal.
02 0x02 Rendimiento de producción
El rendimiento de producción global (general) de una unidad de disco duro. Si el valor de este atributo disminuye hay una alta probabilidad de que haya un problema con el disco.
03 0x03 Tiempo de inicio de giro
Tiempo medio de inicio de giro del eje (desde cero RPM hasta estar completamente operacional [millisecs]).
04 0x04 Cuenta de Inicios/Detenciones Una cuenta de los ciclos de Inicio/apagado del eje. El eje se enciende, y por lo tanto la cuenta incrementa, tanto cuando el disco duro se enciende luego de haber estado apagado completamente (desconectado de una fuente de energía) y cuando el disco duro vuelve de haber estado en modo de suspensión.[14]
05 0x05 Cuenta de sectores reasignados
Cuenta de sectores reasignados. Cuando el disco duro encuentra un error de lectura/escritura/verificación, marca a ese sector como "reasignado" y transfiere los datos a un área especial reservada (área de reserva). Este proceso es también conocido como remapeo y los sectores reasignados son llamados "remapas". El valor bruto normalmente representa una cuenta de los sectores defectuosos que han sido encontrados y remapeados. De esta manera, mientras más alto sea el atributo, son más los sectores que el disco tuvo que reasignar. Esto le permite a la unidad con sectores defectuosos continuar sus operaciones; sin embargo, un disco que haya tenido muchas reasignaciones es sensiblemente propenso a fallar en el corto plazo.[2] Mientras que se usa en general como una métrica de la expectativa de vida del disco, este numero ambién afecta al rendimiento. A medida que la cuenta de sectores reasignados, incremente, la velocidad de escritura/lectura tiende a empeorar debido a que el cabezal del disco es forzado a buscar en el área reservada cuando se accede a una reasignación. Una forma de preservar la velocidad de la unidad a expensas de la capacidad es crear una partición del disco sobre la región que contiene las reasignaciones e indicarle al sistema operativo que no utilice esa partición.
06 0x06 Margen de canales de lectura Margen de un canal al leer datos. La función de este atributo no está especificada.
07 0x07 Tasa de error de búsqueda N/A (Valor bruto específico del proveedor.) La tasa de error de búsqueda de los cabezales magnéticos. En caso de que haya una falla parcial en el sistema de posicionamiento mecánico, los errores de búsqueda aparecerán. Esta falla puede deberse a muchos factores, tales como daños en el servo, o ampliación térmica del disco duro. El valor bruto tiene una estructura diferente según el proveedor y por lo general no tiene ningún significado como número decimal.
08 0x08 Rendimiento de tiempo de búsqueda
Rendimiento promedio de las operaciones de búsqueda del cabezal magnético. Si este atributo se encuentra en disminución, es una señal de que hay problemas en el subsistema mecánico.
09 0x09 Horas de encendido (POH) Cuenta de horas en estado de encendido. El valor bruto de este atributo muestra la cantidad total de horas (o minutos, o segundos, según el fabricante) en estado de encendido.[15]

En algunas unidades anteriores al 2005, este valor bruto podría avanzar erráticamente y/o "dar la vuelta" (resetearse a cero periódicamente). [16]

10 0x0A Cuenta de reintentos de giro
Cuenta de reintentos de intentos de inicio de giro. Este atirbuto guarda la cuenta total de los intentos de inicio de giro para alcanzar la velocidad de funcionamiento total (bajo la condición de que el primer intento no haya sido exitoso). Un incremento en el valor de este atributo es señal de que hay problemas en el subsistema mecánico del disco duro.
11 0x0B Reintentos de recalibración o Cuenta de reintentos de recalibración
Este atributo le indica al contador que se solicitó una recalibración (bajo la condición de que el primer intento fue fallido). Un incremento en el valor de este atributo es señal de que hay problemas en el subsistema mecánico del disco duro.
12 0x0C Cuenta de ciclos de energía Este atributo indica la cuenta de los ciclos completos de inicio/apagado del disco duro.
13 0x0D Tasa de errores de lectura lógicos
Errores de lectura no corregidos reportados al sistema operativo.
180 0xB4 Cuenta total de bloques reservados no utilizados Atributo "Pre falla" utilizado al menos en dispositivos HP.
183 0xB7 Cuenta de errores de disminución de velocidad SATA Atributo de Western Digital y Samsung.
184 0xB8 Error de extremo a extremo / IOEDC (del inglés Inside/Out Error Detection and Correction, Detección y corrección de errores de entrada y salida)
Este atributo es parte de la tecnología SMART IV de Hewlett-Packard, así como también parte de esquemas de Corrección y detección de errores de entrada y salida de otros proveedores, y contiene una cuenta de errores de paridad que ocurren en la ruta de datos hacia los medios a través de la memoria caché de la unidad. [17]
185 0xB9 Estabilidad del cabezal Atributo de Western Digital.
186 0xBA Detección de vibración inducida Atributo de Western Digital.
187 0xBB Errores incorregibles informados
La cuenta de errores que no pudieron ser recobrados utilizando el ECC del hardware (ver atributo 195).
188 0xBC Tiempo de espera de comandos
La cuenta de operaciones interrumpidas debido al agotamiento del tiempo de espera del HDD. Normalmente este atributo debería ser igual a cero y si el valor es más de cero, lo más probable es que haya un problema grave con la fuente de alimentación o un cable de datos oxidado. [18]
189 0xBD Escrituras de vuelo alto
Los fabricantes de HDD implementan un monitor de alto vuelo que intenta proveer protección adicional para operaciones de escritura al detectar cuando un cabezal de escritura está volando fuera de su rango normal operacional. En caso de que se detecte una condición de alto vuelo, el proceso de escritura es detenido y la información es reescrita o reasignada a un sector seguro para el disco duro. Este atributo indica la cantidad de veces que se detectó este error durante el tiempo de vida del disco.

Esta función está implementada en la mayoría de los discos Seagate modernos[1] y algunos discos de Western Digital, comenzando con los discos duros WD Enterprise WDE18300 y WDE9180 Ultra2 SCSI y serían incluidas en todos los productos futuros de WD Enterprise.[19]

190 0xBE Temperatura de flujo de aire (WDC) resp. Temperatura celsius de flujo de aire (HP)
La temperatura de flujo de aire en los discos duros de Western Digital (la misma que la temperatura [C2], pero el valor actual es 50 menos para algunos modelos. Marcado como obsoleto.)
190 0xBE Diferencia de temperatura desde 100
El valor es igual a (100−temp. °C), lo que le permite al fabricante estableceer un umbral mínimo que corresponde a una temperatura máxima.
191 0xBF Tasa de errores de G-sense
La cuenta de los errores que resultan por vibraciones de impacto & inducidas.
192 0xC0 Cuenta de retracciones de apagado o Cuenta de ciclos de retracción de emergencia (Fujitsu) [20]
Cuenta de veces que los cabezales se cargan fuera del medio. En realidad los cabezales se pueden descargar sin apagarlo.
193 0xC1 Cuenta de ciclos de carga o Cuenta de ciclos de carga/descarga (Fujitsu)
Cuenta de los ciclos de carga/descarga en la posición de la zona de descarga del cabezal. [20]

La calificación de tiempo de vida típica para los discos duros de una laptop (2,5 pulgadas) es de 300.000 a 600.000 ciclos de carga. [21]Algunos discos de laptop están programados para descargar los cabezales cuando no haya habido ninguna actividad por unos cinco segundos. [22]Muchas instalaciones de Linux escriben en el sistema de archivos varias veces por minuto en segundo plano. [23]Como resultado, puede haber 100 o más ciclos de carga por hora, y la tasa de ciclos de carga puede ser excedida en menos de un año. [24]

194 0xC2 Temperatura resp. Temperatura Celsius
Temperatura interna actual.
195 0xC3 EEC de hardware recuperado N/A (Valor bruto específico del proveedor) El valor bruto tiene una estructura diferente según el proveedor y por lo general no tiene ningún significado como número decimal.
196 0xC4 Cuenta de eventos de reasignación
Cuenta de operaciones de remapeo. El valor bruto de este atributo muestra la cantidad total de intentos de transferencia de datos desde los sectores reasignados a las áreas de reserva. Se cuentan tanto los intentos exitosos & como los fallidos.[25]
197 0xC5 Cuenta de sectores pendientes actuales
Cuenta de sectores "inestables" (a la espera de ser remapeados debido a errores irrecuperables de lectura). En caso de que un sector inestable luego pueda ser leído correctamente, este valor disminuye y el sector no es remapeado. Los errores de lectura en un sector no remapearán el sector inmediatamente (debido a que el valor correcto no puede ser leído y por ese motivo el valor del remapeo es desconocido, y además puede que luego se vuelva ilegible); en su lugar, el firmware de la unidad recuerda que el sector necesita ser remapeado, y lo remapeará la próxima vez que sea escrito. [26]Sin embargo, algunas unidades no remapearán inmediatamente estos sectores al momento de ser escritos; en su lugar, la unidad primero intentará escribir en el sector con problemas y si la operación de escritura logra ser exitosa, el sector será marcado como sano (en este caso, la "Cuenta de eventos de reasignación" (0xC4) no se incrementará). Esta es una deficiencia grave, debido a que si una unidad de este tipo contiene sectores marginales que fallan consistentemente solo después de que haya pasado cierto tiempo después de una operación de escritura exitosa, la unidad nunca volverá a asignar estos sectores defectuosos.
198 0xC6 Cuenta de sectores incorregibles o

Incorregible desconectado o

Cuenta de sectores incorregibles con análisis sin conexión[20]

La cuenta total de errores incorregibles al momento de lectura/escritura de un sector. Un incremento en el valor de este atributo indica defectos en la superficie del disco y/o problemas en el subsistema mecánico.
199 0xC7 Cuenta de errores CRC UltraDMA
La cuenta de errores de transferencia de datos a través de la interfaz cableada determinada por el ICRC (verificación por redundancia cíclica de interfaz).
200 0xC8 Tasa de errores multizona [27]
La cuenta de errores encontrados al momento de escribir en un sector. Mientras más alto sea el valor, peor será el estado mecánico del disco.
200 0xC8 Tasa de errores de escritura (Fujitsu)
La cantidad total de errores al momento de escribir en un sector.[28]
201 0xC9 Tasa de errores de lectura lógicos o

Contador TA detectado

Cuenta de errores fuera de la pista.
202 0xCA Errores de marca de dirección de datos o

Contador TA incrementado

Cuenta de errores de marca de dirección de datos (o los especificados por el proveedor).
203 0xCB Cancelaciones por agotamiento
204 0xCC Corrección del ECC lógico
Cuenta de errores corregidos por el EEC del software
205 0xCD Tasa de aspereza térmica (TAR)
Cuenta de errores debido a las altas temperaturas.[18]
206 0xCE Altura de vuelo La altura de los cabezales sobre la superficie del disco. Una altura de vuelo que es demasiado baja incrementa las posibilidades de un choque de cabezal, mientras que una altura de vuelo muy alta incrementa las posibilidades de un error de lectura/escritura.
207 0xCF Corriente alta de giro
Cantidad de corriente de arranque utilizada para hacer girar al disco, [18]
208 0xD0 Zumbido de giro Cuenta de rutinas de giro necesarias para hacer girar al disco debido a energía insuficiente. [18]
209 0xD1 Rendimiento de búsqueda desconectado El rendimiento de búsqueda durante sus pruebas internas. [18]
210 0xD2 Vibración durante proceso de escritura (encontrado en discos Maxtor 6B200M0 de 200GB y Maxtor 2R015H1 de 15GB)
211 0xD3 Vibración durante proceso de escritura Vibración durante proceso de escritura
212 0xD4 Choque durante proceso de escritura Choque durante proceso de escritura
220 0xDC Movimiento de disco
La distancia que se ha desplazado el disco con respecto al eje (por lo general debido a una descarga o a la temperatura). La unidad de medida desconocida.
221 0xDD Tasa de errores de G-Sense
La cuenta de los errores que resultan por vibraciones de impacto & inducidas.
222 0xDE Horas cargadas Cantidad de tiempo ocupada en carga de datos (movimiento del armazón del cabezal magnético)
223 0xDF Cuenta de reintentos de carga/descarga Cuenta de las veces en las que el cabezal cambió de posición
224 0xE0 Fricción de carga
Resistencia causada por la fricción en las partes mecánicas al momento de la operación.
225 0xE1 Cuenta de ciclos de carga/descarga
Cuenta total de ciclos de carga
226 0xE2 Tiempo de carga de entrada El tiempo total de carga en el actuador de los cabezales magnéticos (tiempo no ocupado en el área de estacionamiento).
227 0xE3 Cuenta de amplificación de torque
Cuenta de intentos para compensar las variaciones de velocidad del plato
228 0xE4 Ciclo de retracción de apagado
La cantidad de veces en la que el armazón magnético fue retraído automáticamente como resultado de un corte de energía.
230 0xE6 Amplitud del cabezal GMR Amplitud de la "paliza" (la distancia del movimiento repetitivo de avance/inversa del cabezal)
230 0xE6 Estado de protección de vida de la unidad
Estado actual de la operación del disco basado en el la curva de vida[29]
231 0xE7 Temperatura
Temperatura de la unidad
231 0xE7 Tiempo de vida restante del SSD
Indica el tiempo de vida restante aproximado de un SSD, calculado en términos de ciclos de programación/borrado o en bloques de memoria flash disponibles en ese momento para su uso. [29]
232 0xE8 Espacio reservado disponible Los SSD de Intel reportan la cantidad de espacio reservado disponible como porcentaje de espacio reservado en un SSD nuevo.
232 0xE8 Resistencia restante Cantidad de ciclos de borrado físico completados en el disco como porcentaje de los ciclos máximos de borrado físico a los que el disco está diseñado para resistir
233 0xE9 Indicador de desgaste del medio Los SSD de Intel reportan un valor normalizado de 100 (cuando el SSD es nuevo) y disminuye a un valor mínimo de 1. Disminuye mientras los ciclos de borrado de la NAND incrementan de 0 a los ciclos máximos establecidos.
233 0xE9 Horas de encendido Cantidad de horas transcurridas en el estado de encendido.
234 0xEA Cuenta promedio de borrado Y cuenta máxima de borrado Decodificado como: byte 0-1-2 = cuenta promedio de borrado (big endian) y byte 3-4-5 = cuenta máxima de borrado (big endian) [30]
235 0xEB Cuenta de bloques en buen estado Y Cuenta de bloques de sistema (Libre) decodificado como: byte 0-1-2 = cuenta de bloques en buen estado (big endian) y byte 3-4 = cuenta de bloques de sistema (libre).
240 0xF0 Tasa de errores de transferencia (Fujitsu) Cantidad de veces que el enlace es reiniciado durante una transferencia de datos. [31]
240 0xF0 Horas de vuelo del cabezal Tiempo durante el cual el cabezal se posiciona
241 0xF1 Total de LBA escritos Cuenta total de LBA (direccionamiento de bloque lógico) escritos
242 0xF2 Lecturas totales de LBA Cuenta del total de lecturas de LBA.
Algunas utilidades S.M.A.R.T. informarn un número negativo como valor bruto ya que en realidad tiene 48 bits en lugar de 32.
250 0xFA Tasa de reintentos de errores de lectura
Cantidad de errores al momento de leer un disco
254 0xFE Protección de caída libre
Cuenta de los "Eventos de caída libre" detectados [32]

Condiciones de exceso de umbral

El estado de superación de umbral (TEC) es una fecha estimada en la cual un atributo de estadística crítica de la unidad alcanzó su valor de umbral. Cuando un software de salud de discos reporta un "Nearest T.E.C.", debe ser tomado como "fecha de falla". En algunas ocasiones no se brinda ninguna fecha y se puede esperar que el disco funcione sin errores.[33]

Para predecir la fecha, el disco rastrea la tasa en la que el atributo cambia. Tenga en cuenta que las fechas del TEC son solo estimativas, los discos duros pueden fallar mucho antes o mucho después que en la fecha del TEC.[34]

Autopruebas

Los discos con SMART pueden ofrecer una variedad de autopruebas: [35] [36] [37]

Cortas

Revisa el rendimiento eléctrico y mecánico así como también el rendimiento de lectura del disco. Las pruebas eléctricas pueden incluir una prueba de búfer de memoria TAM, una prueba de circuito de lectura/escritura, o una prueba de los elementos del cabezal de lectura/escritura. La prueba mecánica incluye búsquedas y servo en las pistas de datos. Analiza partes pequeñas de la superficie de la unidad (el área depende del proveedor y hay un tiempo límite para la prueba). Revisa la lista de sectores pendientes que pueden tener errores de lectura. (Dura por lo general menos de dos minutos).

Largo/extendido

Una versión más profunda de las autopruebas cortas. Analiza la superficie entera del disco sin un tiempo límite (cientos de minutos, aproximadamente un gigabyte por minuto en discos modernos.)

Transporte

Diseñada como una prueba rápida para identificar el daño incurrido durante el transporte del dispositivo desde el fabricante del disco hasta el fabricante de la computadora.[38] Solo disponible en discos ATA (dura varios minutos).

Selectiva

Algunos discos permiten autopruebas selectivas de solo una parte de la superficie.[39]

Los registros de las autopruebas de discos SCSI y ATA son un poco diferentes. Es posible pasar la prueba extendida incluso si la prueba corta falla. [40]

Ver también

Notas

  1. ^ a b Enhanced Smart attributes (statement), Seagate , http://argusmonitor.com/help/enhanced_smart.pdf .
  2. ^ a b Pinheiro, Eduardo; Weber, Wolf-Dietrich; Barroso, Luís André, "Conclusion" , Failure Trends in a Large Disk Drive Population, 1600 Amphitheatre Pkwy Mountain View, CA 94043: Google , http://research.google.com/archive/disk_failures.pdf .
  3. ^ a b SMART, PCTechGuide, 2003, http://www.pctechguide.com/31HardDisk_SMART.htm.
  4. ^ a b Ottem & Plummer 1995.
  5. ^ Compaq. IntelliSafe. Technical Report SSF-8035, January 1995.
  6. ^ Section 4.8: "SMART (Self-monitoring, analysis, and reporting technology) feature set", "ATA/ATAPI Command Set (ATA8-ACS)", AT Attachment 8 (ANSI INCITS), August 17, 2004, ftp://ftp.t10.org/t13/docs2004/D1699-ATA8-ACS.pdf.
  7. ^ Stephens 2006, pp. 44–126, 198–213, 327–44, Sections 4.19: "SMART (Self-monitoring, analysis, and reporting technology) feature set", 7.52: "SMART", Annex A: "Log Page Definitions".
  8. ^ Section 4.21: "Self-Monitoring, Analysis, and Reporting Technology (SMART) feature set", "ATA/ATAPI Command Set (ATA8-ACS)", AT Attachment 8 (ANSI INCITS), September 6, 2008, http://www.t13.org/documents/UploadedDocuments/docs2008/D1699r6a-ATA8-ACS.pdf.
  9. ^ (PDF) Hitachi Travelstar 80GN (hard disk drive specification) (2.0 ed.), Hitachi Data Systems, 19 de septiembre de 2003, Hitachi Document Part Number S13K-1055-20, http://www.hitachigst.com/tech/techlib.nsf/techdocs/85CC1FF9F3F11FE187256C4F0052E6B6/$file/80GNSpec2.0.pdf
  10. ^ Hatfield, Jim (30 de septiembre de 2005), SMART Attribute Annex, T13, e05148r0, http://www.t13.org/Documents/UploadedDocuments/docs2005/e05148r0-ACS-SMARTAttributesAnnex.pdf
  11. ^ "Maxtor" (texto plano), Smart mon tools (ejemplo), Source forge, http://smartmontools.sourceforge.net/examples/MAXTOR-1.txt.
  12. ^ Stephens 2006, p. 207Of the 512 octets listed in table 42 on page 207: "Device SMART data structure" a total of 489 are marked as "Vendor specific".
  13. ^ "FAQ", Smartmontools, Source forge, http://smartmontools.sourceforge.net/faq.html#temp-seagate, "Attribute 194 (Temperature Celsius) behaves strangely on my Seagate disk".
  14. ^ "Self-Monitoring, Analysis and Reporting Technology (SMART)", Smart Linux (artículo), Source forge, 2009-03-10, http://smartlinux.sourceforge.net/smart/article.php
  15. ^ "9109: S.M.A.R.T. Attribute: Power-On Hours (POH)", Knowledge Base, Acronis, http://kb.acronis.com/content/9109.
  16. ^ "FAQ". Smartmontools. Sourceforge. Recuperado el 2013-01-15. 
  17. ^ "SMART IV Technology on HP Business Desktop Hard Drives" (PDF). Hewlett-Packard. Recuperado el 8 de septiembre del 2011. 
  18. ^ a b c d e S.M.A.R.T. attribute list (ATA), HD sentinel, http://www.hdsentinel.com/help/en/56_attrib.html.
  19. ^ (PDF) Fly Height Monitor Improves Hard Drive Reliability, Western Digital, Abril 1999, 79-850123-000, http://www.wdc.com/wdproducts/library/other/2579-850123.pdf
  20. ^ a b c (PDF) MHT2080AT, MHT2060AT, MHT2040AT, MHT2030AT, MHG2020AT Disk Drives (manual del producto), Fujitsu, 2003-07-04, C141-E192-02EN, http://www.fujitsu.com/downloads/COMP/fcpa/hdd/discontinued/mht20xxat_prod-manual.pdf
  21. ^ Laptop hard drive Load_Cycle_Count issue, Ubuntu forums, http://ubuntuforums.org/showthread.php?p=5031046.
  22. ^ "Problem with hard drive clicking", Think (wiki), http://www.thinkwiki.org/wiki/Problem_with_hard_drive_clicking, "Despite files being cached, POSIX-compliant file systems like ext2 or ext3 must update (=write) the last access time."
  23. ^ discussion list, Arch Linux, http://bbs.archlinux.org/viewtopic.php?id=66706, "If linux tends to write to /var/log/* every 30s, then the heads can park/unpark every 30s."
  24. ^ "Hard drives", How to Reduce Power Consumption (wiki), Think, http://www.thinkwiki.org/wiki/How_to_reduce_power_consumption#Hard_Drives, "The files access time update, while mandated by POSIX, is causing lots of disks access; even accessing files on disk cache may wake the ATA or USB bus."
  25. ^ "S.M.A.R.T.-Attribut: Reallocation Event Count", Knowledge Base, Acronis, http://kb.acronis.com/content/9132.
  26. ^ "S.M.A.R.T. Attribute: Power-On Hours (POH)", Knowledge Base, Acronis, http://kb.acronis.com/content/9133.
  27. ^ Cabla, Lubomir (2009-08-06). "HDAT2 v4.6 User's Manual" (PDF) (1.1 ed.). 
  28. ^ "Attributes". SMART Linux project. Source forge. 
  29. ^ a b SMART Attribute Details (PDF), Kingston, http://media.kingston.com/support/downloads/MKP_306_SMART_attribute.pdf.
  30. ^ "Ticket 171". Smartmontools (log). Source forge. 
  31. ^ "MHY2xxxBH Disk Drives, Product/Maintenance Manual". Fujitsu Limited. C141-E192-02EN. 
  32. ^ (PDF) Momentus 7200.2 SATA (product manual) (D ed.), Seagate, Septiembre de 2007, Hitachi Document Part Number S13K-1055-20, http://www.seagate.com/staticfiles/support/disc/manuals/notebook/momentus/7200.2/100451238d.pdf
  33. ^ "FAQ", Drive health, http://www.drivehealth.com/faq.html, recuperado el 4 de Octubre del 2011.
  34. ^ The interpretation of the TEC and the SMART, Altrix soft, http://www.altrixsoft.com/en/support/help/hddinsp/tec%20and%20smart.php, Recuperado el 4 de octubre del 2011.
  35. ^ "self-tests: "SMART RUN/ABORT OFFLINE TEST AND SELF-TEST OPTIONS: -t TEST, --test=TEST"", SMARTCTL, http://smartmontools.sourceforge.net/man/smartctl.8.html.
  36. ^ HDDScan, http://hddscan.com/ – free HDD test utility with USB flash and RAID support.
  37. ^ Evans, Mark (26 de abril de 1999) (PDF), Hard Drive Self-tests, Milpitas, CA US: T10, http://www.t10.org/ftp/t10/document.99/99-179r0.pdf.
  38. ^ Bulik, Darrin (Sept. 24, 2001) (PDF), Proposal for Extensions To Drive Self Test, Lake Forest, CA: T10, http://www.t10.org/t13/technical/e01137r0.pdf.
  39. ^ McLean, Pete (23 de octubre de 2001) (PDF), Proposal for a Selective Self-test, Longmont, CO: T10, http://www.t10.org/t13/technical/e01139r0.pdf
  40. ^ "HDD fails S.M.A.R.T. short test, but passes long test?". Hardware Canucks. Recuperado el 2013-01-15. 

Bibliografía

  • Stephens, Curtis E, ed. (11 de diciembre de 2006), "ATA/ATAPI Command Set (ATA8-ACS)" (PDF), AT Attachment 8 (ANSI INCITS): p. 207 .
  • Ottem, Erik; Plummer, Judy (June 1995), Playing it SMART, Seagate Technology .

Referencias

Enlaces externos