https://www.teldat.com/wp-content/uploads/2024/01/Ricardo-Sanz-96x96.jpg

TELDAT Blog

Communicate with us

Mejorando la fiabilidad de los equipos y su redundancia

Mar 5, 2024

Improving device reliability and redundancyEn un artículo anterior  vimos cómo caracterizar matemáticamente la fiabilidad de un equipo electrónico. Es decir, la probabilidad de que funcione correctamente durante un tiempo. Se resume en el Mean Time Between Failure (MTBF), o su inverso, Failure In Time (FIT). Es típico encontrar valores de MTBF del orden de cientos de miles de horas para equipos electrónicos.

Cummulative probability

Fuente: Ricardo Saiz

La probabilidad de que suceda un fallo durante un tiempo t sigue una función exponencial, aproximada a una recta para intervalos pequeños.

 

¿De dónde se obtiene el MTBF de un equipo?

La fiabilidad de un equipo está determinada por la de sus elementos constitutivos (componentes electrónicos soldables, módulos, cableado, etc). El MTBF del conjunto es la suma del inverso del MTBF de cada parte, de forma análoga a las resistencias en paralelo. Si en un circuito eléctrico se suman las admitancias, el FIT de un equipo con muchos componentes (caminos en paralelo que conducen a un fallo) es la suma de todos esos FIT. Por eso resulta más sencillo operar con el FIT que con MTBF.

¿Cómo hacer que un equipo sea más fiable?

A su vez el FIT de un componente. No es un valor inmutable, sino que depende del ambiente y principalmente de la temperatura. El calor guarda una relación directa con la tasa de fallos, y de hecho con la velocidad de numerosos procesos físicos y reacciones químicos. El científico sueco Svante Arrhenius (1859 – 1927) fue el primero en modelar esa relación, en el año 1889, con la ecuación que lleva su nombre:

Formula

Esa ecuación dice que cerca del cero absoluto se paran las reacciones y que aceleran fuertemente al aumentar la temperatura.

 

Elevada disponibilidad de servicio

Nuestro equipo será menos fiable conforme aumenta la temperatura pero, ¿cómo hacer que sea más fiable? No podemos luchar contra las leyes de la física, pero sí podemos tomar las mejores decisiones de ingeniería contando con ellas. Además de hacer caso a los manuales cuando indican “no cubra las ranuras de ventilación” o “instale el equipo en un lugar alejado de fuentes de calor”, podemos mejorar la fiabilidad del sistema y entonces hablamos de disponibilidad del servicio (service availability), que es en definitiva lo que importa.

 

Redundancia de los equipos

En un router o switch podemos duplicar uno de los elementos que tiene mayor tasa de fallo, como es la fuente de alimentación. La probabilidad de que falle una fuente en un intervalo t es:

power supply

Esta función vale 0 en t=0 pero su derivada vale

Other formula

El equipo dejará de funcionar si fallan ambas fuentes. La probabilidad de que esto suceda será el cuadrado de la expresión anterior:

Source formula

Como en el caso anterior, esta función vale 0 en t=0. Pero, sin embargo, su derivada también vale 0 en el origen.

Formula 2

Fuente: Ricardo Saiz

Con dos unidades trabajando en paralelo, pero sólo una imprescindible, la tasa de fallos sigue una curva muy diferente. Sobre todo en plazos de tiempo cortos en comparación con el MTBF. Veámoslo con un sencillo ejemplo.

Tenemos una fuente de alimentación con un MTBF de 200.000 horas. ¿Cuál es la probabilidad de que se averíe a lo largo de un año?

MTBF

200.000 horas pueden parecer mucho tiempo pero con un 4,3% de probabilidad se averiará en el primer año de uso. Si tenemos un parque de 23 equipos sufriremos en promedio una avería por año, con el consecuente corte del servicio.

Si montamos dos fuentes trabajando de manera redundante la probabilidad de un fallo crítico a lo largo de un año es:

formula 3

Ahora la probabilidad será de solamente el 0,18%.

Si además conectamos cada fuente a un circuito eléctrico independiente, por ejemplo de UPS, obtenemos otra ventaja porque será mucho más improbable que un corte de luz nos deje temporalmente sin servicio.

Si nuestro equipo envía un aviso al administrador de la red cuando detecta un fallo, se podrá sustituir el dispositivo averiado en un plazo corto. Idealmente antes de que surja un segundo fallo que ya sí sería crítico.

La disponibilidad del servicio combinando redundancia con una diligente detección y subsanación de fallos es altísima. Esto es por lo improbable que resulta, después de que surja un fallo, tener otro durante el periodo, presumiblemente del orden de horas o pocos días, en que se tarde en reparar el equipo. Podemos entenderlo gráficamente porque nos movemos en la zona plana de la línea de color gris, o como veíamos antes, donde la derivada es casi cero.

formula 4

Fuente: Ricardo Saiz

 

Conclusión de MTBF y más

Equipos Teldat como la nueva generación de switches, algunos de ellos dotados de fuentes de alimentación redundantes para los casos más exigentes, ofrecen cifras de MTBF de entre 500.000 y un millón de horas. Así mismo, con los equipos destinados a escenarios especiales como los ferroviarios, realizamos un riguroso análisis de Reliability, Availability, Maintainability and Safety (RAMS). Mediante el Fault Tree Analysis (FTA) podemos identificar los posibles fallos, asegurar modos de funcionamiento alternativos en caso de fallos simples. Y de ese modo, obtener unas cifras de disponibilidad de servicio cercanas al 100%.

Related Posts