You are on page 1of 156

Genaro Mosquera Castellanos

José de Jesús Rivero Oliva


Jesús Salomón Llanes
Conrado Valhuerdi Debesa
Antonio Torres Valle
Manuel Perdomo Ojeda

CENTRO DE ALTOS ESTUDIOS GERENCIALES ISID


Caracas, Venezuela 1995
DISPONIBILIDAD Y CONFIABILIDAD
DE SISTEMAS INDUSTRIALES

CENTRO DE ESTUDIOS GERENCIALES


INSTITUTO SUPERIOR DE INVESTIGACION Y DESARROLLO
Caracas - Venezuela.
Mayo de 1995
Copyright, 1995.
ISBN 980 00 0889 6
2ª. Edición Adaptada como
herramienta computacional.

Centro de Altos Estudios Gerenciales ISID

Empresa de la Fundación Educativa “María Castellanos”


Femaca e-mail: femaca@telcel.net.ve

En asociación con Cybercentrum Las Mercedes C.A.


y Edukami U.S.A.
INDICE

1.1. CONSIDERACIONES GENERALES. ................................................................................................................... 8

1.2. COSTOS ASOCIADOS............................................................................................................................................ 9

1.3. PARÁMETROS DE MANTENIMIENTO. .......................................................................................................... 10

2.1. CONFIABILIDAD. ................................................................................................................................................. 12


2.1.1. Indices cuantitativos de confiabilidad. ......................................................................................................... 14
2.1.2. Relaciones entre los índices cuantitativos de confiabilidad. ........................................................... 17
2.1.3. Variación de la confiabilidad de los elementos en función del tiempo. ...................................................... 19
2.2. DISTRIBUCIONES DE PROBABILIDAD DE LAS FALLAS DE LOS COMPONENTES DE UN
SISTEMA. ...................................................................................................................................................................... 22
2.2.1. Distribuciones de probabilidad de Fallas. ................................................................................................... 22
2.3. BASES DE DATOS DE CONFIABILIDAD. ....................................................................................................... 33
2.3.1. El teorema de Bayes y la confiabilidad. ....................................................................................................... 33
2.4. TIPOS DE COMPONENTES. EXPRESIONES PARA LA EVALUACIÓN DE SU CONFIABILIDAD.
......................................................................................................................................................................................... 36

3.1. TÉCNICA DE ÁRBOLES DE FALLAS. ............................................................................................................. 45

4.1. ANÁLISIS DE IMPORTANCIA Y DE SENSIBILIDAD. .................................................................................. 73


4.1.1. Análisis de importancia. ............................................................................................................................... 73
4.1.2. Análisis de Sensibilidad por indisponibilidad media. .................................................................................. 80
4.2. ANÁLISIS DE INDISPONIBILIDAD INSTANTÁNEA. ................................................................................... 83
4.2.2. Análisis de sensibilidad por indisponibilidad instantánea. .......................................................................... 87
4.2.3. Análisis en puntos aislados del tiempo. ........................................................................................................ 94
5.1. CONTROL DE CONFIGURACIÓN. ................................................................................................................... 96

5.2. PRIORIZACIÓN POR MANTENIMIENTOS. ................................................................................................... 98

5.3. PRIORIZACIÓN POR AOT. ................................................................................................................................ 99

5.4. OPTIMIZACIÓN DE ESPECIFICACIONES TÉCNICAS. .............................................................................. 99

5.5. OPTIMIZACIÓN DEL MONITOREO. ............................................................................................................. 100

5.6. OPTIMIZACIÓN DEL INVENTARIO DE PIEZAS DE REPUESTO........................................................... 100

5.7. ESTUDIO DE LA INFLUENCIA DEL ENVEJECIMIENTO DE LOS COMPONENTES SOBRE LA


DISPONIBILIDAD DE LA INSTALACIÓN............................................................................................................ 101

5.8. INDICADORES BASADOS EN RIESGO. ........................................................................................................ 101

5.9. APS DINÁMICO. ................................................................................................................................................. 102


6.1. PREPARACIÓN DEL ESTUDIO DE APS PARA SU INTRODUCCIÓN A LA INDUSTRIA. .................. 104

6.2. DESARROLLO DE UN EJEMPLO PRÁCTICO UTILIZANDO EL SISTEMA ARCON. ........................ 105


6.2.1. Descripción de la tarea. ............................................................................................................................. 105
A.1. PAPEL DEL ANÁLISIS DE DATOS EN LOS ANÁLISIS DE CONFIABILIDAD. ................................... 123
A.2.1. MODOS DE FALLA............................................................................................................................................ 123
A.2.3. MODELOS DE COMPONENTES........................................................................................................................... 129
A.3. BASES DE DATOS ............................................................................................................................................... 131
C.1. INTRODUCCIÓN................................................................................................................................................... 141
C.2. PROPÓSITO DEL FMEA....................................................................................................................................... 142
C.3. REQUISITOS PARA EJECUTAR UN FMEA. ............................................................................................................ 142
C.4. PASOS DEL ANÁLISIS........................................................................................................................................... 143
C.5. FORMATO DE PRESENTACIÓN DEL ANÁLISIS. ...................................................................................................... 143
D.1. INTRODUCCIÓN. ................................................................................................................................................. 145
D.2. TRATAMIENTO DE LAS FALLAS DEPENDIENTES. .................................................................................................. 145
D.3. CONSIDERACIÓN DE LAS FALLAS DEPENDIENTES EN LOS MODELOS DE SISTEMAS. .......................................... 151
PROLOGO
Dentro del marco de un convenio suscrito entre la Universidad Nororiental Gran Mariscal
de Ayacucho y el Instituto Superior de Ciencia y Tecnología Nucleares, se ha
instrumentado un proyecto de investigación y desarrollo tecnológico en el área de
Ingeniería de Mantenimiento, Como consecuencia de dicho desarrollo, y dentro de los
acuerdos de cooperación institucional, se ha venido trabajando en un sistema de
medición de parámetros de mantenimiento, dentro de los cuales destacan los aspectos
teóricos y aplicados de la teoría de confiabilidad y esquemas asociados a los sistemas
gerenciales de mantenimiento industrial.

Los aspectos mencionados fueron conceptualizados y aplicados a una variada gama de


sistemas industriales, dando origen a paquetes computacionales, preparados para la
formación profesional de los ingenieros en el campo del mantenimiento y de los aspectos
probabilísticos de seguridad industrial. Sus aplicaciones condujeron a la creación de un
sistema preparado en ambiente de computadoras personales, soportados en un esquema
interactivo. Su trabajo requirió la revisión de los aspectos conceptuales en el campo de la
Ingeniería, Estadística e Informática, lo cual condujo a la preparación de los manuales de
operación de los sistemas y a la elaboración de un textos que recogiesen los esquemas
teóricos con sus respectivas aplicaciones, cumpliendo el doble propósito de sistematizar
las investigaciones y desarrollos tecnológicos y, al mismo tiempo, contribuyera a
proporcionar una guía para el estudio a nivel profesional de pregrado y postgrado, de un
tema que adquiere enorme importancia en la industria moderna.

Todos los paradigmas incluidos en el texto corresponden a la propuesta innovadora de un


grupo de profesores, especialistas en diversas disciplinas técnicas, de cuyo esfuerzo se
pudo lograr un verdadero aporte científico que, sin lugar a dudas, redunda en beneficio de
los ingenieros y especialistas en ingeniería de mantenimiento industrial. La interdisciplina
funcionó en este libro, no sólo como elemento de complementariedad profesional entre
los autores, sino que pudo traducir de manera armónica los esfuerzos internacionales
entre dos universidades para el bien común de nuestros pueblos, y seguramente de otras
latitudes latinoamericanas. Cabe destacar como el esfuerzo de la comunidad científica
internacional puede concretar tan rápidamente la experticia de sus profesionales, si en el
ánimo de sus líderes los objetivos estratégicos se conciben adecuadamente. En este
sentido, debe destacarse el esfuerzo interistitucional de la Dra. Elizabeth de Caldera,
Ministra de Educación de Venezuela en 1993, con su visión e iniciativa, juntaron el
esfuerzo de dos instituciones representadas por el Dr. Edwin Pedrero González, Rector
del Instituto Superior de Ciencia y Tecnología Nucleares y el Dr. Genaro Mosquera,
Rector de la Universidad Gran Mariscal de Ayacucho. Esta iniciativa produjo una relación
poderosa en el campo de la creación de conocimientos y del intercambio tecnológico de
dos pueblos, los cuales se tradujeron en aportes concretos del desarrollo profesional
gerencial.

Este esfuerzo se hizo posible con el concurso de los autores del libro: Genaro Mosquera,
José de Jesús Rivero, Jesús Salomón, Conrado Valhuerdi, Antonio Torres y Manuel
Perdomo. Alrededor de ellos, un entusiasta grupo de colaboradores en las respectivas
instituciones permitió darle forma a tan particular tema de investigación; en Venezuela,
vale la pena destacar a los ingenieros Luis A. Martínez y Carlos Alezones quienes desde
la Gerencia de Sistemas y la Escuela de Ingeniería de la Universidad, permitieron
concretar este proyecto de publicación en beneficio de tantos usuarios de nuestras
universidades y de la comunidad profesional y científica internacional.

Los autores de esta obra desean manifestar público reconocimiento al Ing. José Guillermo
Nápoles (g), a quien se debe el inicio de los estudios de APS en América Latina y el
desarrollo del sistema computarizado ARCON.

Marzo de 1995.
I. Gerencia de los sistemas de mantenimiento.
1.1. Consideraciones generales.

Las aplicaciones científico-tecnológicas han derivado en los últimos años en una


proporción significativa hacia la Gerencia, tomando un enfoque cuantitativo sustentado
en el desarrollo de modelos estadístico matemáticos. Dentro de este marco general, la
Gerencia Técnica ha adquirido un enorme impulso, apoyada particularmente por el
procesamiento de datos a gran velocidad, utilizando los ordenadores electrónicos los
cuales son hoy en día de gran versatilidad, especialmente las computadoras personales.

La gerencia de mantenimiento ha venido transformándose en una actividad cada vez


más importante dentro de los complejos industriales y ha adquirido en los últimos
años importancia vital, para lograr que las instalaciones y equipos sean mantenidos en
las mejores condiciones operacionales dentro de un ambiente de óptimo costo. El
análisis y estudio de las relaciones globales dentro de una organización y de su entorno
requieren de experticias específicas examinando variados factores, entre los cuales
está la misma organización estructural, el uso de los recursos materiales y financieros,
la operación de los sistemas, el control de los costos, y el soporte logístico y técnico
asociado.

Dentro de ese marco referencial, y ante la diversificación técnica, producto de la


diversidad tecnológica y organizacional de los complejos industriales, los sistemas de
mantenimiento han adquirido un enfoque especializado, soportado sobre desarrollos
tecnológicos que los han convertido, para la Administración del Mantenimiento, en
herramientas absolutamente necesarias para la dirección global de dichas
organizaciones. El perfil de las mismas se ha hecho cada vez más complejo ya que la
tendencia es la estar integradas por equipos generalmente grandes, variados, ubicados
en diferentes frentes de las cadenas de producción, con operaciones automatizadas
y vinculadas a sistemas logísticos para el reabastecimiento de insumos cada día más
sofisticados en su manejo y operación. A estos aspectos se une la experticia
profesional y artesanal, lo cual requiere programas de capacitación y entrenamiento
continuos.

Los elementos mencionados hacen aparecer a la función de mantener como una


actividad dinámica donde actúan gran cantidad de variables y relaciones funcionales,
dentro de un esquema de aleatoriedad que caracteriza al sistema de mantenimiento.
En 1967, el Dr. Howard Finley (1) introdujo el concepto de Efectividad de un
Sistema como método para modelar las actividades del mantenimiento a objeto de
optimizar su gerencia, en este sentido lo definió como:

"La probabilidad que un sistema opere a toda capacidad durante un período de tiempo
determinado"
1.2. Costos asociados.

El concepto de efectividad de un sistema fue asociado a las variables de costo


involucradas en el sistema y consecuencialmente se definieron los conceptos de costo
directo de mantener, costo redundante y costo de penalización.

El concepto de costo directo de mantener se refiere a la totalidad de los costos


necesarios para mantener los equipos operables incluyendo los servicios,
reparaciones, inspección y reparaciones mayores. Con relación al costo redundante, éste
se refiere a un costo adicional por la condición de mantener equipos en espera, para
ponerlos en funcionamiento cuando el equipo principal sale de servicio. Por último el
costo de penalización se refiere a las pérdidas de producción, cuando los equipos
primarios salen de servicio y no existen equipos en espera.

Las interacciones funcionales de los costos mencionados son sumamente complejas;


pero en todo caso, la gerencia define su esquema de actuación conducente a
identificar la mejor combinación de los subsistemas asociados al sistema, a objeto de
minimizar el costo total de la operación y a optimizar los esfuerzos de mantener un
complejo industrial en particular en la mejor condición operacional, dentro de un tiempo
determinado.

El esfuerzo de mantener en primer lugar, está asociado de manera directa al tiempo


fuera de servicio de una instalación; al efecto, el costo total resultante en la operación
es relación directa al esfuerzo de mantener. Por lo tanto, a mayor esfuerzo se
comprometen recursos económicos y materiales, razón por la cual se incrementará
funcionalmente el tiempo fuera de servicio. Se desprende de esta consideración que
por mucho esfuerzo realizado el costo no necesariamente será el óptimo, es más, se
podrá incluso hacer anti-económico.

Por otro lado, la caída de un sistema por fallas del mismo o de sus componentes,
inducirá un costo de penalización como consecuencia de la pérdida del valor de la
producción no colocada en los mercados o comprometida; así se desprende que este
costo está exponencialmente asociado al tiempo fuera de servicio y que sumarizado con
el costo de mantener determina que el costo directo de mantener se incremente. El
costo total, función a su vez del esfuerzo de mantener, tendrá un entorno óptimo, que
habrá que determinar técnicamente con la ayuda del análisis de los parámetros de
mantenimiento los cuales contribuyen a mantener la efectividad del sistema preparado
para su operación en un período de tiempo determinado.

El concepto de sistema se define de la manera siguiente:

"el conjunto de elementos discretos o componentes que interactúan para el cumplimiento


de una función determinada".
1.3. Parámetros de mantenimiento.

La efectividad de un sistema, es función de dos conceptos muy importantes dentro de


un enfoque cuantitativo de análisis de la función de mantenimiento: se trata del
concepto de disponibilidad.

El concepto de disponibilidad se define como:

"la probabilidad que un sistema, subsistema o equipo este disponible para su uso
durante un tiempo dado".

Esta probabilidad, asociada a la probabilidad de tener sistemas, sub-sistemas o equipos


instalados con una redundancia determinada, al estar disponibles para su
funcionamiento cuando el sistema, subsistema o equipo sale de servicio, permite la
obtención de una relación funcional que determina el comportamiento de la
Efectividad del sistema.

El concepto de disponibilidad como medida probabilística de que un sistema esté


disponible a requerimiento del sistema operativo, es de extraordinaria importancia
para la gerencia de mantenimiento. El complemento de este concepto o
indisponibilidad de un sistema, subsistema o equipo, se utilizará con frecuencia en los
análisis de mantenimiento por la forma práctica que toma el concepto en las aplicaciones
computarizadas.

La disponibilidad como parámetro de mantenimiento a su vez es función de dos


elementos muy importantes: en primer lugar de la confiabilidad de un sistema,
subsistema o equipo y en segundo lugar de la mantenibilidad. El primer elemento se
define técnicamente de variadas maneras.

Conejero (2) la define como:

"la característica de un elemento expresada por la probabilidad que cumpla sus


funciones específicas durante un tiempo determinado cuando se coloca en las
condiciones del medio exterior".

Finley (3) la define como:

"la probabilidad que un equipo no falle mientras esté en servicio durante un período de
tiempo dado".

Por último, Valhuerdi y Quintero (4) la definen como:

"la propiedad de un sistema de cumplir las funciones para él previstas, manteniendo


su capacidad de trabajo bajo los regímenes y condiciones de explotación prescritos y
durante el intervalo de tiempo requerido".
El segundo elemento, es decir, mantenibilidad se define como:

"la probabilidad que un sistema, subsistema o equipo que ha fallado pueda ser
reparado dentro de un período de tiempo determinado".

La determinación de los parámetros confiabilidad y mantenibilidad son determinantes


para calcular la disponibilidad de un sistema, sub-sistema, equipo, parte o pieza de una
estructura industrial. Ello proporciona los datos fundamentales para el análisis de la
función de mantener y de una gerencia efectiva, dentro de un ambiente de sistema
total que genera gran cantidad de información técnica y que requerirá de evaluación
permanente con ayuda de sistemas computarizados. Este sistema total esta
conformado por multitud de factores gerenciales, entre los cuales destacan: la
organización, y las políticas, y procedimientos, tales como: control de trabajos, control de
costos y reportes gerenciales.

A un mayor esfuerzo en el conocimiento de los indicadores de la gestión de mantener,


habrá entonces correlativamente mayor efectividad del sistema, asociado a menores
costos de penalización y costos totales mínimos; para tales propósitos, se desprende la
necesidad de un monitoreo constante de los parámetros de mantenimiento mediante
un sistema de información y de cálculo de variables, utilizando modelos estadístico
matemáticos que sirva de apoyo técnico para la planeación y programación de las
acciones de mantener.
II. Confiabilidad de componentes.
2.1. Confiabilidad.

A modo de introducción, abordaremos brevemente los conceptos y términos principales


de la teoría de confiabilidad de componentes y sistemas.

ƒ Sistema: Conjunto de elementos discretos o componentes que interactúan para


el cumplimiento de una función determinada. Subconjuntos de estos componentes
pueden, a su vez, denotarse como subsistemas.

Los conceptos de sistema y subsistema son conceptos relativos y dependen de la


función que sea objeto de estudio. De acuerdo con la función que se defina pueden
variar los límites considerados del sistema y los subsistemas. Lo que en un estudio es
sistema, puede que en otro sea subsistema. De igual forma, la definición de los
elementos discretos o componentes de un sistema también es relativa y depende del
grado de detalle con que queramos descomponer el sistema para su estudio y, en
última instancia, de las posibilidades que ofrezca la base de datos disponible. Así, en
el caso de un sistema de enfriamiento, uno de los componentes podría ser la bomba,
mientras que si disponemos de los datos necesarios, la bomba podría en otro
caso considerarse como sistema y sus piezas como componentes.

ƒ Confiabilidad: Es la propiedad de un sistema (elemento, componente o pieza) de


cumplir las funciones para él previstas, manteniendo su capacidad de trabajo bajo los
regímenes y condiciones de explotación prescritos y durante el intervalo de tiempo
requerido. Dicho de otra forma, la confiabilidad es la propiedad del sistema de
mantenerse sin experimentar un suceso de falla durante el tiempo y las
condiciones de explotación establecidos.

ƒ Falla: Suceso después del cual el sistema tecnológico deja de cumplir (total o
parcialmente) sus funciones. La falla es la alteración de la capacidad de trabajo
del componente o sistema.

Las fallas pueden ser clasificadas de acuerdo con una serie de índices, que se
recogen de manera general en la tabla 2.1.1.

La falla catastrófica conduce a la alteración de la capacidad de trabajo. A este tipo de


falla corresponden la ruptura y el cortocircuito; las fracturas, deformaciones y
atascamiento de las piezas mecánicas, etc. Las fallas paramétricas son fallas
parciales que conllevan a una degradación de la capacidad de trabajo, pero no a su
interrupción total.

Las fallas, como hechos casuales, pueden ser independientes o dependientes. Si la


falla de un elemento cualquiera de un sistema no motiva la falla de otros elementos,
éste será un hecho o acontecimiento independiente. Si la aparición de la falla en un
elemento o si la probabilidad de ocurrencia de la falla ha cambiado con la falla de otros
elementos, esta falla será un hecho dependiente. Análogamente se definen como
dependientes o independientes las fallas de sistemas con respecto a las de otros
sistemas.

Indice de clasificación Tipos de fallas


Según el grado de influencia en la capacidad de trabajo catastrófica
paramétrica
Según la influencia de fallas de otros elementos independiente
dependiente
Según el carácter de su proceso de aparición repentina
gradual
estable
Según el tiempo de permanencia del estado fallado temporal
Intermitente
Según el momento en que se manifiesta de interrupción
de bloqueo
Según la forma de su detección revelable
oculta
primaria
Según la naturaleza de su origen o causas secundaria
comando
modo común

Tabla 2.1.1. Clasificación de las fallas.

Las fallas repentinas (inesperadas) aparecen como consecuencia de la variación


brusca (catastrófica) de los parámetros fundamentales bajo la acción de factores
casuales relacionados con defectos internos de los componentes, con la alteración de
los regímenes de funcionamiento o las condiciones de trabajo, o bien con errores del
personal de servicio, etc. En las fallas graduales se observa la variación suave de los
parámetros debido al envejecimiento y al desgaste de los elementos o de todo el sistema.

Las fallas estables son aquellas que se eliminan sólo con la reparación o la
regulación, o bien sustituyendo al elemento que falló. Las fallas temporales
pueden desaparecer espontáneamente sin la intervención del personal de servicio
debido a la desaparición de los motivos que la provocaron. Las causas de tales fallas
frecuentemente son los regímenes y condiciones de trabajo anormales. Las fallas
temporales que se repiten muchas veces se denominan intermitentes o alternantes.
Ellas atestiguan la existencia de anormalidades en la calidad del equipamiento o en
regímenes y condiciones de trabajo.

Las fallas de interrupción son las que se producen en el equipamiento en


operación interrumpiendo su trabajo. Las fallas de bloqueo impiden el arranque o puesta
en funcionamiento de sistemas o componentes sobre la demanda, es decir, bloquean
la puesta en funcionamiento de sistemas que están a la espera.
Las fallas revelables son aquellas que se revelan al personal de operación
inmediatamente después de su ocurrencia porque sus efectos se manifiestan
directamente en los parámetros de funcionamiento de la instalación tecnológica o se
detectan a través del sistema de control. Se trata de fallas de sistemas en
funcionamiento, o a la espera con control de sus parámetros. Las fallas ocultas no se
revelan al personal de operación por ninguna vía en el momento de su ocurrencia, pero
la condición de falla permanente está latente hasta ser descubierta por una prueba o
sobre la demanda de operación del sistema en cuestión. Se trata, por tanto, de fallas de
sistemas que trabajan a la espera.

Las fallas primarias son intrínsecas del elemento y responden a sus características
internas. Las fallas secundarias son debidas a condiciones ambientales o tensiones
operativas excesivas impuestas a un elemento desde el exterior. Las fallas comando son
las originadas por la operación indebida o la no operación de un elemento iniciador
(elemento que controla o limita el flujo de energía que llega al elemento considerado).
Dentro de las fallas secundarias y comando se pueden definir las fallas modo o causa
común que son aquellas en que fallan varios elementos, producto de una misma causa.

2.1.1. Indices cuantitativos de confiabilidad.

Entre los parámetros fundamentales que caracterizan la confiabilidad de elementos y


sistemas se tienen los siguientes:

ƒ Probabilidad de trabajo sin fallas o probabilidad de supervivencia: es la


probabilidad de que en un intervalo de tiempo prefijado (o en los límites de las horas
de trabajo dadas) con regímenes y condiciones de trabajo establecidos no se
produzca ninguna falla, es decir, la probabilidad de que el dispositivo dado
conserve sus parámetros en los límites prefijados durante un intervalo de tiempo
determinado y para condiciones de explotación dadas. La denotaremos por Ps(t).

De esta definición se infiere que la probabilidad de supervivencia es el índice a


través del cual se cuantifica la confiabilidad de un sistema o elemento técnico. La
cuantificación de la confiabilidad como una probabilidad está determinada por el carácter
aleatorio del suceso al que está referida (aparición de la falla). Dicho suceso, aunque
aleatorio, está condicionado por factores de diseño, calidad de la ejecución y
explotación, etc., cuya influencia se refleja en su probabilidad. Por tanto, la influencia
de estos factores sobre la confiabilidad también es susceptible de cuantificar.

ƒ Probabilidad de falla: es la probabilidad de que en un intervalo de tiempo


prefijado se produzca al menos una primera falla. La denotaremos por Pf(t). Puesto
que el trabajo defectuoso y el trabajo sin fallas son sucesos complementos, tendremos
que:
Pf(t) = 1 - Ps(t) [2.1.1]

Desde el punto de vista matemático Ps(t) y Pf(t) constituyen funciones de distribución


acumulada.

ƒ Densidad de fallas: es el número de fallas por unidad de tiempo, referido a la


cantidad inicial de elementos de un lote o muestra dada N0. Se representa por f(t).
Así:

dN/dt
f(t) = --  [2.1.2]
N0

donde: N(t) es el número de componentes que no han fallado


(se encuentran operables) al cabo de un tiempo t

N0 es el número inicial de elementos de la muestra en estudio

- dN es el diferencial de elementos que fallan en el intervalo (t, t+dt)

Tomando en cuenta las definiciones anteriores de probabilidad de supervivencia y


probabilidad de falla, resulta evidente que:

N(t)
Ps(t) =  [2.1.3]
N0

N0 - N(t)
Pf(t) = - [2.1.4]
N0

Por tanto, la densidad de fallas puede expresarse en función de Ps(t) o Pf(t), de la forma
siguiente:

dPf(t) dPs(t)
f(t) =  = -  [2.1.5]
dt dt

La densidad de fallas representa así la función de densidad de probabilidad asociada


a la función de distribución acumulada Pf(t), por ello también se conoce como
función de densidad de probabilidad de falla (o de la primera falla).

Intensidad de fallas o rata de fallas: es el número de fallas por unidad de tiempo,


referido al número de elementos que se encuentran operables en el instante t, y se
denota por R(t).
Así:
dN/dt
R(t) = - -- [2.1.6]
N(t)

Si expresamos [2.1.2] como:

dN/dt N(t)
f(t) = -  • 
N(t) N0

resulta que

f(t)
R(t) =  “ [2.1.7]
Ps(t)

Sustituyendo [2.1.5] en [2.1.7] y tomando en cuenta [2.1.1], la rata de fallas también


puede expresarse como:

Ps'(t) Pf'(t) f(t)


R(t) = -  =  =  [2.1.8]
Ps(t) 1 - Pf(t) 1 - Pf(t)

La intensidad o rata de fallas se expresa cuantitativamente en unidades de tiempo


inversas (por lo general horas inversas: 1/h) y se puede interpretar como la probabilidad
de que el elemento falle por unidad de tiempo a partir de un instante de tiempo t dado,
con la condición de que no haya fallado hasta dicho instante. De ahí que esta
magnitud también se identifique como rata de fallas condicional.

- Tiempo medio de operación o servicio (tiempo medio de trabajo sin fallas): número
medio de horas de trabajo de un componente hasta la primera falla. Lo denotaremos
como TMS (tiempo medio de servicio). Este se puede hallar aproximadamente como:

N
Σ ti
i=1
TMS =  [2.1.9]
N

Donde: ti es el tiempo de trabajo sin fallas del i-ésimo elemento.

N es el número de elementos del lote de componentes


con que se experimenta.

Mientras mayor es el número N, más calidad estadística tiene la valoración y mayor es


la precisión del valor determinado para TMS.

-Tiempo medio de reparación o tiempo promedio para reparar: es el tiempo medio, en


horas, de duración de la reparación de un elemento después de experimentar una falla.
El valor aproximado del tiempo promedio para reparar (TPPR) podemos hallarlo
mediante
la expresión:

K
Σ ti
i=1
TPPR =  [2.1.10]
K

Donde:

K es el número de fallas del elemento dado durante el tiempo de ensayo u


observación
ti es el tiempo de duración de la reparación después de la falla i.

La rata de reparación µ se define como el inverso de TPPR:

1
=
µ 
TPPR

2.1.2. Relaciones entre los índices cuantitativos de confiabilidad.

- Relación entre la rata de fallas R(t) y la probabilidad de supervivencia Ps(t).

Si integramos la expresión [2.1.8] como función de Ps(t) en los límites de 0 a t


obtenemos:
t
∫ 0
R (τ )d τ = − [ ln Ps ( t ) − ln Ps ( 0 )]

considerando que para t=0, Ps(0)=1 (componente como nuevo), resulta:


t
ln Ps ( t ) = − ∫ R ( τ ) d τ
0
o sea:

t
Ps ( t ) = Exp ( − ∫ R ( τ ) d τ ) [2.1.11]
0

para: R(t) = const. = R

Ps(t) = EXP(-Rt) [2.1.12]

Por último, aplicando [2.1.1] se obtiene:

Pf(t) = 1- EXP(-Rt) [2.1.13]”

- Relación entre la densidad de fallas f(t) y la probabilidad de supervivencia Ps(t).

Si integramos [2.1.5] se obtienen las siguientes expresiones:

t
Pf(t) = ∫ f (τ)dτ [2.1.14]
0
t [2.1.15]
Ps(t ) = 1 − ∫ f (τ)dτ
0

- Relación entre la densidad de fallas f(t) y la rata de fallas R(t).

De [2.1.7] se obtiene:
f(t) = R(t).Ps(t)
y sustituyendo Ps(t) por [2.1.11] arribamos a:

t
f (t ) = R (t ).Exp(− ∫ R(τ )dτ ) [2.1.16]
0

- Relación entre el tiempo medio de servicio y la rata de fallas.


El TMS se determina como el valor esperado del tiempo t hasta la falla, que sigue una
función de densidad de probabilidad f(t). Así pues, su expresión general será:

TMS = ∫ tf (t )dt
0

Sustituyendo f(t) en función de Ps(t) tomando en cuenta [2.1.5], resulta:


TMS = − ∫ Ps (t )dt
0

Cuando esta expresión se integra por partes se obtiene:


TMS = ∫ Exp(− Rt )dt
0

Consideremos el caso particular en que la rata de fallas es constante. Bajo estas


condiciones Ps(t) viene dada por [2.1.12] y [2.1.17] se transforma en:


TMS = ∫ tdPs (t ) [2.1.17]
0

de donde se obtiene finalmente:

TMS = 1/R [2.1.18]

Esta relación entre TMS y R (constante) es muy importante y determina que en la


práctica R y TMS sean usados indistintamente como datos de partida para los análisis de
confiabilidad.

2.1.3. Variación de la confiabilidad de los elementos en función del tiempo.

La curva de R(t) en función del tiempo para un elemento dado sigue en la mayoría de
los casos un comportamiento típico como el mostrado en la figura 2.1.1, que por su
forma característica recibe el nombre de "curva de la bañera". Esta curva puede
dividirse en tres partes. La primera parte es el período inicial de trabajo del elemento
donde pueden producirse fallas tempranas debido a deficiencias en el control de la
calidad. Los fabricantes acostumbran someter a prueba los elementos durante este
período para corregir tales fallas tempranas. La segunda parte se caracteriza por una
rata de fallas aproximadamente constante. En esta parte de la curva podemos
considerar las fallas como aleatorias e independientes del tiempo. Este es el período de
vida útil del elemento, al cual podemos asociar una distribución de probabilidad de falla
de tipo exponencial como la expresada por [2.1.13] La tercera parte de la curva, en la
que se produce un aumento sostenido de R(t) corresponde a la salida de servicio
acelerada de los elementos debido al desgaste y el envejecimiento.

Fig. 2.1.1. Comportamiento típico de la rata de fallas de un elemento.


Para el caso particular de sistemas de alta responsabilidad, como los sistemas de
seguridad de industrias de alto riesgo, las fallas tempranas tienden a ser aleatorias (R
constante) debido a los altos requerimientos del control de calidad, mientras que el
mantenimiento y reposición de componentes contribuyen a alargar el período de vida
útil, protegiendo los sistemas contra el desgaste y el envejecimiento. Por otro lado,
cuando los dispositivos fallan de forma no frecuente y son complejos y costosos, no
pueden ser realizadas muchas pruebas para caracterizar su confiabilidad. Solo
se pueden realizar estimaciones de R(t). Por ello, lo usual en los análisis de
confiabilidad y de cuantificación de la seguridad es asumir las fallas aleatorias, de
modo que R(t) es igual a un valor constante R.
Ello determina que la distribución de probabilidad más usada para la modelación de la
confiabilidad de componentes sea la distribución exponencial, caracterizada por las
expresiones [2.1.12] y [2.1.13]. Esta es la que se emplea por lo general en los análisis
de confiabilidad mediante árboles de fallas. Así, en la literatura internacional se
acostumbra a caracterizar la confiabilidad de componentes mediante valores de ratas
de fallas constantes expresadas en forma de fracciones simples o decimales que dan
la probabilidad de fallas por hora de trabajo.
En la tabla 2.1.2 se ilustran ratas de fallas típicas para algunos componentes de
sistemas industriales con índices elevados de confiabilidad y seguridad.
Componente [1/h]
Bombas 3E-6
Tuberías 1E-9
Diesels 8E-5
Válvulas 3E-6
Instrumentos 3E-7

Tabla 2.1.2. Ratas de fallas para algunos tipos de componentes de sistemas


industriales (5).
2.2. Distribuciones de probabilidad de las fallas de los
componentes de un sistema.

2.2.1. Distribuciones de probabilidad de Fallas.

A continuación se describen las distribuciones de probabilidad más frecuentemente


utilizadas para la descripción de fallas de componentes.
2.2.1.1. Distribuciones discretas.
Dos de las distribuciones discretas de probabilidad más útiles usadas en análisis
de fallas son las distribuciones binomial y de Poisson.

Dos parámetros de interés para cualquier distribución discreta de probabilidad P(x) de


una variable aleatoria x son la media M y la varianza V(x). Para N salidas posibles, la
media es definida como:

N
M = Σ x P(x) [2.2.1]
x=0

mientras la varianza, que mide la desviación de los valores alrededor de la media, es:

N
V(x) = Σ (x-M)2 P(x) [2.2.2]
x=0

- Distribución Binominal.

En el más simple de los sistemas hay sólo dos salidas, o el sistema funciona a la
demanda o falla. Estas dos probabilidades son complementarias por lo que:

P(D) = 1 - P(D) [2.2.3]

donde D es el suceso que representa el éxito y D la falla.

Supongamos que la actuación de un sistema no es conocida y que se va a realizar un


experimento consistente de N demandas o ensayos. Se especifica que las demandas
son independientes (ensayos Bernoulli) tal que P(D) es constante para cada ensayo.
Para describir el experimento con la distribución binominal es necesario que el orden
de los sucesos no afecte el resultado del experimento. Los posibles resultados
corresponden a los diferentes términos del desarrollo binomial de la ecuación.

[P(D)+P(D)]N = 1 [2.2.4]
Sea q = P(D) la probabilidad de falla e introduzcamos la variable aleatoria discreta x,
definida como el número de demandas para las que el sistema falla. Esta variable
sigue la distribución binomial, con parámetro q e índice N. La probabilidad de que
ocurran x fallas, es obtenida seleccionando al término apropiado del desarrollo binomial
de la ecuación [2.2.4] y tiene la forma:

N!
P(x) =  qx(1-q)N-x [2.2.5]
x! (N-x)!

Se puede demostrar que para la distribución binomial

M = Nq [2.2.6]

V(x) = Nq(1-q) [2.2.7]

Otra distribución de probabilidad obtenida de la [2.2.5] es la función de distribución


acumulada de que el sistema falle para Z o menos demandas. Se obtiene por adición
de los términos apropiados en el desarrollo de la Ecuación [2.2.4]:

Z
P(x ≤ Z)= Σ P(x) [2.2.8]
x=0

Así la probabilidad de que el sistema falle para Z+1 o más demandas sería, el
complemento de P(x>=Z),

Z
P(x > Z)= 1 - Σ P(x) [2.2.9]
x=0

La distribución binomial es usada en ingeniería de confiabilidad para describir un


componente único que opera a la demanda y puede ser reparado quedando en un
estado "como nuevo" inmediatamente después de que falla. Entonces P(x) es la
probabilidad de que el componente falle x veces en N demandas.

Una segunda aplicación de esta distribución para análisis de fallas se refiere al caso
de N componentes idénticos, con una probabilidad de falla q igual para todos. Entonces
P(x) describe la probabilidad de que fallen x de los N componentes del sistema.

- Distribución de Poisson.

La distribución de Poisson es similar a la binomial en el hecho de que describe


fenómenos para los cuales la probabilidad promedio de un suceso es constante e
independiente del número de sucesos previos. En este caso, sin embargo, el
sistema experimenta transiciones aleatoriamente desde un estado con N ocurrencias
de un suceso a otro con N+1 ocurrencias, en un proceso que es irreversible. Es decir,
el ordenamiento de los sucesos no puede ser intercambiado. Otra distinción entre las
distribuciones binomial y de Poisson es que para el proceso de Poisson el número de
sucesos posibles debe ser grande.

La distribución de Poisson puede ser deducida a partir de la identidad

EXP(-M).EXP(M) = 1 [2.2.10]

donde el número más probable de ocurrencias del suceso es M.

Si el factor EXP(M) es expandido en un desarrollo de series de potencias, la


probabilidad P(x) de que exactamente x ocurrencias aleatorias tengan lugar puede
inferirse como el x-esimo término en la serie, de donde se obtiene:

EXP(-M).Mx
P(x) =  x = 0,1,2,3,... [2.2.11]
x!

La media y la varianza de la distribución de Poisson son ambas iguales a M.

La función de distribución acumulada de que un suceso ocurra Z o menos veces, viene


dada por la expresión general [2.2.8], tomando en cuenta que P(x) en este caso se
describe mediante [2.2.11]. Así pues,

Z EXP(-M).Mx
P(x ≤ Z)= Σ  [2.2.12]
x=0 x!

Por supuesto la probabilidad de que un suceso ocurra Z+1 o más veces es el


complemento de [2.2.12], es decir, 1 - P(x>=Z).

La distribución de Poisson es útil para el análisis de la falla de un sistema que consta


de un número grande de componentes idénticos que al fallar causan transiciones
irreversibles en el sistema. Cada componente se asume que falla independientemente
y aleatoriamente. Entonces M es el número más probable de fallas del sistema
durante la vida útil.

2.2.1.2. Distribuciones continuas.

Para análisis de fallas los valores de la variable aleatoria tiempo hasta la falla se
encuentran en el intervalo [0,ì“]. En este caso el valor medio de una distribución está
dado por:

M = ∫ tf (t )dt
0 [2.2.13]

y la varianza


V = ∫ (t − M ) 2 f (t)dt [2.2.14]
0
- Las distribuciones de Erlang y Exponencial.

La distribución de Erlang es la forma dependiente del tiempo de la distribución discreta


de Poisson. Ella aparece frecuentemente en los cálculos de ingeniería de confiabilidad
que consideran fallas aleatorias, esto es, aquellas fallas para las que la rata de fallas
R(t) es una constante R. Su expresión puede deducirse a partir de la expresión
[2.2.11] hasta obtener finalmente la distribución de Erlang como:

R.(Rt)x-1.EXP(-Rt)
f(t)=  R>0 , x>0 [2.2.15]
(x-1)!

La distribución de Erlang es válida para un número entero de fallas x. El caso


particular más importante es para x=1, en el que se obtiene la distribución exponencial.

f(t)= R EXP(-Rt) [2.2.16]

La función de distribución acumulada de fallas para la distribución exponencial


es:

Pf(t)= 1 - EXP(-Rt) [2.2.17]

y los dos momentos son:

1 1
M =  , V(t) =  [2.2.18]
R R2

- Distribución Logaritmo normal.

La distribución logaritmo normal de una variable t es una distribución para la cual


el logaritmo de t sigue una distribución normal o gaussiana. La ecuación que
describe la distribución de probabilidad de falla en este caso se puede escribir como:

1 ln2 (t/β)
f(t)=  EXP(-) [2.2.19]
½
(2π) αt 2 α2

El parámetro à“ (adimensional) y el parámetro á“ (en unidades de tiempo) determinan


la forma de f(t).

La densidad de probabilidad de fallas se presenta en la figura 2.2.1 donde se puede


apreciar que la distribución es oblicua hacia la derecha comparada con la distribución
de Gauss, que es simétrica respecto a su valor medio. La oblicuidad se acentúa con
valores crecientes de α.

La función de distribución acumulada se halla integrando la expresión [2.2.19], de


donde se obtiene:

1
Pf(t) =  [ 1 – erf (z) ] para t<β
2

1
=  [ 1 + erf(z) ] para t>β [2.2.20]
2

donde Z se define como:

ln(t / β ) [2.2.21]
Z=

y erf es la función de error, que aparece tabulada.

La media y la varianza de la distribución logaritmo normal, obtenidas a partir de


[2.2.13] y [2.2.14] son:

M = β EXP( α2/2 )

V(t) = β2 EXP(α2 ) [ EXP(α2 ) - 1 ] [2.2.22]


Fig. 2.2.1. Densidad de probabilidad de fallas según la
distribución logaritmo normal.

La distribución logaritmo normal aparece en procesos en los que el cambio en una


variable aleatoria en el n-esimo paso es una proporción aleatoria de la variable en el
paso (n-1)-esimo. Es decir, la distribución logaritmo normal se emplea cuando la
variación está caracterizada por factores o porcientos. Así, si X representa una cantidad
que puede variar con un factor de error f, abarcando un rango de valores desde X0 /f
hasta X0 f, donde X0 es un punto medio de referencia dado, la distribución logaritmo
normal es la distribución adecuada para describir el fenómeno.

La distribución logaritmo normal se aplica con frecuencia para describir las fallas en los
análisis de confiabilidad y riesgo de sucesos raros (de baja probabilidad), en los que la
información estadística limitada hace que las ratas de falla varíen por factores. Por
ejemplo una rata de fallas estimada en 10-6/h puede variar de 10-5 a 10-7/h si el factor
de error es 10. Cuando la rata de fallas se expresa como 10-x, donde x es un cierto
exponente, el uso de la distribución logaritmo normal implica que el exponente satisface
una distribución normal. Así, se puede ver la distribución logaritmo normal como
apropiada para situaciones en las que hay incertidumbres grandes en los parámetros
de fallas.

Otra característica de la distribución logaritmo normal es que la oblicuidad para tiempos


mayores considera el comportamiento general de los datos para fenómenos poco
probables ya que la misma tiene en cuenta la ocurrencia de valores poco frecuentes
pero con una gran desviación, tales como ratas de fallas anómalas debido a defectos de
lotes de producción, degradación ambiental y otras causas.
- Distribución de Weibull.

La distribución de Weibull es una distribución de fallas muy general y ampliamente


difundida por su aplicabilidad a un gran número de situaciones diversas. La densidad de
fallas es:

k −1
K t  t [2.2.23]
f (t ) = Exp  − 
v  v   v

La función de distribución acumulada, el valor medio y la varianza, vienen dados


por las siguientes expresiones:

Pf(t) = 1 - EXP[-(t / v )K] [2.2.24]

M = v Γ(1 + K-1) [2.2.25]

V(t) = v2 {Γ (1 + 2K-1) - [Γ (1 + K-1)]2} [2.2.26]

donde Γ representa la función Gamma, que aparece tabulada.

La forma de la distribución depende primariamente del parámetro K, como se aprecia


en la figura 2.2.2. Para K=1, se obtiene la distribución exponencial, con rata de fallas R =
v-1. Al incrementarse K la distribución de Weibull tiende a la distribución normal
siendo ambas casi indistintas para K mayor que 4. Un caso particular es la distribución
de Rayleigh que se obtiene para K=2.

Las aplicaciones de la distribución de Weibull se pueden comprender más


fácilmente a partir de la expresión de la rata de fallas para esta distribución:

k −1
K t 
R(t ) =   [2.2.27]
v v 

Así pues, el modelo de Weibull es el apropiado para el ajuste de datos en los que la
probabilidad condicional de fallas R(t) satisface una ley de potencia del tiempo. Ratas
de fallas de este tipo se ilustran en la figura 2.2.3.
Fig. 2.2.2. Densidad de probabilidad de fallas según la distribución de Weibull.

Fig. 2.2.3. Rata de fallas según la distribución de Weibull.

La aplicación de la distribución de Weibull está sujeta a la cuantificación de los


coeficientes "v" y "k" cuyas magnitudes dependen de la serie histórica de los tiempos
de operación o corrida de un equipo o componente.
La cuantificación de los coeficientes o estimadores ha recibido importante atención de
Khirosi y Mieko, 1963; Johnson, 1964; C.Cohen, 1965; Weibull 1964 y Finley 1977
(6). A partir de los métodos de Cohen y la aplicación del Método de Máxima
Verosimilitud obtendremos soluciones aproximadas pero confiables de los coeficientes
"v" y "k" y a partir de allí derivar las estimaciones de la rata de fallas,
probabilidades de supervivencia y probabilidades de falla. Así mismo, evaluaciones
matemáticas del comportamiento de estos indicadores para diferentes períodos de
tiempo.

Sea la función de densidad de Weibull:

K t
f(t) = . t EXP [ - ()K ]
K-1
para t>0,K>0,v>0
vK v

Sea "L" la función de máxima verosimilitud, dependiente de una variable "A". La


solución de la ecuación consiste en estimar el valor de "A" para el cual "L" asume un
valor máximo.

Como "Log L" presenta un máximo al mismo valor de "A", la ecuación a resolver es:

dLog L
 = 0
dA

Donde la función de verosimilitud, según H. Kramer, de una muestra de n observaciones


es:

L(x1,x2,x3,...xn) = f(x1,A).f(x2,A).f(x3,A)...f(xn,A)

Si los valores de la muestra han sido dados y la función de "L" es de una variable "A",
la función de verosimilitud para la muestra completa utilizando la función de Weibull es:

N K ti
L(t1,t2,...tn) = Π . ti. EXP [- () K]
K-1
[2.2.28]
I=1 v K v

tomando logaritmo y derivando con respecto a V y K e igualando a cero tenemos:

δLn [L(ti,i=1...,n)] n.k k n ti


K
 = -  +  ⋅ Σ () = 0
δv v v i=1 v
δLn [L(ti,i=1...,n)] n n n ti ti
K
 = -  - nlnv+ Σ
i=1
ln ti + Σ
i=1
ln  ) = 0
(
δK K v v

Eliminando V y simplificando:

1 n 1 n n
K
 Σ ln ti = -  + Σ ti ln ti / Σ ti
n i=1 K i=1 i=1

nti K
v = [Σ  ] 1/K [2.2.29]
i=1
n

Por iteraciones sucesivas, al efecto, una estimación de "K" se puede obtener mediante el
método de Newton-Raphson cuya técnica numérica permite encontrar la raíz de una
función F(x), y eliminar el error asegurando el valor de "K". Bajo estas condiciones si
Ki es la aproximación de una raíz, una nueva estimación está dada por:

F(Ki)
Ki+1 = Ki -  F(Ki) ≠ 0 [2.2.30]
F'(Ki)

la función queda definida por:

1 1
F(k) = Σ (ti) .lnti -  Σ ti -  Σ lnti.ti K
K K

k n

1 1
F'(x) = Σ (ti) .(lnti) -  Σ lnti.ti +  Σ ti K -...
K 2 K

K K2

1
-  Σ ln ti Σ lnti.ti K [2.2.31]
n

donde:

Ki+1-Ki<e siendo e=error de aproximación.


Prefijado e se limita el proceso iterativo para el cálculo de k, calculado éste se calcula v
obteniendo la estimación por máxima verosimilitud de la función de Weibull. Con los
estimados correspondientes se obtienen la rata de fallas, probabilidad de falla, de
supervivencia y los estimados del promedio y la varianza. Los cálculos respectivos
han permitido la construcción de un modelo para obtener los parámetros de
confiabilidad, cuyo programa computarizado ha sido denominado PARAMAN.

A continuación definimos los datos de entrada, caracterizados por el tiempo de corrida al


estado entre la base de la hora y fecha de arranque del equipo y la fecha y hora de
parada caracterizando la razón de las fallas. Estos datos se convierten en variables xi de
la muestra, se ordenan de manera creciente y finalmente se suavizan
exponencialmente para mejorar en homogeneidad, logrado este aspecto se procede al
cálculo de los indicadores de confiabilidad y se disponen para la respectiva
simulación atendiendo a diferentes períodos de tiempo.

El modelo matemático computarizado PARAMAN, que forma parte de un Sistema de


Información Gerencial de Mantenimiento, calcula la probabilidad que un equipo se
encuentre en operación o sea reparado en un lapso determinado, a partir del
comportamiento mismo del equipo, el cual se caracteriza por los tiempos de
operación y los tiempos durante los cuales está detenido por reparación. La
distribución de los tiempos de operación y de parada se asocian a funciones
probabilísticas que permiten encontrar los parámetros de confiabilidad y mantenibilidad,
cuya combinación da origen a la disponibilidad y ofrece, además la posibilidad de
efectuar simulaciones sobre la base de diferentes períodos de tiempo.

El modelo PARAMAN determina la rata de fallas, el factor "k" que establece el ciclo de
vida del equipo, la edad característica de corrida, y evalúa las probabilidades de
supervivencia y de falla. Estos elementos entran en el cálculo de los tiempos medios
entre paradas y su respectiva varianza.

En el caso de mantenibilidad, se define la función de probabilidades que calcula


la posibilidad que un trabajo de mantenimiento se efectúe en un tiempo determinado,
la edad característica para reparar, su varianza y los tiempos medios.

Resumiendo, el modelo PARAMAN permite obtener:

- Historial de un componente, equipo o planta ( arranques,


paradas, causas de la parada)
- Probabilidades de supervivencia y falla
- Tiempos de operación entre arranque y falla
- Tiempos fuera de servicio
- Disponibilidad para cada corrida
- Tiempos medios entre fallas, fuera de servicio y
disponibilidad total
- Parámetros de Weibull (tiempo de corrida característico "v",
factor "k", desviación estándar del tiempo medio entre
fallas, rata de fallas)
- Parámetros de Gumbel (Factor de forma "A", tiempo
característico de parada "U")
- Probabilidades de falla y tiempos de reparación (calculados
por simulación para diferentes valores de tiempo)

En (7) podrá encontrar una información más detallada sobre el sistema PARAMAN.

2.3. Bases de datos de confiabilidad.

2.3.1. El teorema de Bayes y la confiabilidad.

La determinación experimental de datos de confiabilidad de componentes para una


industria en específico puede confrontar dificultades cuando las fallas son sucesos
raros. Por ello en ocasiones es necesario recurrir a datos de componentes similares en
otras industrias donde se disponga de una mayor estadística de fallas y hacer un
proceso de "ajuste" de estos a la experiencia de explotación de la instalación que se
analiza. Puede también darse el caso de datos genéricos para industrias de una
tecnología dada que se quieren ajustar a los componentes análogos de la tecnología
propia.

Para ello juega un papel importante el llamado Teorema de Bayes de la Teoría de las
Probabilidades.

- Teorema de Bayes.

Sea un espacio muestral S, dividido en N sucesos A1...AN mutuamente


excluyentes, tales que A1+A2+...+AN=S y otro suceso cualquiera B, subconjunto de S.
Entonces, de acuerdo con la definición de probabilidad condicional, tenemos que:

P(Ai.B) = P(Ai/B).P(B) = P(B/Ai).P(Ai)

Igualando el segundo y tercer miembros y despejando obtenemos:

P(Ai) P(B/Ai)
P(Ai/B) =  [2.3.1]
P(B)

Si P(B) se expresa a partir de los sucesos A1...AN, se obtiene finalmente la


expresión del Teorema de Bayes:
P(Ai) P(B/Ai)
P(Ai/B) =  [2.3.2]
N
ΣP(Ai) P(B/Ai)
i=1

La aplicación más importante de la expresión [2.3.2] en análisis de confiabilidad está


dirigida al ajuste de datos genéricos o de otras industrias, para ser utilizados en la
instalación propia, tomando en cuenta la estadística de fallas acumulada en esta
última. Esta aplicación se ilustra en el siguiente ejemplo.

Ejemplo 2.3.1: Supongamos que queremos estimar la rata de fallas de una bomba de
baja presión empleada en un sistema de enfriamiento. De la literatura internacional
conocemos que las ratas de fallas para bombas similares en otras industrias oscilan en
los órdenes 10-3, 10-4, 10-5 [1/h] . De la experiencia de explotación de la tecnología
propia se tiene que para una muestra dada de bombas del tipo analizado no se han
producido fallas durante 500 horas de trabajo en regímenes de prueba.

En este caso, adoptamos como sucesos Ai las ratas de fallas encontradas en la


literatura: A1 es el suceso rata de fallas igual a 10-3, A2 igual a 10-4 , A3 igual a 10-5, las
que serán nuestras hipótesis de partida.

El suceso B será el que nos aporta la experiencia propia: 500 horas de trabajo sin falla.
Si la rata de fallas fuese 10-3/h, la probabilidad de B (500 horas de trabajo sin fallas) sería:

P(B/A1) = (1 - 10-3 . )500

Siendo 10-3 la probabilidad de falla en una hora, 1-10-3 es la probabilidad de


supervivencia o de ausencia de fallas en una hora. Este último término, elevado a la
potencia 500, equivale a la probabilidad de que no se produzcan fallas en 500 horas,
considerando independientes entre sí los sucesos de no falla en cada hora, por lo cual,
se obtiene:

P(B/A1) =Exp(- 10-3 .500)= 0.6064

Cálculos similares permiten obtener los valores restantes de P(B/Ai) que se presentan
en la tabla 2.3.1. Estos valores contienen el dato de la experiencia propia que
combinado con las probabilidades P(Ai) asumidas de otras fuentes conducen a las
probabilidades condicionales P(Ai/B).

Si para las probabilidades P(Ai) se asume una distribución uniforme tal que P(Ai)=1/3,
aplicando [2.3.2] podemos hallar las probabilidades de que la rata da fallas de la bomba
de nuestra industria sea 10-3, 10-4 o 10-5 dada la evidencia B de que no se producen
fallas en 500h de trabajo. Estas son las probabilidades condicionales P(Ai/B) de la
tabla 2.3.1 para la distribución previa uniforme.
I 1 2 3

Ai 10-3 10-4 10-5

P(B/Ai) 0.6064 0.9512 0.9950

Distribución previa
uniforme

P(Ai) 0.3333 0.3333 0.3333


P(Ai/B) 0.2376 0.3726 0.3898

Distribución previa
no uniforme

P(Ai) 0.1 0.3 0.6


P(Ai/B) 0.0643 0.3026 0.6330

Tabla 2.3.1. Cálculos bayesianos para el ejemplo 2.3.1.

Si hubiésemos sido más realistas en nuestra primera estimación de P(Ai), como


muestra la distribución no uniforme de las probabilidades previas P(B/Ai) en la tabla
2.3.1, entonces, como puede apreciarse para el segundo caso de distribución previa no
uniforme, la introducción de la información B tiene menor efecto sobre los valores
previos P(Ai), pues se observa una mayor concordancia entre los valores de P(Ai) y
P(Ai/B).

Los resultados de la tabla 2.3.1 nos permiten concluir que para la bomba del ejemplo
2.3.1 debe adoptarse una rata de fallas entre 10-4 y 10-5, más próxima a 10-5, como
podría ser 3.10-5.

Una mayor certeza inicial podría obtenerse con un mejor conocimiento de las
características y condiciones de trabajo de las bombas cuyas ratas de falla se tabulan
en la literatura, lo que permitiría asociar mayores valores de probabilidad P(A) a las ratas
de aquellas cuyas características y condiciones de trabajo se asemejen más a la propia.

Así, el análisis bayesiano puede utilizarse para el ajuste de listados genéricos de


datos de partida para los análisis cuantitativos de confiabilidad y seguridad, lo cual
es muy frecuente en la práctica de realización de estos análisis.

Para más información sobre le análisis de datos vea el anexo A.


2.4. Tipos de componentes. Expresiones para la evaluación de su
confiabilidad.

Para la cuantificación de la confiabilidad de componentes nos basaremos en el


modelo exponencial, para el cual la rata de fallas es constante.

Al evaluar la confiabilidad de un componente es necesario tener en cuenta dos


aspectos. En primer lugar el régimen de trabajo bajo el cual se evalúa la confiabilidad,
lo cual determina el parámetro que la caracteriza, y en segundo lugar, la posibilidad de
restitución de la capacidad de trabajo del componente después de una falla, es decir, si
el componente es o no reparable, lo cual determina la expresión a utilizar para el
cálculo del parámetro que corresponda.

En lo adelante al referirnos a la confiabilidad o al evaluarla, lo haremos en términos de


probabilidad de falla. Ello se debe a un problema práctico. Los valores de confiabilidad de
componentes y sistemas de instalaciones de alta responsabilidad, y por tanto de altas
exigencias en su calidad, son elevados, muy próximos a la unidad (decimales con varios
9 consecutivos), mientras que su complemento, la probabilidad de falla, son valores muy
próximos a cero, fácilmente expresables como potencias negativas de 10.

En cuanto al régimen de trabajo de los componentes existen dos posibles: el régimen


de espera, durante el cual el componente permanece listo para entrar en
funcionamiento cuando se le requiera, y el régimen de operación. El primero es típico
de los sistemas de seguridad o aquellos que permanecen como reserva, los cuales
durante la operación de la planta se mantienen a la espera de cualquier suceso accidental
o falla que requiera su actuación.

El segundo es típico de los sistemas de operación normal y corresponde también a


los sistemas de seguridad durante el período de tiempo que dure el cumplimiento de
su función de seguridad después que son demandados (sistemas de seguridad
activos).

Las ratas de fallas utilizadas para modelar los componentes deben estar diferenciadas
de acuerdo con su régimen de trabajo. Así existen ratas de falla a la espera y ratas
de fallas en operación.

También debe tomarse en cuenta la correspondencia del régimen de trabajo con el


tiempo analizado. Para el régimen de espera deberá utilizarse, por tanto, la rata de fallas
a la espera y el tiempo a la espera (tiempo durante el cual el componente se
mantiene "listo" para entrar en funcionamiento) y para el régimen de operación se
usará la rata de fallas en operación y el tiempo analizado será el período necesario de
operación del componente.

Seguidamente se describen las expresiones para el cálculo de la probabilidad de falla


de componentes, según su clasificación en modos de falla a la espera y en operación y
de acuerdo a los tipos de componentes que emplea el algoritmo base para los
modelos computarizados denominado Análisis de Riesgo y Confiabilidad (sistema
ARCON).

- Componentes a la espera.

Para la evaluación de la probabilidad de falla de componentes a la espera definiremos


una nueva magnitud que es la disponibilidad del componente.

La disponibilidad se define como la probabilidad de que el componente esté apto o


listo para actuar u operar en el momento que sea requerido. Por razones similares a las
planteadas para la fiabilidad trabajaremos no con la disponibilidad de los
componentes sino con su complemento (1 - disponibilidad) que llamaremos
indisponibilidad y denotaremos por q(t).

Así, la indisponibilidad q(t) se define como la probabilidad de que un componente


esté en estado fallado en el instante t y no sea posible su actuación si es requerida
(falla de bloqueo). Como se aprecia, se trata de una magnitud puntual que evalúa la
probabilidad del estado fallado en un instante t, a diferencia de la probabilidad de falla
para sistemas en operación dada por [2.1.13], que es una función de distribución
acumulada que da la probabilidad de falla (falla de interrupción) para un intervalo
de tiempo de 0 a t.

- Componentes tipo 1. Probabilidad de falla fija.

En este caso la indisponibilidad del componente es un valor constante en el tiempo,


de modo que:

q(t) = q = cte. [2.4.1]

Los componentes tipo 1 se emplean para modelar aquellos modos de falla, cuya
probabilidad es uniforme en el tiempo, así como en aquellos casos en que no se
cuenta con información suficiente para determinar una ley de variación de la
indisponibilidad en el tiempo de acuerdo a otro modelo.

Un modo de falla al cual se aplica este modelo es al error humano, por ejemplo, el
suceso de una válvula manual dejada en posición incorrecta después de un
mantenimiento. En este caso un valor típico es q=2.10-2, lo que representa que en 100
demandas al componente, éste se encontrará como promedio 2 veces en posición
incorrecta (indisponible), por el error humano.

- Componentes tipo 2. No controlable.

Se aplica a componentes cuyo estado no es controlado durante todo el tiempo en que el


sistema se encuentra a la espera, y que al presentarse la demanda pueden fallar por
mecanismos de fallas ocultas. El sistema ARCON da, además, la posibilidad de
adicionar a la indisponibilidad de este tipo de componentes una probabilidad
adicional de falla a la demanda por carga de impacto sobre el componente en el momento
que se requiere su actuación.

Así, de la expresión [2.1.13], que corresponde a componentes no reparables cuyo


tiempo hasta la falla sigue una distribución exponencial, se obtiene adicionando la
indisponibilidad por carga de impacto qad:

q(t) = 1 - EXP(-Rt) + qad [2.4.2]

En ARCON también se incluye un tiempo previo Tpr que el componente haya


estado a la espera con anterioridad, sin recibir ningún tipo de mantenimiento que permita
considerarlo como nuevo al inicio de nuestro período de observación. Esto modifica
[2.4.2] de la siguiente manera:

q(t) = 1 - EXP[-R(Tpr+t)] +qad [2.4.3]

La expresión [2.4.3] tiene un crecimiento exponencial con el tiempo, de modo que la


indisponibilidad del componente será una función del instante en que se produzca la
demanda. En muchos casos se requiere hallar un valor de indisponibilidad medio,
representativo del comportamiento del componente durante el tiempo a la espera
T, también conocido como tiempo de observación.
Para el cálculo de la indisponibilidad media del componente aplicamos la expresión
general:
1 T
q=
T ∫
0
q (t )dt

Sustituyendo [2.4.3] e integrando, se obtiene finalmente:

_ 1
q = 1 -  {EXP[-RTpr] - EXP[-R(Tpr+T)]} + qad [2.4.4]
RT

- Componentes tipo 3. Controlado de forma continua.

Se aplica a los componentes cuya falla se detecta en cuanto se produce y son


sometidos de inmediato a la reparación. Para un sistema a la espera este puede ser un
tanque, cuyo salidero se detecta inmediatamente por un medidor de nivel con indicación
o señal de alarma en un panel. Se trata por tanto de una falla revelable.
En este caso la indisponibilidad del componente se determina a partir del balance
entre los procesos de rotura y reparación, dados por la ecuación diferencial:

q(t+dt)= [1 - q(t)].Rdt + q(t).[1 - µdt] [2.4.5]


En [2.4.5] se determina la indisponibilidad en t+dt correspondiente al miembro
de la izquierda a partir de la indisponibilidad que había en t mediante los dos
términos del miembro de la derecha. De ellos, el primero representa la probabilidad
que tiene el componente de estar disponible en t y fallar en t+dt, mientras que el
segundo corresponde a la probabilidad de estar fallado en t y no ser reparado en t+dt.

Integrando [2.4.5] y teniendo en cuenta la condición inicial q(0)=0, se obtiene


finalmente:

R
q(t) =  { 1 - EXP[-( R + µ ) t ] } + qad [2.4.6]
R+µ

En [2.4.6] se incorporó además la probabilidad de falla adicional que


eventualmente puede tomar en cuenta posibles cargas de impacto sobre el
componente en el instante de la demanda.

El componente tipo 3 tiene una indisponibilidad inicialmente creciente en el tiempo,


pero que se estabiliza rápidamente en su valor asintótico. Por ello, en el cálculo de la
indisponibilidad de este tipo de componentes se emplea habitualmente la expresión
[2,4.7], que es el valor asintótico de [2.4.6].

_ R
q =  + qad [2.4.7]
R+µ

- Componentes tipo 4. Probado periódicamente.

Este es el caso de los componentes cuyo estado se comprueba cada cierto tiempo Tp
mediante una prueba o ensayo de duración τ que permite detectar las fallas del
componente. En los casos en que el componente se encuentra fallado se procede a su
reparación.

La prueba puede tener una cierta ineficiencia, de modo que de la rata de fallas total sólo
se detecta una fracción que llamaremos ineficiencia de la prueba y denotaremos por Inef.
Así, la rata de fallas se desdobla en dos componentes, la rata de fallas detectables
Rdet y la rata de fallas no detectables Rno, cuyas expresiones son:

Rdet = R.(1-Inef). [2.4.8]

Rno = R.Inef. [2.4.9]

La indisponibilidad de un componente de este tipo tiene un carácter periódico, y


puede dividirse en tres zonas principales:
- Durante la prueba. La contribución de la prueba a la indisponibilidad viene dada
por la expresión:

τ
qp =  pnt [2.4.10]
Tp

donde el cociente representa la probabilidad de que al presentarse una demanda


el componente este en prueba y pnt es la llamada probabilidad de no-tránsito del estado
de la prueba al estado del componente para el cumplimiento de su misión. La
probabilidad pnt representa la indisponibilidad del componente durante la prueba.

- Durante la reparación posterior a la prueba (sí se detecta fallado).

Al realizar la prueba, el componente ha permanecido a la espera durante un tiempo


Tp - τ. La probabilidad de llegar a la prueba fallado, será, de acuerdo con
[2.1.13], 1-EXP[-Rdet(Tp-τ)], expresión que se aproxima a Rdet(Tp-τ) para valores de
Rdet(Tp- τ) menores que 0.1, lo cual resulta completamente válido en todos los casos
de interés.

Tomando en cuenta lo anterior, se puede establecer la siguiente expresión para la


indisponibilidad por reparación:

Tr
qr = Rdet(Tp- τ) [ .( 1 - phe) + phe ] [2.4.11]
Tp- τ

donde
Tr es el tiempo medio de reparación del componente(=1/µ); phe es la probabilidad
de error humano total, que incluye tanto la probabilidad de no detectar la falla por error
en la prueba phep como la probabilidad de que el componente quede indisponible
por un error en la reparación pher.

phe = phep + ( 1 - phep ) pher

En la expresión [2.4.11] el primer factor es la probabilidad de que el componente llegue


fallado a la prueba. El primer sumando entre corchetes representa la probabilidad de que
se produzca la demanda cuando el componente está en reparación, dado que el
componente se detecta fallado y se repara correctamente. El segundo sumando es la
probabilidad total de error en la prueba o la reparación, que hacen que el
componente permanezca indisponible durante todo el tiempo Tp- τ que media hasta
la próxima prueba.

Si la expresión [2.4.11] se transforma convenientemente, se obtiene finalmente:

qr = Rdet [ Tr + phe.(Tp - τ - Tr) ] [2.4.12]


Si la probabilidad de error humano fuera cero, la expresión se reduce a:

qr = Rdet.Tr [2.4.13]

- Durante el tiempo (Tp- τ) hasta la próxima prueba.

En este intervalo el componente está sometido a fallas ocultas no controlables cuya


función de distribución acumulada viene dada por [2.1.13]. Si se tiene en cuenta la
aproximación q(t)= Rdet.t, válida para valores de Rdet.t menores que 0.1, la
indisponibilidad media por fallas ocultas en este intervalo será:

1 Tp − τ

Tp − τ ∫0
q OC = R det tdt

Integrando, se obtiene finalmente:

1
qoc =  Rdet (Tp- τ) [2.4.14]
2

Por último, la expresión de la indisponibilidad media de un componente tipo 4,


se obtiene adicionando las expresiones [2.4.10],[2.4.12],[2.4.14]:

_ τ
q =  pnt + Rdet [ Tr + phe .(Tp - τ - Tr) ] +...
Tp
1
+  Rdet(Tp - τ) [2.4.15]
2

Cuando la ineficiencia de la prueba es mayor que cero la expresión [2.4.15] sólo


nos da el aporte a la indisponibilidad media del componente debido a las fallas
detectables en la prueba. La fracción de las fallas que no se detecta en la prueba tiene
un carácter no controlable y su aporte vendrá dado por una expresión como [2.4.4],
usando Tpr=0 y Rno como rata de fallas . De esta forma se obtiene la expresión
general que emplea el sistema ARCON:

_ τ 1
q =  pnt + Rdet[Tr + phe .(Tp - τ - Tr)] +  Rdet(Tp- τ) +...
Tp 2

1
+ 1 -  { 1 - EXP[- Rno T] } + qad [2.4.16]
RnoT
En [2.4.16] se incluyó como último término la probabilidad de falla adicional a la
demanda por carga de impacto.

El sistema ARCON tiene además la posibilidad de ajustar las ratas de fallas de la fórmula
[2.4.16] para tomar en cuenta los casos en que la prueba degrada al componente e
incrementa su rata de fallas. Este es el caso típico de los generadores diesel que se
emplean en la industria para asegurar el suministro eléctrico en condiciones de avería.
Con este fin el sistema emplea un dato adicional para los componentes tipo 4, el factor
de degradación de la prueba, expresado como el % de incremento de la rata de fallas
en cada prueba. Estas expresiones tienen cierta complejidad y no se han incluido
en el presente material.

- Componentes tipo 6. Indisponibilidad por mantenimiento.

Este modo de falla es la probabilidad de que el componente se encuentre fuera de


servicio por mantenimiento en el momento que tiene lugar una demanda. Si Tm es el
tiempo entre mantenimientos y τm es la duración del mantenimiento, la indisponibilidad
por
mantenimiento viene dada por:

_ τm
q =  [2.4.17]
Tm

- Componentes tipo 7. Suceso desarrollado.

Es un componente de probabilidad de falla fija, que a los efectos del cálculo no se


diferencia del componente tipo 1 y su indisponibilidad viene dada también por la
expresión [2.4.1].

Se emplea para representar la falla de un subsistema, sistema de apoyo o elemento


complejo, que en el momento del análisis no se puede desarrollar en los modos de falla
más simples que lo componen por falta de información, o bien este desarrollo se ha
hecho de forma separada para una integración posterior, cuando se vaya a conformar el
modelo de confiabilidad del sistema a partir de sus componentes en lo que se conoce
como un árbol de fallas.

- Componentes en operación ( tipo 5 ).

La probabilidad de que un componente falle en operación, será la probabilidad de que


experimente al menos una falla cuando trabaja durante ese período, por lo que puede
ser cuantificada mediante la función de distribución acumulada de fallas Pf(t), dada por
[2.1.13], para R=Rop y t=top :

Pf(t) = 1 - EXP(-Rop . top)


que puede ser aproximada como

Pf(t) = Rop . top [2.4.18]

para valores de Pf(t) menores que 0.1.

Esta expresión se aplica al cálculo de la probabilidad de falla de componentes no


reparables en operación, que a lo sumo pueden experimentar una falla.

Sin embargo, para componentes redundantes reparables, es necesario tomar en


cuenta la posibilidad de reparación, pues mientras ésta se realiza, la misión es
cumplida por el otro componente y el sistema no falla. En este caso la falla se
produce sólo si el componente redundante también falla, antes de que el primero haya
podido ser reparado.

En estos casos la probabilidad de falla del componente en operación se determina


mediante una expresión análoga a la [2.4.7], empleada para componentes tipo 3:

Rop
Pop =  [2.4.19]
Rop+ µ

donde Pop es la probabilidad de falla en operación del componente


reparable
Rop es la rata de fallas del componente en operación
µ es la rata de reparaciones del componente, igual al
inverso del tiempo promedio para reparar.
III. Confiabilidad de sistemas.
La evaluación de la confiabilidad de un sistema consiste en la cuantificación de la
probabilidad de falla en el cumplimiento de su función, a partir de las probabilidades de
falla de sus componentes, que se combinan tomando en cuenta las
interconexiones e interdependencias entre ellos. Estas interrelaciones vienen dadas
por la estructura del sistema y sus procedimientos de trabajo.

Con este fin, se requiere la construcción de un modelo que contemple tanto las fallas
de equipo como las debidas a errores humanos, así como la influencia de los
procedimientos de operación, prueba y mantenimiento del sistema.

Sin embargo, el interés fundamental del análisis de confiabilidad no es exclusivamente el


resultado global de la probabilidad de falla del sistema, para demostrar que éste
satisface las exigencias planteadas al diseño. Los mayores dividendos se obtienen
mediante un proceso sistemático y bien estructurado para la determinación de los
contribuyentes más importantes a dicho resultado global. Estos son los puntos del
sistema que requieren mayor atención. Consecuentemente, se considera el efecto de
modificaciones en el diseño, así como en los procedimientos de operación, prueba y
mantenimiento, que aún siendo simples, pueden conllevar a una mejora significativa de la
confiabilidad.

Para sistemas complejos e interdependientes el análisis de árboles de fallas ha


demostrado ser una herramienta poderosa que se aplica con éxito en las industrias
nuclear, aeronáutica y aeroespacial. Se emplea de forma creciente en la industria
química y, en general, resulta una técnica con alto nivel de estructuración,
estandarización y universalidad, aplicable a industrias complejas que deben operar con
elevada disponibilidad y seguridad.

La técnica de árboles de fallas tendría un alcance limitado si se aplicara solamente al


análisis de confiabilidad de sistemas aislados. El mayor beneficio se obtiene cuando se
aplica de forma combinada con la técnica de árboles de sucesos, para la
construcción de un modelo integral de la industria, que caracteriza la respuesta de
sus sistemas ante diversos sucesos iniciadores de avería (situaciones accidentales),
que de no ser controlados o mitigados tienen un impacto negativo sobre el proceso
productivo (paradas más o menos prolongadas, daño a sistemas con pérdidas
económicas de consideración, daño al medio ambiente y a la población circundante).

Este estudio integral es lo que se conoce como un Análisis Probabilista de Seguridad


(APS). A partir del modelo básico del APS se pueden realizar múltiples aplicaciones
durante toda la vida útil de la instalación para garantizar una elevada
disponibilidad, seguridad industrial y protección del medio ambiente. Estas
aplicaciones se basan en el conocimiento de los puntos débiles del proceso, que
permite la toma de medidas técnicas y organizativas, muchas veces sencillas, pero
que tienen un efecto importante sobre los índices técnico-económicos de seguridad de la
industria.
El modelo de APS no permanece estático, sino que se actualiza como resultado de la
experiencia operacional y las modificaciones que se introducen en el diseño y los
procedimientos de trabajo. Esto puede hacerse con facilidad a partir del modelo básico
y permite a la gerencia un mejor conocimiento de las características de seguridad
y disponibilidad de la planta, para estar prevenidos frente a eventuales puntos débiles y
anticiparse a éstos con la toma de medidas oportunas.

3.1. Técnica de árboles de fallas.

El árbol de fallas es un modelo lógico deductivo, que parte del suceso tope para el cual
se produce la falla del sistema. De una forma sistemática se va desarrollando el suceso
tope en los sucesos intermedios que conducen a éste, y a su vez los sucesos
intermedios en otros de menor jerarquía, hasta llegar a los sucesos primarios,
determinados por el nivel de resolución del análisis posible o deseable. Este se
establece atendiendo a los datos de fallas de que se dispone y/o al alcance que se
pretende lograr de acuerdo con los objetivos del estudio.

Los sucesos intermedios y primarios se interconectan mediante compuertas


lógicas, que básicamente pueden ser de 3 tipos:

Compuerta OR: El estado fallado de cualquiera de los sucesos que entran a ella
produce el estado fallado a la salida.

Compuerta AND: El estado fallado a la salida de la compuerta se produce cuando


todos los sucesos que entran a ella están en estado fallado.

Compuerta n/m ("Majority"): El estado fallado a la salida de la compuerta se produce


con cualquier combinación de n sucesos en estado fallado del total de m que entra a la
compuerta.

En la figura 3.1.1 se muestran los símbolos de mayor utilización en la construcción de


árboles de fallas.
Fig 3.1.1. Símbolos de mayor utilización en la construcción de árboles de fallas.

Los sucesos primarios son puntos terminales del árbol que no se continúan
desarrollando. De ellos los sucesos básicos corresponden generalmente a modos
de falla propios de componentes (por ejemplo falla de una válvula a la apertura o al
cierre), mientras que el suceso desarrollado es un suceso complejo que no se desdobla
en sucesos básicos de menor jerarquía, por no contarse con la información
necesaria o porque resulta conveniente desarrollarlo aparte como un árbol
independiente. Este último es el caso de los sistemas de apoyo (por ejemplo la falla de la
alimentación eléctrica), que se acostumbra a modelar en árboles de fallas
independientes para después acoplarlos (integrarlos) a los árboles de los diversos
sistemas a los cuales este sistema de apoyo presta servicio.

El símbolo de suceso intermedio (rectángulo) se coloca antes de cada compuerta o


suceso primario para describir con precisión el suceso de falla que se está representando.

Los símbolos de transferencia permiten conectar un subárbol en varios puntos del árbol
principal sin necesidad de repetir varias veces la misma información, así como establecer
cortes y divisiones del árbol cuando por sus dimensiones no puede representarse
completamente en una hoja de papel. Este es el caso del árbol de fallas que aparece
posteriormente en la figura
3.1.4.
La técnica de árboles de fallas permite modelar los sistemas con un alto grado de
flexibilidad, pero deben tenerse en cuenta las siguientes premisas fundamentales:

1. Los sucesos básicos de un árbol de fallas tienen carácter binario, es decir, el


componente está fallado o está operable, el modo de falla se produce o no se
produce. No es posible modelar estados intermedios o degradados de los
componentes.

2. Los sucesos básicos tienen que ser estadísticamente independientes, lo cual es una
exigencia del método que se emplea para calcular la probabilidad de falla del sistema
a partir de los resultados de la evaluación cualitativa del árbol de fallas. La existencia
de modos de falla dependientes se toma en cuenta cuando un mismo suceso
intermedio o primario aparece repetido en el árbol de fallas, como contribuyente a
varios sucesos intermedios.

Para la construcción de un árbol da fallas se precisa ante todo comprender bien el


funcionamiento del sistema y sus procedimientos operacionales, de prueba y
mantenimiento.

Al desarrollar el árbol desde el suceso tope hasta llegar a los sucesos primarios, es
necesario identificar en cada paso todas las contribuciones o caminos que pueden
conducir al suceso intermedio. De modo general, para la falla de cada componente
existen al menos 5 posibilidades:

1. El equipo no recibió la señal que activa su operación.

2. El equipo no recibe servicio de algún sistema de apoyo, necesario para su trabajo. (Ej.
: alimentación eléctrica, enfriamiento, lubricación, etc.).

3. El propio equipo experimenta algún tipo de falla que le impide operar.

4. Se produce un error humano que imposibilita la activación del componente, debido a


la no-intervención del operador o su actuación tardía, o por haberse dejado el
componente en posición incorrecta después de un mantenimiento.

5. Algún suceso externo puede afectar al componente y evitar su funcionamiento. En


este caso pueden presentarse fallas del tipo causa común, que afectan
simultáneamente a varios componentes (por ejemplo, daño por incendio).

Existe un grupo de reglas básicas que se recomiendan para asegurar el desarrollo del
árbol de fallas con la calidad requerida, lo que constituye un aspecto importante para su
posterior revisión y fácil comprensión por parte de otros especialistas.

A continuación relacionamos las tres principales:


1. Describir de manera precisa los modos de falla dentro de los rectángulos que
identifican el suceso tope, los sucesos intermedios y los sucesos primarios.

2. Todas las entradas de una compuerta deben estar completamente definidas antes de
pasar a modelar otras compuertas.

3. No conectar compuertas con compuertas, ni sucesos primarios con compuertas


directamente. Esto se hace siempre a través del rectángulo donde se describe con
detalle el suceso intermedio o primario correspondiente.

Véase seguidamente algunos ejemplos sencillos que ilustran la construcción de árboles


de fallas.

En la figura 3.1.2 (a) se muestra el árbol de fallas del disparo de un circuito interruptor. La
falla se produce por tres causas, cualquiera de las cuales, de modo independiente, puede
dar lugar al suceso tope. Por esta razón se emplea una compuerta OR. Los sucesos
primarios que entran a la compuerta OR son el desperfecto en el propio interruptor, la
ausencia de la señal de disparo y, eventualmente, el daño por incendio, un suceso
externo que provoca condiciones ambientales severas y conduce a la rotura del
elemento. Este es un modo de falla del tipo causa común, pues se trata de un suceso
único que suele afectar a varios componentes (todos fallan por una causa común).

(a)
(b)

Fig. 3.1.2. Arbol de fallas del disparo de un circuito interruptor.

En la figura 3.1.2 (b) continua el árbol a partir del suceso B, que en la figura 3.1.2 (a)
aparecía como un suceso desarrollado. Para esto se toma en cuenta que la señal de
disparo se produce por la apertura de uno de dos "relays" conectados en serie. Bajo estas
condiciones, la falla de la señal de disparo tiene lugar cuando ambos "relays" B1 y B2
fallan cerrados, puesto que con sólo uno que abra sus contactos, el circuito de control
queda desenergizado y se produce la señal. Por ello al reemplazar el suceso B por B1 y
B2 se ha empleado una compuerta AND.

Ejemplo 3.1.1: La figura 3.1.3 muestra un sistema con un tanque a presión al cual se
inyecta un gas desde un depósito mediante un compresor accionado por un motor
eléctrico. En cada ciclo el operador echa a andar un "timer" T y el tanque se llena durante
un cierto tiempo hasta que abren los contactos del "timer", mucho antes de que se cree
una condición de sobrepresión. Después de cada ciclo el gas comprimido se descarga
abriendo la válvula Vd destinada a este fin. Cuando el tanque queda vacío se cierra
nuevamente Vd y todo está listo para dar inicio a un nuevo ciclo.

Si en el proceso de llenado del tanque no se produce el disparo del "timer" T, el operador


está instruido para verificar la presión del manómetro M y abrir los interruptores
normalmente cerrados I1 e I2, lo cual desenergiza el motor del compresor, al
interrumpirse la alimentación eléctrica tanto en el circuito de potencia como en el de
control.
Fig. 3.1.3. Esquema simplificado del sistema de llenado de un tanque a presión.

(a)
(b)

Fig. 3.1.4. Arbol de fallas del sistema del ejemplo 3.1.1.

(c)
(d)

Fig. 3.1.4. Arbol de fallas del sistema del ejemplo 3.1.1. (continuación).

(e)
(f)

Fig. 3.1.4. Arbol de fallas del sistema del ejemplo 3.1.1. (continuación).

En la figura 3.1.4 se muestra el árbol de fallas del suceso no deseado rotura del tanque
en condiciones de carga normal o por sobrepresión. La rotura del tanque en condiciones
de carga normal se representa mediante un suceso primario, pues con la información
disponible no es posible desarrollarlo más. En cambio, la rotura por sobrepresión puede
tener lugar al combinarse la falla de la protección por sobrepresión del tanque (válvula de
alivio Va) con el suceso intermedio trabajo del compresor durante un tiempo excesivo. La
necesidad de ocurrencia simultánea de ambos determina el empleo de una compuerta
AND.

A continuación se describen brevemente dos de los sucesos intermedios que contribuyen


a la ocurrencia del suceso trabajo del compresor durante un tiempo excesivo.

- No se interrumpe la corriente en el circuito de potencia (figura 3.1.4 c y f).

Se produce cuando el manómetro M se traba o indica por debajo del valor real de presión
(el operador no se percata del peligro y no actúa), o bien no se logra abrir el interruptor I2
por falla del equipo, o bien la acción del operador no se produce o resulta tardía. La falla
del interruptor puede ser por un problema intrínseco o provocada por una sobrecorriente
SC en el circuito que dejen "pegados" los contactos. Este último suceso es una falla
causa común que deja "pegados" los contactos del "relay" R y además inhabilita la acción
mitigadora de apertura del interruptor I2. Por esta razón, la falla por sobrecorriente
aparece como un suceso primario repetido que contribuye a la ocurrencia de dos sucesos
intermedios diferentes del árbol.

- No se interrumpe la corriente en el circuito de control (figura 3.1.4 e).


En este caso aparece también la falla del manómetro M que evita la acción del operador
sobre el interruptor I1, luego vemos que este componente contribuye a la falla en dos
sucesos intermedios, es decir, produce una interdependencia que se expresa como un
componente repetido en el árbol de fallas. Los modos de falla del interruptor I1 son
similares a los de I2, con excepción de la falla por sobrecorriente que no es posible en el
circuito de control.

Cuando no se está acostumbrado al enfoque probabilista se puede pensar que algunos


de estos modos de falla pueden ser rebuscados o imposibles. Esto puede ser cierto en
algunos casos, pero debemos tomar en cuenta que, en efecto, si la aplicación de esta
técnica se realiza en industrias con elevadas exigencias a la calidad de los equipos y a la
calificación del personal, los sucesos que estamos considerando son indudablemente de
baja probabilidad. Sin embargo, la clave del análisis de árboles de fallas radica
precisamente, en no descartar de antemano ninguno de los modos de falla posibles y si
esto resultara razonable o conveniente deben documentarse las consideraciones que
fundamentan tal decisión.

La resolución del árbol de fallas y la evaluación de las probabilidades de los modos de


falla del sistema que surjan, es la que permite sobre bases objetivas descartar
determinados modos de falla poco importantes y centrar nuestra atención en otros que
resulten los mayores contribuyentes a la indisponibilidad del sistema. Cuando se trata de
sistemas complejos y, particularmente, cuando estas técnicas se aplican a la modelación
integral de la industria, pueden aparecer combinaciones de fallas de equipo y errores
humanos que hacen una importante contribución a la probabilidad de falla del sistema
específico o de la industria y que no habían sido tomadas en cuenta con el peso que les
corresponde en razón de su importancia. En todo caso, aunque dicha combinación de
fallas fuera conocida el método permite cuantificar su aporte y fundamentar la toma de
decisiones que corresponda.

El árbol de fallas tiene, según hemos visto hasta este punto, un carácter totalmente
cualitativo. Sin embargo, aún antes de realizar evaluación numérica alguna, ya el propio
árbol hace una contribución significativa a nuestro conocimiento del sistema o de la
industria. Buscando los posibles modos de falla, logramos dominar con profundidad sus
características técnicas de diseño, de funcionamiento y los procedimientos de operación,
pruebas y mantenimiento. El método nos va conduciendo a los puntos débiles, a las
diversas formas en que puede fallar.

3.2. Evaluación cualitativa del árbol de fallas.

La resolución del árbol de fallas consta de dos etapas principales, la evaluación cualitativa
consistente en la determinación de todas las combinaciones de sucesos primarios que
hacen fallar el sistema y la evaluación cuantitativa, paso en el cual se determina la
probabilidad de falla del sistema a partir de las probabilidades de todos los caminos
posibles que conducen al suceso tope no deseado.
Así pues, la evaluación cualitativa tiene como objetivo central la determinación de todos
los llamados conjuntos mínimos de corte del árbol de fallas. Un conjunto mínimo de corte
o simplemente conjunto mínimo (CM) es un conjunto de sucesos primarios que no puede
ser reducido en número y cuya ocurrencia determina que se produzca el suceso tope. En
el ejemplo de la figura 3.1.2 (b), las fallas {A} y {C} son CM de orden 1, pues con sólo
ocurrir la falla intrínseca del interruptor o el daño por incendio ya tiene lugar el suceso
tope no deseado. El otro CM de este ejemplo sería {B1, B2}, en este caso de orden 2
pues se necesita que ambos "relays" fallen cerrados para que se produzca el suceso
tope. {B1} no sería un CM, pues con esta falla única no se produce el suceso tope. En
cambio {A, C} aunque da lugar al suceso tope no es CM, pues puede ser reducido en
número, es decir, sólo es necesaria la falla de A o de C para que se produzca el suceso
tope, no se requiere que fallen ambos.

Es importante destacar que la presencia de CM de orden 1 en un árbol de fallas de un


sistema indica su vulnerabilidad a esta falla única, lo cual sólo es aceptable si dicha falla
es de muy baja probabilidad. En el caso del ejemplo de la figura 3.1.2 (b) esto es posible
porque se trata de un dispositivo que normalmente cumple funciones como parte de un
sistema más complejo.

El árbol de fallas es una estructura lógica integrada por sucesos primarios binarios. Esto
hace que para su evaluación cualitativa se requiera el empleo de las reglas del álgebra de
Boole, que exponemos brevemente a continuación, sobre la base de los sucesos de falla
genéricos X, Y, Z.

Propiedad conmutativa X•Y=Y•X ; X+Y=Y+X

Propiedad asociativa X• (Y•Z)=(X•Y)•Z


X+(Y+Z)=(X+Y)+Z

Propiedad distributiva X•(Y+Z)=(X•Y)+(X.Z)


X+(Y•Z)=(X+Y)•(X+Z)

Propiedad idempotente X•X=X ; X+X=X

Ley de absorción X•(X+Y)=X ; X+X.Y=X


___ _ _ ___ _ _
Leyes de Morgan X•Y=X + Y ; X+Y=X•Y

En las expresiones anteriores el signo "•" significa la intersección de dos sucesos


de falla, es decir, su ocurrencia simultánea, mientras que el signo "+" representa la unión
de dos sucesos de falla, es decir, la ocurrencia de uno o del otro. Los sucesos X, Y son
los eventos complementos de la falla, es decir, representan el estado operable (éxito) del
componente.
Existen diversos algoritmos para la determinación de los conjuntos mínimos de un árbol
de fallas. De ellos aquí presentaremos el de arriba hacia abajo ("top-down"), que se
emplea en el sistema ARCON.

El método consiste en la sustitución paulatina de las compuertas por sus entradas, desde
la compuerta tope hasta llegar a los sucesos primarios, dando prioridad a las compuertas
AND y n/m ("majority") con respecto a las compuertas OR, lo que contribuye a evitar una
expansión excesiva del número de combinaciones de sucesos. En varias partes del
proceso se realiza lo que se conoce como reducción booleana, es decir, la eliminación de
combinaciones booleanas de fallas que no resultan mínimas. Esto asegura que al final del
proceso se obtengan de forma explícita todos los conjuntos mínimos de corte, que
constituyen los modos de falla del sistema.

Para ilustrar la evaluación cualitativa de un árbol de fallas nos basaremos en un caso


sencillo, como el del ejemplo 3.1.1, cuyo árbol de fallas aparece en la figura 3.1.4.

Si C1 representa el suceso tope, este puede representarse a partir de sus entradas como:

C1=Tpn+C2 [3.2.1]

donde Tpn es el suceso primario rotura del tanque a presión normal y C2 es el suceso
intermedio rotura del tanque por sobrepresión.

Tpn es ya un suceso primario, luego corresponde ahora sustituir la compuerta C2, de


donde resulta:

C1=Tpn+Va.C3 [3.2.2]

Nótese como en la expresión [3.2.1] la sustitución se hace como una unión(+) de los
sucesos de falla Tpn y C2, interconectados en el árbol mediante una compuerta OR. En
cambio, al sustituir la compuerta C2 en la expresión [3.2.1] para obtener la [3.2.2], Va y
C3 se sustituyen como una intersección de sucesos de falla, en correspondencia con la
compuerta AND de la cual ambos son entradas en el árbol de fallas.

Continuando el proceso, tendremos que:

C1=Tpn+Va.C4.C5 [3.2.3]

C1=Tpn+Va.C4.(R+SC+C6) [3.2.4]

C1=Tpn+Va.C4.(R+SC+T.C7) [3.2.5]

C1=Tpn+Va.(M+E+I2+SC).{R+SC+T.(M+E+I1)} [3.2.6]
Aplicando la ley distributiva de forma sucesiva, tendremos que:

C1=Tpn+Va.(M+E+I2+SC).(R+SC+T.M+T.E+T.I1) [3.2.7]

C1=Tpn+Va.(M.R+M.SC+M.T.M+M.T.E+M.T.I1+E.R+E.SC+E.T.M+E.T.E+
+E.T.I1+I2.R+I2.SC+I2.T.M+I2.T.E+I2.T.I1+SC.R+SC.SC+
+SC.T.M+SC.T.E+SC.T.I1)
[3.2.8]

Si ahora aplicamos la propiedad idempotente, resulta:

C1=Tpn+Va.(M.R+M.SC+M.T+M.T.E+M.T.I1+E.R+E.SC+E.T.M+E.T+E.T.I1+
+I2.R+I2.SC+I2.T.M+I2.T.E+I2.T.I1+SC.R+SC+SC.T.M+
+SC.T.E+SC.T.I1)
[3.2.9]

En la expresión [3.2.9] aparecen 21 términos que representan combinaciones


booleanas de fallas de componentes que conducen a la falla del sistema. Sin embargo,
como veremos seguidamente, de estas 21 combinaciones booleanas sólo 8 son CM. En
efecto, si sometemos esta expresión a un proceso de reducción booleana aplicando la
ley de absorción, resulta que:

M.SC+E.SC+I2.SC+SC.R+SC+SC.T.M+SC.T.E+SC.T.I1=SC [3.2.10]

M.T+M.T.E+M.T.I1+I2.T.M=M.T [3.2.11]

E.T.M+E.T+E.T.I1+I2.T.E=E.T [3.2.12]

y por tanto [3.2.9] se transforma en:

C1=Tpn+Va.(M.R+M.T+E.R+E.T+I2.R+I2.T.I1+SC) [3.2.13]

de donde, los CM que conducen a la rotura del tanque son:

De orden 1: 1 Tpn
De orden 2: 1 Va.SC
De orden 3: 5 Va.M.R
Va.M.T
Va.E.R
Va.E.T
Va.I2.R
De orden 4: 1 Va.I2.T.I1
Total :8

Se puede apreciar como las expresiones [3.2.10], [3.2.11] y [3.2.12] reducen 7, 3 y 3


combinaciones booleanas respectivamente en la expresión [3.2.9].
Resulta siempre conveniente, a modo de comprobación, realizar un examen de los CM
obtenidos. Si nos concentramos en los modos de falla del tanque por sobrepresión,
veremos que en todos los CM aparece la falla a la apertura de la válvula de alivio de
presión del tanque Va combinada con otros sucesos de falla. Aún sin realizar el análisis
cuantitativo, la simple inspección cualitativa de los CM nos permite concluir, en principio,
que este suceso básico será probablemente un punto débil del sistema, es decir,
debemos reforzar la protección por sobrepresión. La falla de Va puede combinarse con el
suceso SC que hace fallar cerrados los contactos del "relay" y del interruptor I2 por una
causa común, o con la falla propia del "relay" R unida a la no-indicación correcta del
manómetro de presión M que evita la intervención del operador, y así sucesivamente
podemos continuar analizando el resto de los CM.

El proceso realizado nos permite inducir las siguientes consideraciones generales:

1. La generación de CM va produciendo una expansión paulatina del número de


términos de la expresión booleana, hasta llegar al resultado final en el que el suceso
tope se expresa como la unión de todos los sucesos de falla, dados por los conjuntos
mínimos de corte. La expresión [3.2.9] llegó a tener 21 términos.

2. Durante el proceso se generan muchas combinaciones booleanas que no son CM, y


requieren ser reducidas. En el ejemplo se redujeron 13 combinaciones booleanas y
sólo quedaron 8 CM.

3. Las cantidades de CM que se pueden derivar de un árbol de fallas de mediana


complejidad, y con sólo decenas o cientos de sucesos básicos y compuertas pueden
ser gigantescas, del orden de los millones y superiores. Cuando se resuelven árboles
que modelan el comportamiento global de la industria ante un suceso iniciador de
avería, el número de CM suele ser particularmente elevado, debido a que las
secuencias accidentales que surgen involucran normalmente la falla de varios
sistemas.

4. El elevado volumen de operaciones lógicas requerido por la determinación de los CM,


sólo es posible con eficiencia y sin errores mediante el empleo de técnicas de
computación. Debe tenerse en cuenta que el consumo de memoria y tiempo de
máquina como función del número de componentes y la complejidad del árbol sigue
una ley exponencial.

Para árboles de cierta complejidad, con cientos o miles de compuertas y sucesos básicos,
la determinación de los CM sólo es posible mediante un software potente y una
computadora rápida con suficiente memoria operativa y en disco. La inmensa mayoría de
los programas de APS de uso actual están soportados en computadoras "Mainframe" y
una buena parte de los que trabajan en computadoras personales (PC) confronta serias
limitaciones de memoria y velocidad. No obstante, el creciente desarrollo de los PC ha
propiciado el surgimiento de algunos sistemas capaces de manejar árboles de fallas
complejos en PC, como es el caso de ARCON (ver Anexo B).
3.3. Evaluación cuantitativa de las fallas.

La evaluación cuantitativa de árboles de fallas consiste, básicamente, en la determinación


de la probabilidad de ocurrencia del suceso tope que describe la falla del sistema, a partir
de las probabilidades de los CM, que representan las contribuciones de todos los modos
de falla posibles.

Sean CM1 y CM2 dos CM del árbol de fallas. La probabilidad de que ocurra el modo de
falla CM1 o el modo de falla CM2, es decir, la probabilidad de falla del sistema por una de
estas dos vías será:

P(CM1+CM2)=P(CM1)+P(CM2)-P(CM1.CM2) [3.3.1]

donde el suceso CM1.CM2 representa la ocurrencia simultánea de ambos modos de falla,


que de no restarse se estaría sumando dos veces al resultado final y produciría su
sobreestimación.

Si ahora se tratara de tres conjuntos mínimos CM1,CM2 y CM3, la expresión de la


probabilidad de falla del sistema por estas tres vías sería:

P(CM1+CM2+CM3)=P(CM1)+P(CM2)+P(CM3)-P(CM1.CM2)-P(CM2.CM3)-
-P(CM1.CM3)+P(CM1.CM2.CM3)
[3.3.2]

En la expresión [3.3.2] se restan las combinaciones de CM de orden 2, pues de no


hacerlo se estaría considerando dos veces. Sin embargo, al restar estos tres términos
eliminamos completamente la contribución CM1.CM2.CM3 que debe ser restituida
adicionando el último sumando.

En el caso general de N conjuntos mínimos de corte, la probabilidad de falla del sistema


viene dada por la siguiente expresión:

N N N N
P( Σ CMi)= Σ P(CMi) - Σ Σ P(CMi) P(CMj) +
i=1 i=1 i=1 j=i+1

N N N
Σ Σ Σ P(CMi) P(CMj) P(CMk) - ...
i=1 j=i+1 k=j+1

N
N+1
+(-1) Π P(CMi) [3.3.3]
i=1
Para industrias de elevada confiabilidad y bajos niveles de riesgo, la expresión [3.3.3]
puede simplificarse notablemente tomando en cuenta que la probabilidad de un CM es un
valor mucho menor que 1, lo que se conoce como aproximación de sucesos raros. Bajo
estas condiciones, en la expresión [3.3.3] los términos de segundo orden y superiores
pueden ser despreciados frente al primer sumando que hará la contribución fundamental,
con lo que se obtiene la expresión:

N N
P( Σ CMi)= Σ P(CMi) [3.3.4]
i=1 i=1

Esto equivale a suponer que los CM son mutuamente excluyentes, es decir, que se
considera sumamente improbable la ocurrencia simultánea de varios CM (la ocurrencia
de un CM excluye la posibilidad de ocurrencia de cualquiera de los otros).

Si comparamos las fórmulas [3.3.3] y [3.3.4] es fácil comprobar que el valor dado por
[3.3.4] sobrestima el valor real, por cuanto los términos que se desprecian van siendo
menores en la medida que aumenta su orden y los signos alternos comienzan
precisamente con una resta. De esta forma, la contribución que se elimina al pasar de
[3.3.3] a [3.3.4] tiene signo negativo y conduce a una sobreestimación de la probabilidad
de falla en [3.3.4]. Esta es una ventaja de la expresión, pues al aplicarla sabemos que
estamos siendo conservadores. Sin embargo, para aquellos casos en que las
probabilidades de falla son elevadas y deja de cumplirse la aproximación de sucesos
raros la sobreestimación puede ser considerable hasta el punto de obtenerse
probabilidades de falla del sistema mayores que 1.

Veamos a continuación otra expresión para evaluar la probabilidad de falla del sistema.
En este caso se parte del supuesto de que los CM son sucesos independientes, es decir,
se asume que la ocurrencia de un CM no modifica la probabilidad de ocurrencia de los
restantes. Esta suposición resulta válida cuando los sucesos básicos son independientes
y de baja probabilidad, pues cada CM contiene uno o varios componentes que lo
diferencian del resto y bajo estas condiciones la modificación de la probabilidad de un CM
por la ocurrencia de otro resulta pequeña.

La fórmula que se emplea en este caso para hallar la probabilidad de falla del
sistema (Pf) es:

N
Pf= 1 - Σ [ 1 - P(CMi) ] [3.3.5]
i=1

En esta expresión, el término 1- P(CMi) representa la probabilidad de que el conjunto


mínimo CMi no ocurra. El producto de estos términos para todos los CM desde 1 hasta N
es la probabilidad de que no suceda ningún CM, suponiendo que ellos son
independientes, es decir, la probabilidad de que el sistema no falle. El complemento de
este suceso tiene una probabilidad igual a 1 menos el valor anterior, y es precisamente la
probabilidad de que tenga lugar al menos un CM, es decir, la probabilidad de que el
sistema falle.

Aunque la expresión [3.3.5] es más compleja de evaluar y su aplicación también está


limitada a sucesos de baja probabilidad para que sea válida la suposición de
independencia entre CM, tiene una ventaja sobre la fórmula [3.3.4] y es que nunca da
valores de probabilidad superiores a la unidad. Cuando la aproximación de sucesos raros
es válida y se calcula por las expresiones [3.3.4] y [3.3.5] se observa una diferencia
despreciable entre ambas, con valores ligeramente superiores al emplear [3.3.4]. Al dejar
de cumplirse la aproximación de sucesos raros los resultados de ambas expresiones
comienzan a diferenciarse notablemente, pues mientras [3.3.4] crece de manera
sostenida cuando aumentan las probabilidades de los conjuntos mínimos, [3.3.5]
comienza a saturarse y tiende a uno.

Hagamos seguidamente el análisis cuantitativo de las fallas del sistema del ejemplo 3.1.1,
a partir de los CM dados por [3.2.13] mediante las fórmulas de cálculo [3.3.4] y [3.3.5].
Para ello tendremos que hallar primeramente las probabilidades de falla de cada uno de
los sucesos primarios, determinar seguidamente las probabilidades de cada uno de los
CM, y, finalmente, la probabilidad de falla del sistema.

- Probabilidades de falla de los sucesos primarios.

Con excepción del suceso primario E, que representa un error humano por la no -
actuación a tiempo del operador, todos los modos de falla se considerarán en esta fase
del análisis como no controlables, es decir, que durante 1 año de trabajo (aprox. T=8000h
) los componentes se explotan ininterrumpidamente entonces son sometidos a un
mantenimiento anual que renueva sus propiedades y reduce la probabilidad de falla al
valor inicial 0.
1) Tpn - Rotura del tanque a presión normal
Modo de falla no controlado con rata de fallas 1E-8/h. Aplicando la expresión [2.4.4] y
considerando T=8000h como el tiempo total de trabajo hasta que el sistema se somete
a mantenimiento, así como también qad=0 y Tpr=0 se obtiene:
qTpn = 1 - { 1 - EXP( -1E-8 x 8000 ) } / ( 1E-8 x 8000 ) = 4.00E-5

2) Va - No abre la válvula de alivio del tanque


Modo de falla no controlado, con rata de fallas 3E-4/h y T=8000h. De forma análoga al
caso anterior, se obtiene:
qVa = 1 - { 1 - EXP( -3E-4 x 8000 ) } / ( 3E-4 x 8000 ) = 6.21E-1
3) M - Manómetro del tanque trabado o indica por debajo

Modo de falla no controlado, con rata de fallas 1E-5/h y T=8000h. De forma análoga a los
casos anteriores, se obtiene:

qM = 1 - { 1 - EXP( -1E-5 x 8000 ) } / ( 1E-5 x 8000 ) = 3.90E-2

4) E - El operador no responde ( error humano )

Probabilidad de falla fija, estimada en qE = 1E-2

5) R - Los contactos del "relay" fallan cerrados

Modo de falla no controlado, con rata de fallas 2.7E-7/h y T=8000h. De forma análoga a
los casos anteriores, se obtiene:

qR = 1 - { 1 - EXP( -2.7E-7 x 8000 ) } / ( 2.7E-7 x 8000 ) = 1.08E-3

6) SC - Sobrecorriente en el circuito de potencia (falla causa común que mantiene


cerrados los contactos del "relay" y del interruptor I2)

Modo de falla no controlado, con rata de fallas 1E-8/h y T=8000h. De forma análoga a
los casos anteriores, se obtiene:

qSC = 1 - { 1 - EXP( -1E-8 x 8000 ) } / ( 1E-8 x 8000 ) = 4.00E-5

7) T - Los contactos del "timer" fallan cerrados

Modo de falla no controlado, con rata de fallas 1E-4/h y T=8000h. De forma análoga a
los casos anteriores, se obtiene:

qT = 1 - { 1 - EXP( -1E-4 x 8000 ) } / ( 1E-4 x 8000 ) = 3.12E-1

8) I1 - Los contactos del interruptor fallan cerrados

Modo de falla no controlado , con rata de fallas 8E-6/h y


T=8000h. De forma análoga a los casos anteriores, se obtiene:

qI1 = 1 - { 1 - EXP( -8E-6 x 8000 ) } / ( 8E-6 x 8000 ) = 3.13E-2


9) I2 - Los contactos del interruptor fallan cerrados

Modo de falla no controlable, con rata de fallas 8E-6/h y


T=8000h. De forma análoga a los casos anteriores, se obtiene:

qi2 = 1 - { 1 - EXP( -8E-6 x 8000 ) } / ( 8E-6 x 8000 ) = 3.13E-2

- Probabilidades de falla de los CM.

De orden 1: 1 Tpn 4.00E-5


De orden 2: 1 Va.SC 2.48E-5
De orden 3: 5 Va.M.R 2.61E-5
Va.M.T 7.54E-3
Va.E.R 6.70E-6
Va.E.T 1.94E-3
Va.I2.R 2.10E-5
De orden 4: 1 Va.I2.T.I1 1.90E-4
Total :8 9.78E-3

La probabilidad de falla del sistema mediante la expresión [3.3.4] es 9.78E-3/año. Esto


significa que el tiempo medio hasta la falla del tanque por sobrepresión es
aproximadamente de 102 años. Si se emplea la fórmula [3.3.5], se obtiene un valor
ligeramente inferior, 9.76E-3/año. La concordancia de ambos resultados demuestra la
aplicabilidad de la aproximación de sucesos raros a este ejemplo.

Como ya habíamos expresado, el interés principal del análisis radica en la evaluación de


los modos de falla mayores contribuyentes a la probabilidad de falla del sistema. Para
esto resulta conveniente ordenar los CM según su probabilidad de la siguiente forma:

% % Acum.
1) Va.M.T 7.54E-3 77.06 77.06
2) Va.E.T 1.94E-3 19.78 96.84
3) Va.I2.T.I1 1.90E-4 1.94 98.78
4) Tpn 4.00E-5 0.42 99.20
5) Va.M.R 2.61E-5 0.27 99.47
6) Va.SC 2.48E-5 0.25 99.72
7) Va.I2.R 2.10E-5 0.21 99.93
8) Va.E.R 6.70E-6 0.07 100.00

9.78E-3 100.00
En estos resultados se aprecia como más del 95% de las fallas del sistema se concentran
en los 2 primeros CM. Como era de esperar, la falla de la válvula de alivio, que aparece
prácticamente en todos los CM es un suceso básico clave para la falla del sistema.

Sin embargo el CM #6, donde aparece la falla por sobrecorriente en el circuito de


potencia, prácticamente no contribuye a la falla del sistema, a pesar de su condición de
falla causa común. Esto se debe a su probabilidad de falla comparativamente menor que
la de otros modos de falla del sistema. Así pues, no siempre los CM de orden inferior son
los mayores contribuyentes. A veces una secuencia más compleja de varias fallas puede
ser preponderante. En este ejemplo los CM de orden 1 y 2 aportan solamente un 0.67%
de la probabilidad de falla del sistema, mientras que el único CM de orden 4 aparece en la
tercera posición con un aporte de 1.94%.

Es importante que notemos la importante contribución que hace la falla de los contactos
del "timer" a la apertura, que conjuntamente con la falla de la válvula de alivio forma parte
de los 3 CM más importantes con un aporte del 98.78% de la probabilidad de falla total.

El error humano por acción tardía del operador, aunque reviste cierta importancia pues
forma parte del CM #2 que aporta el 19.78%, no constituye un foco de atención vital para
reducir la probabilidad de falla de este sistema. La vía a seguir debe ser tratar de elevar la
confiabilidad de la válvula de alivio Va y del "timer" T.

Una alternativa puede ser realizar una prueba mensual del estado de estos
componentes para proceder al mantenimiento correctivo cuando la prueba detecte
alguna insuficiencia. Realizando estas pruebas periódicas, sólo a dichos componentes,
podemos reducir sustancialmente la probabilidad de falla del sistema y el peligro de rotura
del tanque.

Bajo estas condiciones, se recalculan las probabilidades de falla de la válvula de alivio y


el tanque, mediante la fórmula [2.4.14], con tiempo entre pruebas de 720 horas (1 mes) y
despreciando la duración de la prueba (ç“=0). Dado que durante la prueba el sistema no
está en operación, así como tampoco durante el mantenimiento correctivo que se
requiera, no se han considerado las contribuciones a la probabilidad de falla dadas por
[2.4.10] y [2.4.12]. En este caso, el efecto de la prueba mensual es un corte de los
mecanismos de falla de estos dos componentes cada 720 horas y no al cabo del año de
trabajo, con lo cual sus probabilidades de falla se reducen sustancialmente.

Las nuevas probabilidades de falla son:

2) Va - No abre la válvula de alivio del tanque

Modo de falla controlado periódicamente, con rata de fallas 3E-4/h y tiempo entre
pruebas de 720h.

qVa = ( 3E-4 x 720 ) / 2 = 1.08E-1


7) T - Los contactos del "timer" fallan cerrados

Modo de falla controlado periódicamente, con rata de fallas 1E-4/h y tiempo entre
pruebas de 720h. De forma análoga al caso anterior, se obtiene:

qT = ( 1E-4 x 720 ) / 2 = 3.60E-2

Los resultados de la evaluación cuantitativa en estas nuevas


condiciones son:
% % Acum.
1) Va.M.T 1.51E-4 61.11 61.11
2) Tpn 4.00E-5 16.14 77.25
3) Va.E.T 3.89E-5 15.69 92.94
4) Va.M.R 4.54E-6 1.83 94.77
5) Va.SC 4.32E-6 1.74 96.82
6) Va.I2.T.I1 3.82E-6 1.54 98.06
7) Va.I2.R 3.65E-6 1.47 99.53
8) Va.E.R 1.17E-6 0.47 100.00

2.47E-4 100.00

El efecto de la prueba mensual de los 2 componentes seleccionados reduce la


probabilidad de falla del sistema en más de un orden. El nuevo valor de tiempo medio
hasta la falla es ahora de 4049 años. En la nueva estructura de contribuciones de los CM
vemos que aunque las fallas de la válvula de alivio y del "timer" continúan siendo
predominantes, su aporte relativo es menor. La falla del tanque a presión normal
comienza a tener un aporte sustancial, lo que significa que la protección a la falla por
sobrepresión se ha hecho más efectiva.

Otras posibles alternativas de mejora al sistema respecto a la variante inicial serían:

- Usar componentes de mayor calidad y con menor rata de fallas.

Por ejemplo, si empleamos un "timer" con rata de fallas inferior en un orden (1E-5/h), la
probabilidad de falla de este componente se reduce a 3.90E-2 y la del sistema disminuye,
consecuentemente, al valor 1.32E-3/año. El tiempo medio hasta la falla para estas
condiciones es de 758 años.

La nueva estructura de los CM es:


% % Acum.
1) Va.M.T 9.43E-4 71.03 71.03
2) Va.E.T 2.42E-4 18.23 89.27
3) Tpn 4.00E-5 3.01 92.28
4) Va.M.R 2.61E-5 1.97 94.25
5) Va.SC 2.48E-5 1.87 96.12
6) Va.I2.T.I1 2.37E-5 1.79 97.91
7) Va.I2.R 2.10E-5 1.58 99.49
8) Va.E.R 6.70E-6 0.51 100.00

1.32E-3 100.00

- Utilizar un "timer" redundante idéntico en serie con el que ya aparece en el circuito.

Esta mejora incorpora un nuevo componente y, por tanto, modifica tanto los datos de
confiabilidad como la propia estructura del árbol de fallas. Donde antes aparecía el
suceso básico T (los contactos del "timer" fallan cerrados), ahora se incluye en su lugar
una compuerta AND cuyas entradas son la falla por contactos cerrados de los dos
"timers" en serie T1 y T2. Bajo estas condiciones, es necesario realizar la evaluación
cualitativa del nuevo árbol de fallas y determinar sus CM. Sin embargo, dada la
simplicidad de la modificación realizada en este caso específico, resulta evidente que los
nuevos CM pueden obtenerse de forma sencilla, reemplazando el suceso básico original
T, por el suceso compuesto T1.T2, que representa la falla simultánea de los dos "timers"
en serie.

Finalmente, si realizamos la nueva evaluación cuantitativa partiendo de que qT1 = qT2 =


qT , se obtiene:

% % Acum.
1) Va.M.T1.T2 2.35E-3 75.05 75.05
2) Va.E.T1.T2 6.03E-4 19.27 94.32
3) Va.I1.I2.T1.T2 5.92E-5 1.89 96.21
4) Tpn 4.00E-5 1.28 97.49
5) Va.M.R 2.61E-5 0.83 98.32
6) Va.SC 2.48E-5 0.79 99.12
7) Va.I2.R 2.10E-5 0.67 99.79
8) Va.E.R 6.70E-6 0.21 100.00

3.13E-3 100.00

Esta modificación incrementa la confiabilidad en algo más de 3 veces. El nuevo tiempo


medio hasta la falla es de aproximadamente 320 años.
Hemos podido apreciar en un ejemplo ilustrativo muy simple, como la técnica de árboles
de fallas constituye una herramienta muy útil para fundamentar cuantitativamente la toma
de decisiones en materia de confiabilidad y seguridad de sistemas, las cuales pueden
ser modificaciones pequeñas en el diseño o tipo de equipos utilizados, ajustes en la
estrategia de pruebas y mantenimiento, etc., y, sin embargo, pueden tener un impacto
significativo y cuantificable.

Con este propósito el APS se ha ido estructurando y fortaleciendo con numerosos


indicadores y técnicas de análisis que cuantifican la importancia de diversos factores del
diseño y la explotación .

3.4. Técnica de árboles de sucesos.

Veamos, por último, un nuevo enfoque del proceso que tiene lugar en el ejemplo 3.1.1.
Hasta ahora consideramos de forma deductiva, mediante la técnica de árboles de fallas,
todas las combinaciones de sucesos primarios que conducen al suceso tope no deseado,
rotura del tanque en condiciones de carga normal o por sobrepresión. Si analizamos los
sucesos primarios considerados, llegaremos a la conclusión de que estos pueden ser de
dos tipos:

Iniciadores: Fallas de equipo, errores humanos o sucesos externos que crean una
condición de peligro de daño al sistema y requieren la acción de medios protectores o
acciones del operador para contrarrestarlos o mitigar sus efectos.

Facilitadores: Fallas de equipo o errores humanos que facilitan el desarrollo de la avería,


a partir del iniciador, hacia un estado final no deseado de daño al sistema, al inhabilitar
las acciones protectoras previstas.

En el ejemplo existen 3 posibles iniciadores de una avería que conduzca a la rotura del
tanque por sobrepresión, que es el estado final no deseado. Ellos son:

. R - Los contactos del "relay" fallan cerrados

. SC - Sobrecorriente en el circuito de potencia

. T - Los contactos del "timer" fallan cerrados

Los facilitadores, que podrían conducir a la rotura del tanque si ocurriera alguno de los
iniciadores anteriores son:

. Va - No abre la válvula de alivio del tanque

. M - Manómetro del tanque trabado o indica por debajo


. E - El operador no responde ( error humano )

. I1 - Los contactos del interruptor fallan cerrados

. I2 - Los contactos del interruptor fallan cerrados

El nuevo enfoque a que hacemos referencia, consiste en una técnica de análisis


inductivo, denominada árbol de sucesos, que partiendo de un iniciador particular,
determina las posibles vías conocidas como secuencias, que conducen al suceso final
no deseado más general, en el ejemplo, la rotura del tanque por sobrepresión.

En la figura 3.4.1 se muestran los árboles de sucesos para cada uno de los 3 iniciadores
posibles. Los encabezamientos del árbol de sucesos son funciones necesarias para la
protección del tanque contra la rotura por sobrepresión, que implican el funcionamiento de
componentes, equipos o el éxito de determinadas acciones del operador. En ocasiones
una función se desdobla en varias acciones o en la actuación de varios sistemas, como
ocurre en la figura 3.4.1 a), donde la función desconexión por el operador se ha
desdoblado en dos actividades, la desconexión del circuito de potencia y la desconexión
del circuito de control. Para las acciones o sistemas en el encabezamiento del árbol de
sucesos se producen, cuando corresponde, bifurcaciones en dos caminos posibles, el
éxito que va conduciendo a un estado final seguro, o la falla, que nos lleva al estado final
no deseado. El árbol de sucesos se va ramificando para dar lugar a un conjunto de
secuencias, que se diferencian por la condición de éxito o falla de las funciones
protectoras en cada caso.
En el árbol de sucesos se marcan con la letra D aquellas secuencias en que la
combinación de fallas de las funciones protectoras conducen al estado final no deseado
(daño), mientras que con la letra E se señalan los estados finales exitosos. En el ejemplo,
existe una sola secuencia de daño para cada árbol de sucesos, pues en las restantes
secuencias se garantiza un estado final seguro del tanque. Sin embargo en los casos
reales más complejos, pueden ser varias las secuencias de daño en cada árbol de
sucesos.

Por otra parte, no siempre se produce la bifurcación del árbol en cada sistema o acción
protectora. En el árbol de sucesos de la figura 3.4.1 a) se aprecia como, por ejemplo, si
tiene éxito la interrupción de la corriente en el circuito de potencia no se da ninguna
alternativa para las restantes acciones protectoras (interrupción de la corriente en el
circuito de control y alivio de presión en el tanque), pues la primera ya garantiza la
integridad del tanque y no se requieren otras acciones. Existen otros casos en que
determinadas funciones son alternativas a la falla de una función anterior y sólo se
modelan opciones para ellas en los casos en que la función precedente no ha sido
exitosa.

Para hallar la probabilidad del suceso final no deseado, es preciso hallar las
probabilidades de todas las secuencias que conducen al daño y sumarlas, teniendo en
cuenta las contribuciones de todos los iniciadores posibles. La evaluación de la
probabilidad de cada secuencia se realiza formando el árbol de fallas de la secuencia,
que une con una compuerta AND a todos los árboles de fallas de las acciones protectoras
que no tienen éxito en la secuencia. En la figura 3.4.2 se muestra el árbol de fallas de la
secuencia que conduce al daño del tanque por sobrepresión, para el iniciador T - Los
contactos del "timer" fallan cerrados. La única modificación con respecto al árbol de fallas
de la figura 3.1.4 es que no se incluye el suceso primario sobrecorriente en el circuito de
potencia SC como modo de falla del interruptor I2, porque SC es otro iniciador y la
probabilidad de ocurrencia simultánea de dos iniciadores (en este caso T y SC) es
despreciable.
Fig. 3.4.2. Arbol de fallas de la secuencia que conduce al daño del tanque por
sobrepresión, para el iniciador T - Los contactos del "timer" fallan cerrados.

Si realizamos la determinación de los CM de la secuencia y el cálculo de su probabilidad,


llegaremos a los siguientes resultados:

CM Prob.

T.M.Va 7.54E-3
T.E.Va 1.94E-3
T.I1.I2.Va 1.90E-4
Total 9.67E-3

Análogamente, se determinan los CM y las probabilidades de las secuencias que


producen el daño al tanque, para los restantes iniciadores.

- Iniciador R - los contactos del "relay" fallan cerrados

CM Prob.

R.M.Va 2.61E-5
R.I2.Va 2.10E-5
R.E.Va 6.70E-6
Total 5.38E-5
- Iniciador SC - sobrecorriente en el circuito de potencia

CM Prob.

SC.Va 2.48E-5
Total 2.48E-5

La probabilidad de daño al tanque por sobrepresión puede hallarse como la suma de las
probabilidades de daño para cada uno de los iniciadores posibles, teniendo en cuenta que
éstos se consideran sucesos mutuamente excluyentes.

Finalmente, esta probabilidad de falla PTsp será:

PTsp = 9.67E-3 + 5.38E-5 + 2.48E-5 = 9.75E-3/año.

Se puede apreciar como estos resultados concuerdan con los obtenidos por la técnica de
árboles de fallas para el suceso no deseado rotura del tanque por sobrepresión, que
excluye el suceso primario Tpn - Rotura del tanque a presión normal.

Para el análisis de industrias complejas no resulta conveniente, como se ha hecho en el


ejemplo 3.1.1, construir un árbol de fallas único, que incluya todos los sucesos primarios,
tanto iniciadores como facilitadores, que se deducen del suceso tope no deseado. Esto
resultaría demasiado complejo y dificultaría el análisis.

Lo más conveniente es partir de un estudio denominado Análisis de modos y efectos de


fallas (FMEA en inglés, ver anexo C), para identificar los posibles sucesos iniciadores de
avería en la industria y estimar su frecuencia de ocurrencia.

Para cada uno de los iniciadores se desarrollan los árboles de sucesos que conducen a
un estado final de daño, previamente definido de acuerdo con los objetivos del estudio y
que puede ser solamente de carácter económico o incluir además posibles efectos
nocivos sobre el personal de la industria y/o el medio ambiente. En los árboles de
sucesos se modela el comportamiento de las funciones protectoras previstas en cada
caso y se determinan las secuencias cuyo estado final es el daño.

Para evaluar la probabilidad de fallas de las funciones protectoras se aplica entonces la


técnica de árboles de fallas, es decir, se realiza el análisis de confiabilidad del sistema o
los sistemas que cumplen cada función. Para estimar la frecuencia esperada de
ocurrencia del estado final no deseado (daño), es necesario resolver grandes árboles de
fallas para cada secuencia de daño, que resulta de la integración de los árboles de fallas
de los sistemas que no tienen éxito en dicha secuencia.
Esta es la esencia del APS y, para obtener todas las ventajas que él puede ofrecernos, el
camino a seguir es la construcción de un modelo integral de la industria, aplicando de
forma combinada las técnicas de árboles de sucesos y árboles de fallas.

Las herramientas desarrolladas en el APS permiten cuantificar la importancia de sucesos


básicos, sistemas, secuencias accidentales y sucesos iniciadores de avería. Con esta
valiosa información se pueden dirigir todos los esfuerzos a los puntos débiles
identificados con un nivel de integración que abarca toda la industria y toma en cuenta las
interrelaciones e interdependencias entre sistemas, componentes y acciones humanas.
IV. Aplicaciones de los análisis de confiabilidad.
4.1. Análisis de importancia y de sensibilidad.

4.1.1. Análisis de importancia.

Una de las aplicaciones de los análisis probabilista de seguridad de mayor utilidad


práctica, es la realización de los estudios de importancia. Estos tienen como objetivo
determinar el aporte relativo de cada componente o sistema al riesgo (probabilidad del
suceso no deseado) calculado desde el punto de vista del diseño, la operación u otros
aspectos.

Este aporte se expresa de forma cuantitativa por medio de las medidas de importancia
En general las medidas de importancia (conocidas más de una decena en la literatura)
evalúan el impacto que un determinado factor tiene sobre el riesgo global.

De manera genérica se expresa como:


Importancia del Contribución del factor al
factor sobre el = riesgo ó cambio del riesgo
riesgo introducido por el factor

Aunque el concepto de indisponibilidad y su cuantificación se aplican sólo a


componentes o sistemas a la espera, el término se acostumbra a usar para identificar
diferentes tipos de análisis, como por ejemplo al análisis de indisponibilidad instantánea o
media, que pueden conjugar regímenes de espera y operación. Se utiliza comúnmente
además en la definición de las medidas de importancia, como veremos a continuación.

De modo general, tres de las medidas de importancia más empleadas en estos análisis,
son :

4.1.1.1. Medida de importancia Fussel-Vesely.

Esta medida de importancia, cuando se define para un componente dentro de un sistema,


es la suma de las probabilidades de cada uno de los conjuntos mínimos donde está
presente el componente, dividida entre la probabilidad total de falla del sistema de
referencia, o sea, representa el aporte relativo de indisponibilidad de dicho componente a
la indisponibilidad total del sistema.
Esta medida de importancia es siempre menor que la unidad y se expresa como:

ΣQcmi
FV =  [4.1.1]
Qm
donde:

ΣQcmi Suma de las probabilidades de los conjuntos mínimos


donde se encuentra el componente i.

Qm Indisponibilidad media del sistema.

4.1.1.2. Medida de importancia de Reducción del Riesgo.

Esta medida de importancia da un criterio de cuanto puede disminuir el riesgo global, si


el componente objeto del análisis fuera perfecto, es decir que su probabilidad de falla es
igual a cero. En el sistema ARCON se determina de dos formas: por la fórmula del
cociente y la fórmula de la resta.

De la primera fórmula se obtienen siempre valores mayores que la unidad y su expresión


es la probabilidad de falla del sistema dividida entre la probabilidad de falla del mismo
con el componente completamente disponible ( estado perfecto o indisponibilidad del
componente igual a cero), esto se expresa como:

Qmedia
RRW =  [4.1.2]
Qmedia(Pi= 0)

donde

Qmedia(Pi=0) - Es la Qmedia con el componente i en perfecto estado.

La segunda fórmula (de la resta) se calcula mediante la diferencia entre la probabilidad


de falla del sistema y la probabilidad de falla del mismo cuando la componente se
encuentra en estado perfecto. Esto es:

RRW = Qmedia - Qmedia(Pi=0) [4.1.3]

Esta medida debe ser siempre mayor que cero. En el caso que sea igual a cero, significa
que el componente objeto de análisis no está presente en ninguno de los conjuntos
mínimos del sistema. Cuanto menos aporte relativo tenga el componente en el sistema,
menor será el valor de la importancia. Esta medida de importancia proporciona una
información muy útil en el proceso de selección de los componentes y en el
establecimiento de la configuración de los sistemas durante la etapa de diseño, pues
permite agrupar en un orden jerárquico el grupo de elementos cuya mejora aporta un
beneficio sustancial en la disminución del riesgo global de los sistemas analizados.
4.1.1.3. Medida de importancia de incremento del riesgo.
Esta medida de importancia da un criterio de cuanto puede aumentar el riesgo global, si el
componente objeto de análisis es totalmente imperfecto, o sea, suponiendo que su
probabilidad de falla es igual 1.

Las fórmulas son las siguientes:

- cociente,

Qmedia(Pi= 1)
RAW =  [4.1.4]
Qmedia

- resta,

RAW = Qmedia(Pi=1) - Qmedia [4.1.5]

Ambas expresiones son útiles para evaluar el aporte relativo de cada uno de los
componentes por separado al incremento del riesgo de un sistema, partiendo de que
estos componentes se encuentran fallados o fuera de servicio. En la práctica esta
medida permite dirigir los esfuerzos hacia aquellos elementos de mayor impacto sobre el
riesgo (indisponibilidad) durante la actividad de explotación.

4.1.1.4. Estudios de Priorización.

Dentro del amplio espectro de aplicaciones de APS, los estudios de priorización


constituyen una de las herramientas prácticas que más utilidad reportan en el aumento
de la disponibilidad operacional de instalaciones industriales.

Los procedimientos de priorización se basan en:

- Contribución de conjuntos mínimos.


- Medidas de importancia de riesgo.

Los estudios de priorización basados en importancia constituyen una aplicación particular


de los análisis de importancia. La característica distintiva de los análisis de importancia
habitualmente realizados por otros sistemas en el mundo es que el ordenamiento de los
contribuyentes según su importancia se realiza sin tener en cuenta ningún atributo, por lo
que resulta imposible identificar el aporte de determinados modelos, parámetros u otras
características específicas (tiempo entre pruebas, tiempo permisible fuera de servicio,
mantenimientos, tipo de componente, etc) a la frecuencia del suceso no deseado o a la
indisponibilidad operacional de la instalación.

Cuando se realizan estudios de priorización es posible determinar claramente la influencia


sobre la frecuencia del suceso no deseado o la indisponibilidad operacional de la
instalación, del atributo escogido como parámetro para realizar la priorización. Para la
implementación de los estudios de priorización por importancia se han desarrollado
determinados procedimientos según el atributo seleccionado para el mismo. Estos
atributos son:

- Tiempo entre pruebas.


- Mantenimiento.
- Modelo de componente.
- Tiempo permisible fuera de servicio (AOT).
- Sin atributo.

Cuando se realiza un estudio de priorización dado con el objetivo de identificar la


contribución de algún atributo (tiempo entre pruebas, AOT y otros ) a la indisponibilidad
del sistema, es indispensable realizar una selección de los componentes, que por su
influencia en el atributo deben ser incluidos en el análisis y separar dentro de los modelos
de cálculo de cada componente, aquellos términos relacionados con el atributo en
cuestión.

En los estudios tradicionales de APS, la modelación de los componentes-modos de fallas


se realiza explícitamente, es decir están separados los contribuyentes que representan
indisponibilidad durante las pruebas, fallas ocultas y mantenimientos correc-tivos . Este
aspecto, aunque simplifica los estudios por parámetros medios, complica la ejecución de
estudios de indispo-nibilidad instantánea, ya que se pierde la continuidad de la función
que describe la indisponibilidad de un componente en el que se conjuguen todas estas
características de fallas.

Esto significa, que en los estudios de priorización generalmente realizados, basta con
seleccionar para los análisis aquellos componentes, cuyas características corresponden
al atributo por el que se prioriza; mientras que en ARCON, adicionalmente a lo anterior, el
sistema realiza (de forma automática) la selección en el modelo de indisponibilidad media
de los componentes sujetos a priorización de los términos que corresponden al atributo
en cuestión.

El significado de esta afirmación se explica detalladamente para cada caso en la siguiente


tabla:
Priorización por Elementos a tener en cuenta y términos de la
fórmula que se consideran
Tiempo entre pruebas Se realiza sólo para elementos probados periódicamente
(Tipo 4 según ARCON). Se tiene en cuenta el término de
la fórmula Qcomp=Pnt(ç“/Tp) (ver [2.4.10]) , que es el
aporte de las pruebas a la Qmedia. La priorización se
realiza por RRW, yaque la misma expresará en este
caso cuanto disminuye el riesgo cuando se logra reducir
a cero la indisponibidad durante la prueba (prueba
perfecta). La fórmula de la RRW en este caso es
idéntica a la fórmula de la resta ya explicada y sólo se
tienen en cuenta los parámetros:

Qmedia del sistema - Qmedia de los CM con


componentes tipo 4, considerando para la Qcomp. sólo el
término de la fórmula anteriormente explicado.

Qmedia(Pi=0) - Qmedia del sistema,explicada en


este aspecto pero considerando probabilidad cero
para el componente i tipo 4.

Mantenimiento Sólo se consideran los elementos que se afectan con los


mantenimientos. Para ARCON son los tipos 3, 4 y 6.
En cada caso los términos que se tienen en cuenta
son:

R
Tipo 3 Qcomp =  (ver [2.4.7])
R + µ

Tipo 4 Qcomp= q = 1/2 Rdet*(Tp-τ)+


+Rdet(Tr+Phe(Tp-τ-Tr)
+1-(1/RnoT)(1-EXP(-RnoT))
+ qad (ver [2.4.15])

donde:

Rdet=(1-Inef).R;Rno=Inef.R;
Phe=Phet+(1-Phet)Phem
Tipo 6 Qcomp= ç“m/Tm

La priorización se realiza por la medida RRW. Para


los componentes tipo3 y 4 la RRW indica en cuanto se
reduce el riesgo de realizarse un efectivo
mantenimiento en los componentes analizados que
fuera capaz de llevar su indisponibilidad a cero. Para los
componentes tipo 6 la RRW representa la reducción de
riesgo que se logrará si se redujera a cero la
indisponibilidad del componente Los aspectos sobre el
cálculo de la Qmedia y de la RRW siguen las mismas
reglas anteriores pero adaptadas a es-tos tipos de
componentes.
Tiempo permisible fuera de servicio En este caso sólo se consideran los elementos con
(AOT) posibilidad de salir fuera de servicio de acuerdo a las
especificaciones técnicas de la instalación. Para ARCON
estos son los tipos 4 y los tipos 1 y 3 que el usuario
considere necesario y a los cuales ha asignado un valor
de AOT en la base de datos.

La medida seleccionada para priorización es la RAW,


que significa cuanto se incrementa el riesgo cuando
el componente está fuera de servicio. El valor RAW se
calcula tal como se plantea en la fórmula [4.1.5].
Sin atributo La priorización sin atributo como su nombre indica se
realiza sin ninguna eliminación de tipos de
componentes. Se priorizan las contribuciones
partiendo de la medida RRW que se calcula de
acuerdo a la fórmula [4.1.3] . En este caso la priori-
zación se realiza atendiendo al impacto global que tiene
cada componente sobre la reducción del riesgo, sin
separar las contribuciones debidas a uno u otro factor.
Por modelo de componente Para priorización por modelo de componente se puede
utilizar el campo sistema, sí dentro del mismo se ha
hecho la descripción del modelo de componente. Como
modelo se entiende válvula eléctrica, neumática, bomba
eléctrica, diesel y otros. Esta priorización se basa también
en la RRW de cada componente. Esta opción en ARCON
se encuentra en desarrollo. En dependencia de la
resolución de la base de datos, estos análisis se pueden
llevar hasta el nivel de priorización de componentes
según el diseño y/o fabricante de los mismos

Cuando se realiza un estudio de priorización a partir de determinado atributo específico,


el cálculo de la medida de importancia a utilizar se adecúa al atributo objeto de
priorización.
Cuando se trata de realizar un estudio de priorización la posibilidad de su ejecución es
simple, si se parte del hecho de que los procedimientos están elaborados correctamente.
Lo novedoso en este caso resulta la implementación de los estudios de priorización por
importancia, directamente dentro de un sistema de APS combinado con todas las
posibilidades que caracterizan al sistema ARCON ( análisis de indisponibilidad media e
instantánea, análisis de sensibilidad, ,puntos aislados del tiempo, etc ).

Los estudios de priorización por importancia, que se han previsto dentro del sistema
ARCON como una opción particular del Análisis de Importancia, fueron enumerados en el
desarrollo de este aspecto.

Las ventajas que reporta el análisis dentro del sistema son evidentes:

1. Realización de los estudios de priorización utilizando el sistema directamente y


documentación inmediata de estos resultados con los listados, según se establece en
los procedimientos de priorización de los mayores y menores contribuyentes al
impacto al riesgo.

2. Ensayar posibles medidas de reducción de la contribución al impacto al riesgo de los


mayores contribuyentes cambiando las bases de datos y realizando nuevos estudios
de priorización.

3. Combinar los estudios de priorización con otras potencialidades existentes en el


sistema, como análisis de sensibilidad lo que contribuye a la optimización de los
parámetros más sensibles de los componentes prioritarios.

Para culminar el desarrollo de este epígrafe se presenta una tabla de priorización de


contribuyentes tomando como atributo el tiempo entre pruebas, obtenida con el sistema
ARCON, para un sistema tecnológico de seguridad. En estudios de priorización al nivel
de parte o de todo el APS o de estudios de disponibilidad de planta, se observan
diferencias notables entre los mayores y menores contribuyentes, lo que permite
categorizarlos por grupos de impacto al riesgo. Este análisis realizado, a los niveles
anteriormente mencionados, permite descartar los contribuyentes de menor impacto de
acuerdo al atributo utilizado durante la priorización y centrar la atención en los mayores
contribuyentes.

A continuación se presenta una tabla de priorización por tiempo entre pruebas para un
sistema de seguridad de una Central Nuclear.
COMPONENTES RRW % RRW %Acum
38 LF-TH23S01-O 9.69E-6 17.33 9.96E-6 17.33
12 LF-TH43S01-O 9.69E-6 17.33 1.93E-5 34.66
20 LF-TH63S01-O 9.69E-6 17.33 2.90E-5 51.99
5 LF-TH21D01-S 8.60E-6 15.38 3.76E-5 67.38
27 LF-TH41D01-S 8.60E-6 15.38 4.62E-5 82.76
45 LF-TH61D01-S 8.60E-6 15.38 5.48E-5 98.14
6 LF-TH20S04-O 1.84E-7 0.33 5.50E-5 98.47
28 LF-TH40S04-O 1.84E-7 0.33 5.52E-5 98.80

Tabla 4.1.1. Priorizacion por tiempo entre pruebas.

4.1.2. Análisis de Sensibilidad por indisponibilidad media.

Los análisis de sensibilidad tienen como propósito conocer la influencia de determinado


parámetro, variables o combinaciones de estas en la indisponibilidad final de los
sistemas.

Para que estos análisis tengan un resultado apreciable, deben realizarse a los
componentes que más contribuyen a la indisponibilidad total de los sistemas, cuestión
que se logra dirigiendo los estudios a los componentes más importantes, obtenidos de los
análisis de importancia.

El tipo de análisis de sensibilidad debe corresponder con el tipo de estudio de importancia


realizado, con vista a lograr el
resultado esperado.

El sistema ARCON brinda la posibilidad de realizar diferentes estudios de sensibilidad,


utilizando los modelos de indisponibilidad media de componentes.

Como variables de entrada se identifican:

- Probabilidad de falla fija.


- Rata de falla.
- Tiempo de reparación.
- Duración de las pruebas/ mantenimientos.
- Tiempo entre pruebas/ mantenimientos.

La forma de preparación del estudio de sensibilidad, parte de la asignación de las


variables estudiada y parámetro, así como de los componentes afectados en cada caso.

En el caso más complejo, el resultado del estudio de sensibilidad es una gráfica de una
familia de curvas cuyas características son:

1- En el eje de las abcisas se ubica la variable estudiada.


2- En el eje de las ordenadas se ubica el parámetro de fiabilidad que se estudia
(Indisponibilidad a la demanda, probabilidad de falla en operación, probabilidad de no
cumplimiento de la función de seguridad).
3- Cada una de las curvas de sensibilidad representa un valor de la variable parámetro.
Estos estudios permiten encontrar los valores óptimos de los parámetros que son
objetos de análisis y tomar decisiones al respecto. Sin embargo, los estudios de
sensibilidad, utilizando los modelos de indisponibilidad media de componentes, están
limitados en su alcance y por el número de parámetros que pueden ser analizados.
En el ejemplo de la figura 4.1.1 se muestra un estudio de sensibilidad donde se analiza el
comportamiento de un sistema, integrado por trenes redundantes, ante mejoras del
equipamiento (variación de las ratas de fallas), junto con la influencia que produce los
cambios de los tiempos entre pruebas de sus trenes. Se aprecia que existe una variación
significativa de los valores de indisponibilidad en función del tiempo entre pruebas, así
como también de la variación de las ratas de fallas. De esta curva es posible deducir el
parámetro óptimo, para el tiempo entre pruebas de este sistema.

Fig. 4.1.1. Estudio de sensibilidad del comportamiento de la variación de la rata de fallas ( variable parámetro ) y la
variación de los tiempos entre pruebas (variable estudiada) en un sistema con trenes redundantes.
Para analizar el comportamiento de la variación de estos y otros parámetros (por
ejemplo, ineficiencia de las pruebas, envejecimiento debido a pruebas, escalonamiento de
pruebas y mantenimientos, etc.), estos estudios deben realizarse sobre la base de
modelos de indisponibilidad instantánea, que ofrecen un resultado más realista e integral
sobre el comportamiento temporal y medio de la indisponibilidad del sistema.
4.2. Análisis de Indisponibilidad Instantánea.

Los análisis de indisponibilidad sobre la base de modelos de indisponibilidad instantánea,


describen el comportamiento de los valores de indisponibilidad de un sistema en cada
instante de tiempo.

En la mayoría de los casos, la distribución de los valores de indisponibilidad, en los


estudios reales de sistemas, está acompañada de grandes variaciones y discontinuidades
que provocan saltos muy bruscos del comportamiento de esta función en el tiempo. Por
esta razón, la representación gráfica de los valores de indisponibilidad, resulta una forma
muy efectiva, y en algunos casos única, de conocer el comportamiento de determinado
parámetro en el tiempo. Para una mejor apreciación de los resultados, estos se grafican
en escala semilogarítmica. La distribución de los valores de indisponibilidad se realiza en
escala logarítmica en el eje "Y", mientras que los valores de la variable del tiempo en el
eje "X" con escala lineal.

Los análisis de indisponibilidad instantánea exigen usualmente un gran consumo de


tiempo de cálculo, debido a la necesidad de determinar punto a punto los valores de
indisponibilidad en el tiempo. La duración de este proceso depende, en gran medida, de
la dimensiones (cantidad de eventos básicos) y complejidad (configuración e
interdependencia) de los sistemas analizados y de los métodos de cálculos empleados.

Por esta razón, son poco frecuentes los estudios de confiabilidad basados en
indisponibilidad instantánea, siendo más generalizada esta aplicación a estudios de
sistemas aislados.

La mayoría de los sistemas de APS en uso, se limitan a evaluaciones de


indisponibilidades medias a partir de la indisponibilidades medias de los componentes,
donde la razón fundamental, como es conocido, es que estos son más rápidos, pues
requieren la evaluación de los CM una sola vez.

Sin embargo, los análisis de indisponibilidad instantánea aportan una información más
completa sobre las características de diseño, operación, pruebas y mantenimiento
de los sistemas, que permite dirigir los esfuerzos de una manera más eficaz sobre
las áreas sensibles de los sistemas más importantes resultantes del APS.

En ARCON, el cálculo de los valores de indisponibilidad instantánea se realiza aplicando


el concepto de reducción booleana dinámica, que se introduce a partir de una nueva
técnica en la teoría de generación y cálculo de los CM.

La reducción booleana dinámica consiste en el reajuste dinámico, partiendo de una


forma novedosa de determinación y almacenamiento de los CM del árbol de fallas original
y de la eliminación total de los contribuyentes ilegales más importantes (supersets) que
surgen en el proceso evaluativo. El fichero de los CM obtenido inicialmente, mantiene
toda la información necesaria, para realizar, en la medida que exista un cambio de la
configuración, la actualización de los CM del sistema, sin necesidad de recurrir a una
nueva generación de los CM del árbol de fallas correspondiente a la nueva configuración.

Esta situación se presenta cuando se realizan pruebas o mantenimientos que sacan


completamente fuera de servicio a componentes o grupos de componentes. Bajo estas
condiciones existe certeza sobre la condición de algunos componentes que están
completamente indisponibles y ello reduce el número de CM de falla del sistema en ese
instante. El resultado obtenido consiste en la posibilidad de reconfigurar dinámicamente
los CM del sistema en dependencia de su estado operativo, partiendo del árbol de fallas
genérico original, sin necesidad de reconfigurar el árbol y resolverlo para cada estado.
Aunque el problema es conocido, no ha sido posible realizar estas reevaluaciones de
forma dinámica debido al gran volumen de cálculo que representan y la práctica
internacional es calcular siempre todos los CM del árbol original aunque esto conduzca a
una sobreestimación del resultado.

La generación de los CM de árboles de fallas suele ser en muchos casos un proceso para
el que se requiere un gran tiempo de máquina, por lo que su realización de forma
repetida, es una tarea que en la práctica sería ineficiente y poco competitiva. La
reducción booleana dinámica permite dar respuesta con efectividad a este problema y
como consecuencia la obtención de una información más real del comportamiento de los
sistemas analizados, que es el objetivo final de estos estudios. Se demuestra que los
cálculos tradicionales por parámetros medios e instantáneos (sin reducción booleana
dinámica), bajo las mismas condiciones de partida sobrevaloran el comportamiento de la
indisponibilidad del sistema, y en algunos casos distorsiona también el comportamiento
real de determinados parámetros de fiabilidad. En particular, con respecto a los valores
de indisponibilidad media estos pueden llegar a una sobreestimación de un 30-40 %, e
incluso mayor.

4.2.1. Parámetros que describen el comportamiento de las curvas de indisponibilidad


instantánea.

Existen dos parámetros significativos en los análisis tradicionales de indisponibilidad


instantánea, que de cierto modo, permiten conocer el comportamiento de los sistemas e
incluso compararlos con otros. Estos son:

- Indisponibilidad Media: El valor de la indisponibilidad media a partir de los valores


instantáneos de indisponibilidad se determina por la integral de la distribución de los
valores de indisponibilidad en función del tiempo, en el intervalo de observación (o sea,
área bajo la curva) entre el tiempo total de observación.

De forma análitica:
1 T
T ∫o
Qmed = q(t )dt
donde:
q(t) - función de indisponibilidad instantánea.
T- tiempo de observación.
- Indisponibilidad máxima: El valor máximo que alcanza la indisponibilidad en un instante
de tiempo, dentro del intervalo de observación.
Qmax= q(t1)
q(t1) - función de indisponibilidad instantánea.
t1 - tiempo donde se obtiene el valor máximo de indisponibilidad.
Junto a estos, hay otro grupo de parámetros específicos de componentes, definidos en
el epígrafe 2.4 (tiempo entre prueba, tiempo de duración de las pruebas-mantenimiento,
tiempo permisible con el componente fuera de servicio, tiempo hasta la primera prueba-
mantenimiento, tiempo de reparación y otros), cuyo comportamiento aproximado se
refleja en las curvas de indisponibilidad instantánea, brindando además una información
muy útil para el análisis detallado del sistema.

NUEVOS CONCEPTOS APLICADOS AL ANÁLISIS


DE INDISPONIBILIDAD INSTANTÁNEA.
No obstante, la complejidad de los análisis de indisponibilidad instantánea ha exigido la
adopción de nuevos conceptos que permitan abarcar las interioridades derivadas del
comportamiento temporal de la indisponibilidad de los sistemas.
Estos conceptos han demostrando su mayor utilidad en los casos de los análisis
comparativos entre sistemas de muy alta complejidad y con indisponibilidad media similar,
en los que este último indicador no permite la selección del sistema, integralmente más
adecuado, desde el punto de vista de la confiabilidad. Otra aplicación muy útil de estos
conceptos es la comparación de la indisponibilidad de sistemas con respecto a metas de
fiabilidad específicas.
Una de las utilidades de mayor importancia, de los indicadores derivados de este grupo
de conceptos (vulnerabilidad, distribución, homogeneidad y contribución), es que permite
identificar los contribuyentes predominantes entre los modos de falla posibles en el
sistema.
Estos nuevos conceptos (o indicadores), aplicados al análisis de indisponibilidad
instantánea, se exponen a continuación:
- Vulnerabilidad VN ( Concepto introducido por J. Nápoles, coautor del sistema ARCON)..

Es el tiempo transcurrido expresado en horas totales acumuladas de indisponibilidad de


un sistema, cuando el valor de indisponibilidad del sistema sobrepasa una meta
cuantitativa de indisponibilidad dada. O sea, es el tiempo que un sistema es
"vulnerable" al valor establecido en una meta dada.
- Distribución NRS (Concepto introducido por J. Nápoles, J. Rivero y J. Salomón autores del sistema ARCON.)

La distribución representa el valor de la suma de las áreas de indisponibilidad en los


intervalos de tiempo en que el sistema es vulnerable a una meta dada. El gráfico de
distribución representa entonces el comportamiento de la distribución en función de la
vulnerabilidad del sistema.
- Homogeneidad.
Es un indicador que caracteriza el nivel de aplanamiento del gráfico de indisponibilidad
instantánea del sistema. Se calcula como la razón, expresada en por ciento, de la
vulnerabilidad del sistema evaluada en el punto donde el indicador de distribución NRS es
igual al valor medio de indisponibilidad del sistema entre el periodo total de observación.
- Contribución NRS.
La contribución es la suma de las razones de las áreas de indisponibilidad del sistema
sobre el área total para determinada meta cuantitativa. Solamente se alcanza el valor del
área total de indisponibilidad del sistema cuando la meta cuantitativa es cero. El gráfico
de contribución representa este indicador en función de la vulnerabilidad del sistema. En
este gráfico se representa el valor de indisponibilidad media del sistema, que es el valor
máximo teórico que puede alcanzar este indicador.
En la figura 4.2.1 se muestra el estudio de indisponibilidad instantánea del ejemplo 3.1.1.
El comportamiento esperado, está representado por el crecimiento exponencial de la
indisponibilidad del sistema durante todo el tiempo de observación.

Fig. 4.2.1. Estudio de indisponibilidad instantánea para el caso base del ejemplo 3.1.1.
4.2.2. Análisis de sensibilidad por indisponibilidad instantánea.

Estos análisis, en comparación con los análisis de sensibilidad a partir de las


indisponibilidades medias de los componentes, abarcan un mayor número de parámetros
de fiabilidad y permiten, además, obtener una información más completa sobre la
contribución relativa de los propios parámetros en la indisponibilidad del sistema. Por
ejemplo, el análisis de la influencia del escalonamiento de las pruebas y los
mantenimientos es un tipo de estudio de sensibilidad que solamente se puede hacer
sobre la base de modelos de indisponibilidad instantánea.

Un ejemplo, de aplicación práctica de estos análisis, se muestra en el gráfico comparativo


del propio ejemplo 3.1.1 (ver fig. 4.2.2), donde se analiza la variante de pruebas
concentradas (timer y válvula de alivio probados juntos cada 720 horas) contra la
variante de pruebas distribuidas (igual período de pruebas, pero con desplazamiento de
360 horas entre ambos elementos). El resultado del estudio demuestra, de manera
inobjetable, la influencia del desplazamiento de las pruebas en la variación de la
indisponibilidad del sistema.

La variación obtenida representa una disminución de un 32 % del valor medio de la


indisponibilidad del sistema, cuestión que no se revelaría si este estudio de
indisponibilidad se realizara a partir de indisponibilidades medias de componentes.

Fig. 4.2.2. Gráfico comparativo entre las variantes de pruebas


concentradas y distribuidas del ejemplo 3.1.1.

Otras variantes de aplicación, tomando como ejemplo 3.1.1, se presentan en las fig.
4.2.3 y 4.2.4.
En el primer caso, se compara el caso base con respecto a otra variante con introducción
de una mejora o cambio de equipamiento en la válvula de alivio, siendo la variación de la
rata de fallas, el parámetro que representa esta modificación.

Fig. 4.2.3. Gráfico comparativo entre dos variantes del estudio 3.1.1, caso base y variante
con cambio o mejora de la válvula de alivio del sistema. Valor inicial de la rata de fallas
(caso base), valor modificado (variante de cambio o mejora).
En el segundo caso, la comparación se realiza contra un ejemplo donde se modifica la
configuración del sistema. Esta consiste en la adición de un segundo timer con idéntica
función. En este caso, es necesario variar el árbol de fallas del sistema, así como agregar
un elemento en la base de datos de confiabilidad.
En cada uno de estos ejemplos, resulta fácil reconocer la característica del
comportamiento de cada parámetro de fiabilidad en el sistema, así como diferenciar
de manera simple, un caso con respecto a otro. En este aspecto, la forma de la curva,
tiene el peso fundamental en la información que se brinda en el gráfico de
indisponibilidades instantáneas, y de aquí su utilidad en los estudios comparativos.

Fig. 4.2.4. Gráfico comparativo entre caso base y variante con dos timer.
El análisis de la influencia de la estrategia de las pruebas y mantenimientos, en la
actividad
de planificación para garantizar índices elevados de confiabilidad y seguridad, es una
aplicación de extrema importancia. Sólo mediante la aplicación de estos estudios es
posible conocer el comportamiento temporal de estos índices de confiabilidad y
seguridad de la instalación, en dependencia del comportamiento de la estrategia de
pruebas y mantenimientos.

Durante la modelación de la indisponibilidad instantánea de un sistema se presentan


periódicamente puntos donde, como consecuencia de la salida de servicio de
determinados equipos, se pueden alcanzar configuraciones críticas o cercanas a las
mismas. La explicación detallada del control de configuración (control de configuraciones
críticas y mantenimientos simultáneos), así como la utilización de la indisponibilidad
instantánea para el desarrollo de estas y otras aplicaciones de APS se abordan en el
capítulo V.

Fig. 4.2.5. Estudio de indisponibilidad instantánea del ejemplo


3.1.1 del caso base con pruebas concentradas.

En la figura 4.2.6 se muestra la curva de comportamiento de la distribución NRS y el valor


de homogeneidad correspondiente al estudio de instantánea del ejemplo 3.1.1 para la
variante de pruebas concentradas, que se presenta en la figura 4.2.5. En la figura 4.2.8
se muestra la curva de comportamiento de la distribución NRS y valor de homogeneidad
correspondiente al estudio de instantánea del ejemplo 3.1.1 para la variante de pruebas
distribuidas, que se presenta en la figura 4.2.7. En este último caso, al comparar la curva
de distribución y la homogeneidad con la variante anterior, se observa la tendencia al
aplanamiento de dicha curva, así como un aumento del valor de homogeneidad,
resultado que concuerda con el comportamiento esperado.

En la figuras 4.2.9 y 4.2.10 se presentan los gráficos de contribución NRS de cada caso
respectivamente.

Fig. 4.2.6. Curva de distribución NRS del ejemplo 3.1.1 con las
pruebas concentradas.

Fig. 4.2.7. Estudio de indisponibilidad instantánea del ejemplo 3.1.1,


con las pruebas distribuidas.
Fig. 4.2.8. Curva de distribución NRS del ejemplo 3.1.1 con las
pruebas distribuidas.

Fig. 4.2.9. Curva de contribución NRS del ejemplo 3.1.1 con las
pruebas concentradas.
Fig. 4.2.10. Curva de contribución NRS del ejemplo 3.1.1 con las
pruebas distribuidas.

En el gráfico de la figura 4.2.11 se muestra el valor hallado del tiempo de vulnerabilidad,


en dependencia de una meta específica, introducida a manera de ejemplo en el
gráfico de pruebas distribuidas del ejemplo 3.1.1.

Fig. 4.2.11. Representación del tiempo de vulnerabilidad (TV=1264 horas) en


función de una meta de Qsist= 4.11e-04, en el gráfico de pruebas distribuidas del
ejemplo 3.1.1.
Teniendo en cuenta que en los ejemplos analizados las diferencias entre los valores de
las Qmedia obtenidas es notable, no es posible demostrar la aplicabilidad de estos
indicadores para realizar comparaciones de sistemas en base a su confiabilidad. En el
capítulo VI se desarrolla en detalle un ejemplo práctico donde se demuestra esta
potencialidad.

Fig. 4.2.12. Gráfico de indisponibilidad instantánea correspondiente al trabajo de una


instalación con la utilización de una estrategia de pruebas incorrecta.

En el ejemplo del gráfico de la indisponibilidad instantánea de la figura 4.2.12 se muestra


el comportamiento de una instalación conformada por varios sistemas, con diferentes
estrategias de pruebas y mantenimientos. Como se muestra en la curva, a las 7201
horas de trabajo, la instalación alcanza un valor de indisponibilidad igual 1, lo
que significaría, la salida de servicio de la misma. La causa de esta salida de servicio
sería, como se demuestra en análisis ulteriores en puntos aislados del tiempo, el
establecimiento de un programa incorrecto de pruebas para los sistemas de dicha
instalación. En este caso se observa que el gráfico de indisponibilidad instantánea puede
ser también una herramienta de pronóstico.
4.2.3. Análisis en puntos aislados del tiempo.

Este tipo de estudio es de gran utilidad, pues a partir de los resultados de los estudios
de instantánea, es posible analizar el comportamiento de la indisponibilidad del sistema
en una zona específica de interés. La necesidad del estudio de estas zonas puede
estar motivada por diferentes causas, por ejemplo, comportamientos anómalos
(por asimetrías no esperadas) del sistema, precisión de los valores de indisponibilidad
en zonas de salto (puntos de inflexión) y zonas de valores interpolados, conocimiento
del comportamiento del sistema en períodos de pruebas y mantenimientos, etc.

Los estudios de importancia de conjuntos mínimos e importancia de componentes en


puntos aislados del tiempo, constituyen opciones poderosas implementadas también,
en el sistema ARCON. Estas permiten la evaluación en puntos aislados del tiempo,
de los contribuyentes que más aportan al valor de indisponibilidad y por tanto al
riesgo, así como facilitan la identificación de las combinaciones más importantes y
susceptibles a formar posibles configuraciones críticas o de interés por la
información intrínseca que poseen.

Por ejemplo, en la tabla 4.2.1 se presenta un listado reducido del estudio de importancia
de conjuntos mínimos más importantes realizado en un punto aislado del tiempo (7201
horas), con vista a la determinación de las combinaciones mínimas que más aportan, en
el momento en que la indisponibilidad instantánea se hace igual a 1, de acuerdo al
comportamiento de la curva de indisponibilidad instantánea de la figura 4.2.12.

Como se observa en esta tabla, es posible pronosticar un conjunto mínimo de orden 3


que provoca la falla de la instalación, ya que en ese preciso instante de tiempo, cada
uno de los elementos (sistemas) que lo conforman (SISTE-A01,SISTE-A02 y SISTE-
A03) se encuentran indisponibles por pruebas. Esta conclusión final se obtiene del
análisis de la base de datos de fiabilidad de los componentes de dicha instalación.

Conjuntos Mínimos más probables TCalc=7201


Prob. % Acum.

1) SISTE-A01*SISTE-A02*SISTE-A03 1 100.00 100.00


2) TRESERVSB 7.18E-03 - -
3) DIESEL1SB*DIESEL2SB*TQ30W01SB 9.72E-04 - -
4) DIESEL1SB*DIESEL2SB*TQ33S04 9.72E-04 - -
5) DIESEL1SB*DIESEL2SB*TQ33D01SB 9.72E-04 - -
6) DIESEL1SB*DIESEL2SB*DIESEL3SB 9.72E-04 - -
7) DIESEL1SB*DIESEL2SB*TQ30S02 9.72E-04 - -

Tabla 4.2.1. Listado de CM más importantes en T=7201


V. Análisis de confiabilidad enfocados a la toma de
decisiones.
La optimización de la explotación, es una tarea que exige la optimización individual y
conjunta de las actividades más relevantes que intervienen en esta, durante toda la vida
útil de la instalación.

El aumento del conocimiento de las interioridades del APS ha implicado también un


aumento en el uso práctico de sus resultados.

Este cambio ha ido convirtiendo el APS en una herramienta dinámica cuyos resultados se
aplican normalmente en la industria de alto riesgo para la toma de decisiones.

Aunque el campo de aplicaciones de los APS tiene un espectro amplio, debido a los
objetivos de este curso, se hace énfasis en sus aplicaciones dirigidas al mantenimiento.

Dentro de la explotación, la optimización de la actividad de mantenimiento, ocupa un lugar


importante para el logro de este objetivo, pues la garantía de una elevada disponibilidad y
seguridad en la explotación de una instalación depende en gran medida de la existencia
de un servicio de mantenimiento eficiente.

En la optimización de la actividad de mantenimiento, es de gran importancia el


conocimiento y el pronóstico del comportamiento de los índices de fiabilidad y seguridad
en función del tiempo, el control de configuración (control de mantenimientos simultáneos
y de configuraciones críticas), el seguimiento de las variaciones de uno o más parámetros
de fiabilidad sobre los sistemas y elementos de la instalación (escalonamiento y duración
de las pruebas y mantenimientos, ineficiencia de la pruebas, los tiempos entre pruebas y
su conjugación con el proceso de degradación del equipamiento y otros parámetros), y en
general, otras actividades que se enmarcan como "Aplicaciones de los APS dirigidas al
mantenimiento".

Algunas de las aplicaciones más útiles de los APS están dirigidas a la optimización del
mantenimiento. Entre las mismas se destacan:

- Control de configuración.
- Priorización por mantenimientos.
- Priorización por AOT.
- Optimización de especificaciones técnicas.
- Optimización del monitoreo
- Optimización del inventario de piezas de repuesto.
- Estudio de la influencia del envejecimiento de los
componentes sobre la disponibilidad de la instalación.
- Indicadores basados en riesgo.
- APS dinámico.
5.1. Control de configuración.

En la explotación normal de una instalación es común encontrar combinaciones de


estados de los equipos (equipos en funcionamiento, en mantenimiento, fallados, en
pruebas y otros) que la componen. Entre las combinaciones de estados de los equipos
que son de mayor importancia para el estudio de la indisponibilidad y el riesgo de la
instalación, están aquellas relacionadas con los estados de mantenimiento, pruebas y
fallas, que sacan el equipamiento fuera de servicio.

Cuando se habla del control de configuración es necesario realizar un estudio detallado


de los diferentes estados posibles de los equipos en la instalación, lo que trae como
resultado un número de combinaciones de estados imposibles de predecir cuando se
trata de instalaciones industriales con un gran número de equipos, interrelacionados de
manera compleja por el proceso tecnológico.

Teniendo en cuenta que en los estudios, más frecuentes de APS, se parte del estudio de
las múltiples configuraciones posibles que pueden conducir a la indisponibilidad de una
instalación (representada por los CM) estamos ante la herramienta idónea para realizar el
control de configuración.

Partiendo de que en cualquier proceso productivo existen configuraciones más o menos


importantes según su probabilidad de ocurrencia y por tanto su efecto sobre la
disponibilidad de la instalación, es significativo que, para lograr un efecto adecuado con el
control de configuración, deben dirigirse los esfuerzos hacia aquellas configuraciones que
pueden tener mayor impacto en la indisponibilidad y riesgo de la instalación. Estas
configuraciones se conocen como configuraciones críticas.

Las configuraciones críticas, son combinaciones de elementos fuera de servicio (por


pruebas, mantenimientos y fallas), que conducen a un proceso de degradación, por
causas controladas e incontroladas, de la característica de fiabilidad de la instalación y al
ocurrir tienen un alto impacto en el riesgo. Estas configuraciones deben ser evitadas.
Cuando se han determinado las configuraciones críticas, las mismas deben ser
prohibidas durante la elaboración de la planificación del mantenimiento, y vigiladas
mediante el seguimiento de la ejecución de cada una de sus actividades, incluyendo las
interfases con la actividad de operación.

Como resultado de un estudio de APS es común disponer de los listados de los CM más
importantes categorizados según su probabilidad de ocurrencia. Los equipos hacia
donde se dirigen los esfuerzos iniciales estarán precisamente incluidos en las
combinaciones mínimas más importantes, pues cualquier proceso que degrade su
funcionamiento, o que afecte la disponibilidad del equipamiento en cuestión estará
aumentado la probabilidad de ocurrencia de la configuración indeseada.
Un problema adicional con las posibles configuraciones críticas se produce cuando se
explota una instalación en estado degradado, o sea, que durante un intervalo de tiempo
se trabaja con determinada combinación de equipos fuera de servicio. Esto provoca que
como consecuencia de la degradación puedan aumentar en importancia determinadas
posibles configuraciones no consideradas importantes en el estado nominal de la
instalación, pero que en este estado degradado comienzan a convertirse en críticas.

Es por ello importante limitar también sobre la base del riesgo y a la disponibilidad de la
instalación, los tiempos permisibles fuera de servicio de estos equipos. Sobre este
aspecto se amplía en el epígrafe “Priorización por tiempo fuera de servicio (AOT)”. Como
se aprecia en los estudios de control de configuración, se analiza el mantenimiento por su
influencia negativa, o sea, por su efecto al sacar un equipo fuera de servicio.

Utilizando las técnicas actuales de APS es posible estudiar y optimizar los tiempos entre
mantenimientos y la duración de los mismos (análisis de sensibilidad), para lograr las
menores influencias en el riesgo por determinadas configuraciones donde participan
equipos en mantenimientos.

Un caso particular del control de configuración es el control de mantenimientos


simultáneos. Este aspecto resulta de gran interés cuando se aplican las técnicas de APS
a la elaboración de los planes de mantenimientos, en los que pueden entonces preverse
o evitarse los mantenimientos simultáneos donde participen equipos que pueden conducir
a una configuración crítica.

En este sentido una aplicación particular de los análisis de instantánea en el control de


configuración es la posibilidad de realizar pronósticos de las zonas del gráfico donde
resultan más probables la formación de configuraciones críticas, por lo que dichas zonas
deben evitarse durante la concepción de las estrategias de mantenimientos. Un ejemplo
de posibilidad de pronóstico se aprecia en el ejemplo del gráfico de la figura 4.2.12.

Otro aspecto, en el que también se aplican los estudios de indisponibilidad instantánea,


pero esta vez focalizados en puntos aislados del tiempo, es la posibilidad de reajustar los
gráficos de mantenimientos en base a la certeza de la formación de una configuración
crítica, de realizarse un mantenimiento en determinado instante de tiempo con el
esquema degradado. Esta aplicación del cálculo en puntos aislados del tiempo se
implementa a través de una reevaluación del riesgo en el punto en cuestión. Este estudio
puede enfrentarse con dos estrategias posibles:

1- Reconfigurando los modelos a partir del estado degradado de la instalación y


repitiendo los cálculos de riesgo, o

2- Reevaluando el estado degradado del esquema partiendo de los registros de CM


existentes.
La primera estrategia tiene la dificultad de que necesita de una reevaluación del APS para
las nuevas condiciones, lo que conlleva a un proceso de remodelación y recuantificación
que puede resultar poco competitivo, por el esfuerzo que representa.

La segunda, que utiliza ARCON, parte de los registros existentes de CM y reevaluá


rápidamente sólo aquellas combinaciones que se alteran por el estado degradado de la
instalación, utilizando además las potencialidades de la reducción booleana dinámica, lo
que elimina las sobreestimaciones.

Otra vertiente del estudio puede ser la determinación de los componentes más
importantes en el instante de tiempo en cuestión. Esto se puede lograr utilizando también
las facilidades que oferta el sistema ARCON.

5.2. Priorización por mantenimientos.

La priorización por mantenimientos, sobre la base de la importancia de las componentes


que participan en el proceso tecnológico de una instalación, es una de las aplicaciones
más útiles de los APS desarrolladas hasta el momento.

Partiendo de la definición de la medida de importancia de reducción de riesgo, un equipo


aportará mayor reducción al riesgo si la diferencia entre la indisponibilidad real de la
instalación y su indisponibilidad cuando el equipo es perfecto es considerable, de aquí,
que directamente por esta medida, y considerando que los mantenimientos garantizan la
recuperación de un elevado % de las características de fiabilidad del equipo, se puede
obtener un listado ordenado por RRW de aquellos equipos donde el mantenimiento
reportará una mejora sustancial a la disponibilidad de la instalación.

Esta aplicación garantiza que los esfuerzos del mantenimiento se centren en los equipos
más importantes, que son los que mayor reducción al riesgo pueden aportar y no desviar
los mismos hacia puntos en los que no se esperan aportes elevados a la indisponibilidad
de la instalación. Para la aplicación de la priorización por mantenimiento es indispensable,
tal como se explicó en 4.1.1.4, separar del modelo de la instalación aquellos elementos
relacionados con el mantenimiento. Ahora la conclusión que de estos análisis se obtiene
no puede ser en ninguna forma que el aumento de los tiempos de mantenimiento o el
incremento de su frecuencia sobre estos equipos conllevará al aumento de la
disponibilidad. En este aspecto hay que ser muy cuidadoso pues de adoptarse medidas
de esa índole los resultados pueden ser totalmente contrarios. Ello se explica ya que
cuando se saca para mantenimiento un equipo importante se está acercando la
configuración en el que el mismo participa a un estado crítico. Esta cuestión debe
evaluarse por tanto tomando una solución de compromiso entre los beneficios (reducción
del riesgo) que son de esperar del mantenimiento y el tiempo fuera de servicio (aumento
del riesgo) a que se somete la instalación cuando el equipo está en mantenimiento.
5.3. Priorización por AOT.

Partiendo del compromiso anterior, se llega a la conclusión que es necesaria también la


optimización el tiempo fuera de servicio permisible de los equipos. Esto se logra con los
procedimientos de priorización por AOT. La priorización por AOT se implementa a partir
de la medida de importancia de incremento del riesgo, teniendo en cuenta en que la
misma representa la diferencia entre la indisponibilidad media de la instalación, cuando el
equipo está totalmente indisponible y la indisponibilidad media real de la misma en su
estado normal. De aquí que se obtenga mediante esta medida, el peso relativo del equipo
sobre el valor de indisponibilidad de la instalación cuando este está indisponible.

Esta cuestión garantiza, que utilizando esta medida, sea posible ordenar el aporte de los
equipos fuera de servicio y obtener resultados recomendatorios sobre el tiempo fuera de
servicio basado en riesgo (AOT) con el que los mismos se deben explotar. Es común en
las especificaciones técnicas de la instalación, donde no se han usado estas técnicas,
encontrar tiempos fuera de servicio, para algunos equipos importantes, que superan el
límite establecido por el AOT basado en riesgo. En este sentido los resultados del APS
aplicados a la instalación pueden ser en ocasiones sorprendentes.

5.4. Optimización de especificaciones técnicas.

Es frecuente, en el alcance de las especificaciones técnicas prever la planificación de las


estrategias de pruebas y de mantenimientos de los equipos que participan en el proceso
productivo, así como las actividades a desarrollar para el cumplimiento de cada una.
Como aplicaciones directas, en este caso, pueden encontrarse:

1- Prohibición de la realización de mantenimientos simultáneos en equipos cuyo impacto


al riesgo sea apreciable, o de otras combinaciones de pruebas y mantenimientos, con
consecuencias similares.

2- Los resultados de los análisis de sensibilidad, obtenidos de los estudios de APS, de


los tiempos entre mantenimientos y su duración, permiten establecer los valores
óptimos de estos parámetros para los equipos objeto de estudio. Estos valores
óptimos pueden ser incluidos en las especificaciones técnicas.

3- Las técnicas de priorización por mantenimiento y por AOT tienen una consecuencia
directa en el mejoramiento de las especificaciones técnicas, por cuanto se pueden
ordenar los mantenimientos según su impacto sobre la disminución del riesgo y por
tanto el aumento de la disponibilidad de la instalación. Los estudios de priorización por
AOT permiten establecer una base real de este parámetro para cada equipo, de
acuerdo a la influencia que ejerce el tiempo fuera de servicio, sobre el riesgo o la
disponibilidad. Los resultados de los estudios de priorización brindan una posibilidad
apreciable de corregir las especificaciones técnicas.
5.5. Optimización del Monitoreo.

Cuando se realiza un estudio de importancia por la medida RRW anteriormente explicada


y sin tener en cuenta ningún atributo (priorización sin atributo) es posible categorizar las
contribuciones a la indisponibilidad de los equipos por el factor de reducción al riesgo, que
los mismos reportan cuando están en estado perfecto.

De aquí que dirigir los esfuerzos, en la realización del diagnóstico hacia aquellos equipos,
cuyo aporte por el factor de reducción del riesgo sea mayor, conllevará a la optimización
del monitoreo.

Cuando un equipo de relativa importancia es monitoreado es posible predecir por la


aplicación de diagnóstico, su falla, por lo que pueden tomarse medidas encaminadas a su
mantenimiento, que en este caso será predictivo, y a la vez ordenar los cambios
necesarios en el proceso tecnológico, con el objetivo de disminuir al máximo su impacto
en el riesgo o a la indisponibilidad por dicho mantenimiento.

Desde el punto de vista económico aparece también un impacto positivo doble, ya que
por un lado, se obtiene un mayor beneficio por aumento de la disponibilidad de la
instalación, y por otro, disminuyen los costos al reducir la aplicación de estas técnicas
(relativamente costosas) a los puntos donde su influencia es verdaderamente
significativa.

5.6. Optimización del inventario de piezas de repuesto.

La realización de los estudios de priorización por tiempo entre pruebas, tiempo permisible
fuera de servicio y mantenimiento permite determinar los componentes, que atendiendo a
estos criterios, tienen un impacto significativo en el aumento de la disponibilidad y
reducción del riesgo residual en la industria. Consecuentemente con los resultados de
este primer nivel de análisis, los esfuerzos dirigidos a optimizar el inventario de piezas de
repuesto, se centran en un grupo muy reducido de sistemas y elementos de la instalación
y no en todo el complejo.

Partiendo de este primer nivel de jerarquización, se aplican en una segunda etapa


estudios de sensibilidad y análisis de indisponibilidad instantánea con el objetivo de
buscar los parámetros óptimos de inspección, pruebas y reparaciones, mantenimientos,
tiempos permisibles de salidas de servicio del equipamiento y otras actividades que
tienen una influencia directa sobre el inventario de piezas de repuesto.

Para aquellos componentes donde la reducción de los tiempos de reparación tiene un


efecto determinante sobre la disponibilidad y/o la reducción del riesgo residual de la
industria, se aplican técnicas de estimación del inventario de piezas de repuesto basadas
en la distribución de Poisson, para garantizar un nivel de servicio prefijado. En (8) se
expone detalladamente esta aplicación.
Las técnicas de confiabilidad permiten encaminar los esfuerzos hacia una adecuado
manejo de partes y piezas de repuesto; así como definir aquellos componentes críticos
que requieren módulos intercambiables. En general esta herramienta posibilita la gerencia
de todo el conjunto de actividades necesarias para alcanzar un aumento real de la
disponibilidad y seguridad de la instalación con un nivel mínimo de costo.

La aplicación consecuente de criterios de confiabilidad evita mantener innecesariamente


elevados niveles de inventario de piezas de repuesto de equipos cuya influencia en la
indisponibilidad de la instalación es pequeña. Este es un gasto innecesario que constituye
un capital inmovilizado cuyos efectos económicos globales sobre la industria son siempre
negativos.

5.7. Estudio de la influencia del envejecimiento de los componentes


sobre la disponibilidad de la instalación.

En los estudios tradicionales de APS, no se incorpora el envejecimiento del equipamiento


para el estudio de disponibilidad y riesgo de la instalación. Es frecuente, modelar toda la
vida útil de la instalación con valores constantes de ratas de fallas de los componentes,
tal como se exige en los modelos exponenciales de indisponibilidad de componentes,
habitualmente empleados.

Partiendo de la experiencia internacional, es una aproximación adecuada de primer orden


evaluar la importancia para el riesgo del envejecimiento de los componentes, adoptando
un modelo lineal de envejecimiento. Ello puede tener un efecto importante en la política
de mantenimiento y de restitución de equipos y piezas.

El análisis se realiza afectando linealmente la rata original de fallas, de los equipos que
deben ser cuantificados, por un factor que toma en cuenta este efecto de envejecimiento.
El resultado del estudio se puede expresar en curvas de indisponibilidad versus tiempo
de observación.

En este caso una aplicación concreta es la realización de los estudios, ya comentados,


sobre un modelo en que se tenga en cuenta el envejecimiento del equipamiento,
obteniendo por tanto, conclusiones más realistas, en las que se pueden basar las
políticas de mantenimiento y reposición de equipos.

5.8. Indicadores basados en riesgo.

Por la información detallada que aporta la realización de los estudios de APS, a la


explotación de una instalación, es posible el establecimiento de un grupo de indicadores
de carácter global y temporal, que describan el perfil de indisponibilidad o riesgo de la
misma.
El establecimiento de estas metas reporta un gran beneficio para el proceso productivo,
pues permite conocer en cada instante los límites que garantizan el trabajo confiable y
seguro de la instalación. Estos permiten valorar, de acuerdo al estado operativo, la
influencia de las salidas de servicio planificadas o imprevistas del equipamiento, y tomar
medidas preventivas o recuperadoras que posibiliten mantener la instalación dentro de
los límites de operación prescritos.

5.9. APS dinámico.

El APS dinámico, consiste en la realización de la evaluación probabilística de seguridad


de la instalación en cada instante de la actividad de explotación. El impacto en el riesgo,
así como la evaluación de otros parámetros importantes, se realiza por un sistema
automatizado on-line, encargado de la actualización y cuantificación de los modelos de
APS de acuerdo a los diferentes estados de operación en que se encuentre dicha
instalación.

La información es obtenida directamente del comportamiento del proceso tecnológico y


actualizada teniendo en cuenta los cambios que se produzcan en éste, con el objetivo
central de informar al operador del cuadro de mando, del nivel de seguridad con que se
opera la instalación. Esta es una herramienta muy útil en la toma de decisiones durante la
etapa de explotación de la instalación.

De acuerdo a la experiencia internacional, para la implantación del APS dinámico, es


necesario como primer punto la elaboración de los modelos básicos de la instalación, o
sea, la realización de un estudio de APS.

La información introducida en los modelos de APS dinámicos, hoy en día, es limitada en


comparación con la información obtenida de los análisis de APS, principalmente en
aquellos análisis en que se maneja un gran volumen de información, cuestión que es
típica en los estudios de instalaciones de alto riesgo potencial y gran complejidad
tecnológica.

A pesar del desarrollo actual de los medios de cómputo, el peso fundamental de esta
diferencia está en la capacidad limitada de los programas para la manipulación de
grandes volúmenes de información de forma operativa, como demanda la propia
dinámica de la explotación.

En este aspecto, la velocidad y capacidad de procesamiento del sistema, ha dependido


directamente de las técnicas tradicionales empleadas en el tratamiento de la información.
En esto último influye, en gran medida, la capacidad del método de procesamiento y
almacenamiento de la información de las bases de datos, la eficacia de los métodos de
determinación y cuantificación empleados, y otras cuestiones vinculadas con la interfase
hombre-máquina.
Estas técnicas de avanzada, han sido empleadas con éxito en la industria nuclear e
incluso en proyectos de más alto riesgo potencial. En general, la experiencia de
aplicación de estas herramientas en la industria nuclear, podría ser de un gran beneficio
en la gestión de seguridad de los procesos industriales más convencionales.

Las posibilidades de realización de los estudios de indisponibilidad instantánea, los


indicadores orientados a metas de fiabilidad, la reducción booleana dinámica, los análisis
de importancia de componentes y CM en puntos aislados del tiempo, los estudios de
priorización, y otras opciones presentes en el sistema ARCON (manejo de esquemas
tecnológicos, graficación de árboles de fallas y otras), junto a su capacidad de
compactación de la información y alta velocidad de procesamiento, son potencialidades
creadas con vista a su aplicación futura para una versión dirigida al APS dinámico.
VII. Aplicaciones Industriales.
6.1. Preparación del estudio de APS para su introducción a la industria.

La introducción de los resultados del APS en la industria implica, como primer paso, la
propia realización del estudio, y a partir de sus resultados, contando con los modelos de
sistemas y de planta, realizar entonces, la implementación de las aplicaciones
industriales.

6.1.1. Metodología general de análisis en los estudios de APS.

En estos estudios, con vistas a reducir los esfuerzos y garantizar su máxima calidad, es
necesario cumplir determinadas reglas.

Estas reglas se establecen en los procedimientos de garantía de calidad de APS


empleados en Cuba.

De forma resumida los pasos, que como regla general se siguen para cumplir un estudio
de APS, son:

1. Definición de objetivos y alcance del APS.


2. Familiarización con el proceso tecnológico por medio de la documentación existente
(planos, cartas tecnológicas, pasaportes e instrucciones de explotación del
equipamiento, manual de organización del proceso tecnológico y otros documentos
necesarios para el funcionamiento confiable y seguro de los sistemas).
3. Identificación de los sucesos iniciadores y construcción de los correspondientes
árboles de sucesos.
4. Modelación de los sistemas participantes y estimación de los datos de confiabilidad de
los componentes incluidos en cada sistema.
5. Análisis cualitativo (determinación de los CM).
6. Análisis cuantitativo (cuantificación de sistemas, secuencias, parámetros globales de
riesgo).
7. Aplicaciones.

- Cálculos de indisponibilidades, a partir de las indisponibilidades medias de los


componentes.
- Estudios de importancia de componentes y conjuntos mínimos.
- Estudios de priorización.
- Análisis de sensibilidad sobre la base de las indisponibilidades medias de
componentes.
- Análisis de instantánea (estudios de sensibilidad, análisis del comportamiento de la
fiabilidad de los sistemas en relación con metas cuantitativas, análisis en puntos
aislados de tiempo, estudios de importancia y otros análisis a partir de la
conjugación de todas estas técnicas).
8. Revisión, aprobación y documentación final del estudio.

6.2. Desarrollo de un ejemplo práctico utilizando el sistema ARCON.

En un caso de estudio de disponibilidad de un sistema simplificado, como el que se


desarrolla a continuación no es necesario desplegar el análisis inductivo (árbol de
eventos) con el que se inicia el APS. Para este tipo de análisis basta con utilizar las
posibilidades del análisis deductivo (árbol de fallas) lo que no resta validez a los
resultados que se obtendrán. A continuación se muestra un ejemplo práctico donde se
utilizan algunas de las herramientas y aplicaciones anteriormente explicadas.

6.2.1. Descripción de la tarea.

La instalación mostrada en la figura 6.2.1 es un caso muy simplificado de un esquema de


hidrofinación para obtener finales desulfurizados.

Fig. 6.2.1. Esquema simplificado de una instalación de


hidrofinación de finales desulfurizados.

La instalación consta de los siguientes equipos y sistemas:

1. Tanque de materia prima (T1) con serpentín de precalentamiento incorporado al


tanque.
2. Sistema de bombeo eléctrico (bombas B1 y B2), una bomba de operación normal y
una de reserva.
3. Calentador I1 (utiliza como sustancia calentadora el producto del fondo de la torre).
4. Horno (H1) con sistema de combustible (SC) y suministro de hidrógeno.
5. Reactor (R).
6. Torre despojadora (To).
7. Sistema de bombeo eléctrico de fondo de torre (B3 y B4), una bomba de operación
normal y una de reserva.
8. Condensador (Co).
9. Tambor separador (Ta).
10. Enfriador (E1).
11. Tanque de producto final (T2).
12. Torre de quemado de gases (Flare) (F).
13. Colector de gases (CG).

6.2.2. Breve descripción del proceso.

La materia prima (Ejemplo: kerosina virgen) se precalienta en el tanque T1 para facilitar


su bombeo con las bombas B1 ó B2, según la que se encuentre en operación normal.
Antes de entrar al horno la materia prima se calienta en el intercambiador I1, utilizando el
subproducto del fondo de la torre (To). En el horno se aumenta la temperatura de la
materia prima hasta el valor necesario para garantizar el proceso químico, que ocurre en
el reactor (R), donde se inyecta hidrógeno proveniente de otro punto del proceso, para
garantizar la hidrofinación.

En la torre (To) se realiza la separación de los productos ligeros y pesados. Los productos
más ligeros se extraen por los puntos altos de la torre y se pasan a un condensador (Co)
donde se enfrían con agua técnica. A continuación, los productos ligeros, se introducen
en un tambor separador (Ta), separándose en este, los gases no condensables que se
destinan al Flare, otros gases combustibles que se incorporan al colector de gases (CG)
de servicio de planta y el agua que se drena por la parte inferior del tambor.

El subproducto pesado se bombea desde el fondo de la torre, utilizando el sistema de


bombeo (B3 ó B4). La energía acumulada en el subproducto pesado (en este caso
kerosina hidrofinada) sirve para precalentar la materia prima en el intercambiador I1. A la
salida del intercambiador I1 este subproducto cede parte de su calor en el enfriador E1 y
se almacena en el tanque T2.

6.2.3. Consideraciones necesarias para el análisis.

Para comenzar el desarrollo del ejemplo es necesario presentar


algunas consideraciones:

1. El esquema seleccionado se ha simplificado con el objetivo de su utilización como


material docente. Por esta razón no aparecen desarrollados los sistemas de apoyo:

- Sistema de combustible para el horno.


- Sistema de enfriamiento para el condensador.
- Sistema de vapor para necesidades de planta.
- Sistema de suministro eléctrico.
- Sistema de producción e inyección de hidrógeno.

Se ha reducido al mínimo la cantidad de equipos modelados. Con igual objetivo se


considera un sólo modo de falla por equipo. Los equipos más complejos (Ej: Torre y
otros) se simplifican considerándose como un componente único (baja resolución en el
análisis).

2. Las ratas y probabilidades de fallas seleccionadas para modelar cada dispositivo no


son reales, ya que no se dispone de una base de datos adecuada para el análisis. Por
ello los resultados obtenidos tienen validez sólo desde el punto de vista demostrativo
de los análisis y herramientas que se aplican.
3. Los equipos con reserva (bombas) se alternan mensualmente (Tiempo de misión de
las bombas 720 h). La prueba de las bombas de reserva se realiza mensualmente y
durante el período de la prueba las mismas están inhabilitadas para el trabajo en caso
de una demanda. El equipamiento restante trabaja ininterrumpidamente durante 300
días. Estos datos igualmente, sólo son válidos en el marco del ejemplo práctico.
4. La interrupción del trabajo de cualquiera de los equipos sin reserva implica la parada
de la instalación.

6.2.4. Modelación de la instalación del ejemplo práctico y establecimiento de la base de


datos de confiabilidad a utilizar.

A partir del esquema de la fig 6.2.1, la descripción del proceso y las consideraciones

realizadas, se obtiene el árbol de fallas mostrado en la fig 6.2.2.

Fig. 6.2.2. Arbol de fallas de la instalación del ejemplo práctico.


Datos de Confiabilidad
No. T R/P TR T1/M1 TI τ AOT It Pad Pnt/Tp Phet Código
1 5 1E-7 CG
2 5 1E-9 TA
3 5 1E-7 CO
4 5 1E-6 F
5 5 1E-6 TO
6 5 1E-9 RE
7 5 1E-7 I1
8 5 1E-7 E1
9 5 1E-7 I2
10 5 1E-6 720 H1R
11 1 5E-1 24 B1RE
12 4 3E-5 20 360 720 3 24 0 0 1.00 0 B1S
13 5 3E-5 720 B1R
14 5 3E-7 720 B2R
15 1 5E-1 24 B2RE
16 4 3E-5 20 720 720 3 24 0 0 1.00 0 B2S
17 5 1E-6 SC
18 1 5E-1 24 B3RE
19 4 3E-5 20 360 720 3 24 0 0 1.00 0 B3S
20 5 3E-5 720 B3R
21 5 3E-5 720 B4R
22 1 5E-1 24 B4RE
23 4 3E-5 20 720 3 24 0 0 1.00 0 B4S

Tabla 6.2.1. Base de datos de confiabilidad para ejemplo práctico.

La base de datos utilizada en el análisis se muestra en la tabla 6.2.1, donde:

No- Número de orden del componente (empleado en ARCON para la codificación de


elementos en la lógica de fallas).

T- Tipo de componente según ARCON (ver epíg. 2.4)

R/P - Rata de falla ó Probabilidad constante a la demanda.

Tr - Tiempo medio de reparación.


T1|M1- Tiempo de realización de la primera prueba o mantenimiento. Para los elementos
tipo 5 este dato es su tiempo de misión (Tmis) particular.

TI|MI- Tiempo entre pruebas.

τ - Duración de las pruebas o mantenimientos.

AOT - Tiempo máximo permisible de un tren desconectado.

It- Ineficiencia de la prueba.

Pnt- Indisponibilidad durante la prueba.

Pad - Indisponibilidad adicional debida a la demanda.

Phet - Probabilidad de error humano durante la prueba.

Código- Asignado por el usuario (generalmente se obtiene de la documentación técnica


de planta).

A partir de los datos anteriores y del árbol de fallas se elabora la lógica de fallas para
entrada al sistema ARCON, que quedará de la siguiente forma:

NoC TC Código de Puerta Lógica de fallas


C1 O FALLAINST 1 2 3 4 5 6C2
C2 O FALLACONEX 7 8 9C3C4C11
C3 O FALLAHORNO 10 17
C4 O FALLABOMBAS12 C5C8
C5 Y FALLACONB1RE 11C6
C6 Y COMBB1REB2 14C7
C7 O F-B1RE 12 13
C8 Y FALLACONB2RE 15C9
C9 Y COMBB2REB1 13C10
C10 O F-B2RE 14 16
C11 O FALLABOMBAS34 C12C15
C12 Y FALLACONB3REB4 18C13
C13 Y COMBB3REB4 21C14
C14 O F-B3RE 19 20
C15 Y FALLACONB4RE 22C16
C16 Y COMBB4REB3 20C17
C17 O F-B4RE 21 23
donde:

NoC- Número de orden de la compuerta. Este dato se utiliza para identificar las
compuertas en el campo de lógica de fallas.

TC- Tipo de compuerta. Los tipos de combinaciones booleanas admitidas por el


sistema son:

Y- compuerta AND.

O- compuerta OR.

Mn-donde M significa que es una compuerta de lógica mayoritaria. y n es el numerador


de la combinación n/m de la compuerta.

Lógica de fallas- Cadena de la lógica de fallas.

6.2.5. Análisis cualitativo y cuantitativo.

De la determinación de los conjuntos mínimos con ARCON se


obtiene:

Orden Cantidad

1 11

2 0

3 8

Total 19

Tabla 6.2.2. Tabla de relación de conjuntos mínimos.

Los resultados de la indisponibilidad media calculada son:

Indisponibilidad a la demanda = 0.00


Probabilidad de falla en operación = 2.74E-2
Probabilidad de no cumplir la función de seguridad = 2.74E-2
La tabla de CM más importantes es:

Conjuntos Mínimos más probables

Componente Código Prob. % Acum.

17 SC 7.17E-03 26.15 26.15


4 F 7.17E-03 26.15 52.31
5 TO 7.17E-03 26.15 78.46
7 I1 7.20E-04 2.62 81.08
8 E1 7.20E-04 2.62 83.71
9 I2 7.20E-04 2.62 86.33
10 H1R 7.20E-04 2.62 88.95
1 E2 7.20E-04 2.62 91.58
3 CO 7.20E-04 2.62 94.20
14 11 13 B2R * B1RE *B1R 2.28E-04 0.83 95.03
13 15 14 B1R * B2RE *B2R 2.28E-04 0.83 95.86
21 18 20 B4R * B3RE * B3R 2.28E-04 0.83 96.70
20 22 21 B3R * B4RE * B4R 2.28E-04 0.83 97.53
14 11 12 B2R * B1RE * B1S 1.66E-04 0.60 98.13
13 15 16 B1R * B2RE * B2S 1.66E-04 0.60 98.74
21 18 19 B4R * B3RE * B3S 1.66E-04 0.60 99.34
20 22 23 B3R * B4RE * B4S 1.66E-04 0.60 99.95
2 TA 7.20E-06 0.03 99.97
6 RE 7.20E-06 0.03 100.00

Tabla 6.2.3. Tabla de CM más importantes.

Como se aprecia de la tabla de conjuntos mínimos, los mayores contribuyentes a la falla


del sistema son los componentes con operación continua, a pesar de las bajas ratas de
fallas adoptadas para los mismos. Esto se debe a los siguientes factores:

1. Modelo seleccionado para describir la indisponibilidad de los componentes en


operación (tipo 5 según ARCON, de donde se obtienen valores elevados de
indisponibilidad ya que esta depende directamente del tiempo de operación, que en
este caso es elevado, 7200 h).

2. La disposición en serie de la mayoría de los componentes en operación continua, lo


que los coloca en una configuración donde en casi todos los casos su falla conduce a
la falla del sistema (están presentes en CM de orden 1).

Aunque la cuestión del análisis de configuraciones críticas resulta en este caso


relativamente fácil dado que se trabaja con CM de orden uno, es interesante llamar la
atención sobre el hecho de que las configuraciones críticas más importantes están
relacionadas con los CM, cuya probabilidad de ocurrencia es superior. En este análisis
por parámetros medios no es posible descubrir algunas cuestiones relativas al
surgimiento temporal de configuraciones críticas, debidas a la estrategia de pruebas
adoptada. Este aspecto se aprecia en los análisis de indisponibilidad instantánea
ulteriores.

La contribución o influencia en la indisponibilidad del sistema de cada componente puede


obtenerse a partir de las medidas de importancia.

Los resultados de importancia obtenidos según la medida RRW son:

Comp. Código Fussell-Vesely RRW RAW


QComp

5 TO 2.62E-01 7.17E-03 9.73E-01 7.17E-03


4 F 2.62E-01 7.17E-03 9.73E-01 7.17E-03
17 SC 2.62E-01 7.17E-03 9.73E-01 7.17E-03
10 H1R 2.62E-02 7.20E-04 9.73E-01 7.20E-04
9 I2 2.62E-02 7.20E-04 9.73E-01 7.20E-04
1 E2 2.62E-02 7.20E-04 9.73E-01 7.20E-04
8 E1 2.62E-02 7.20E-04 9.73E-01 7.20E-04
7 I1 2.62E-02 7.20E-04 9.73E-01 7.20E-04
3 CO 2.62E-02 7.20E-04 9.73E-01 7.20E-04
21 B4R 2.27E-02 6.22E-04 2.85E-02 2.14E-02
20 B3R 2.27E-02 6.22E-04 2.85E-02 2.14E-02
13 B1R 2.27E-02 6.22E-04 2.85E-02 2.14E-02
14 B2R 2.27E-02 6.22E-04 2.85E-02 2.14E-02
18 B3RE 1.44E-02 3.94E-04 3.94E-04 5.00E-01
22 B4RE 1.44E-02 3.94E-04 3.94E-04 5.00E-01
11 B1RE 1.44E-02 3.94E-04 3.94E-04 5.00E-01
15 B2RE 1.44E-02 3.94E-04 3.94E-04 5.00E-01
16 B2S 6.05E-03 1.66E-04 1.05E-02 1.55E-02
23 B4S 6.05E-03 1.66E-04 1.05E-02 1.55E-02
19 B3S 6.05E-03 1.66E-04 1.05E-02 1.55E-02

Tabla 6.2.4. Tabla de importancia RRW.

Como una aplicación de los análisis de importancia, es posible obtener la contribución


de cada componente según determinado atributo, utilizando los estudios de priorización.

A continuación se han desarrollado algunos estudios de priorización:


Comp. Código RRW % RRWacum. % Acum. QComp

12 B1S 1.21E-04 25.00 1.21E-04 25.00 1.14E-02


16 B2S 1.21E-04 25.00 2.43E-04 50.00 1.14E-02
23 B4S 1.21E-04 25.00 3.64E-04 75.00 1.14E-02
19 B3S 1.21E-04 25.00 4.85E-04 100.00 1.14E-02
Total - 4.85E-04 100.00 4.85E-04 100.00 1.14E=02
Tabla 6.2.5. Tabla de priorización por mantenimiento.
Comp. Código RRW % RRWacum. % Acum. QComp

19 B3S 4.45E-05 25.00 4.45E-05 25.00 4.17E-03


12 B1S 4.45E-05 25.00 8.90E-05 50.00 4.17E-03
16 B2S 4.45E-05 25.00 1.34E-04 75.00 4.17E-03
23 B4S 4.45E-05 25.00 1.78E-04 100.00 4.17E-03
Total - 1.78E-04 100.00 1.78E-04 100.00 -
Tabla 6.2.6. Tabla de priorización por tiempo entre pruebas.
Comp. Código RAW AOT DCaot AOTr AOT/AOTr QComp
16 B2S 1.05E-02 24 2.88E-05 228 10.51 1.55E-02
12 B1S 1.05E-02 24 2.88E-05 228 10.51 1.55E-02
23 B4S 1.05E-02 24 2.88E-05 228 10.51 1.55E-02
19 B3S 1.05E-02 24 2.88E-05 228 10.51 1.55E-02
18 B3RE 3.94E-04 24 1.08E-06 6097 0.39 5.00E-01
22 B4RE 3.94E-04 24 1.08E-06 6097 0.39 5.00E-01
15 B2RE 3.94E-04 24 1.08E-06 6097 0.39 5.00E-01
11 B1RE 3.94E-04 24 1.08E-06 6097 0.39 5.00E-01

Tabla 6.2.7. Tabla de priorización por tiempo fuera de servicio.

El ordenamiento obtenido de los estudios de importancia (tabla 6.2.4) muestra una


dependencia notable de los valores de las ratas de fallas de los componentes, lo que
resulta común en análisis de este tipo donde se trabaja con sistemas con disposición en
serie de casi todos sus elementos (hay reservas para pocos dispositivos de operación
continua) y donde no existe diversidad en cuanto al régimen de operación de los
componentes que se modelan (la mayoría son modelados como tipo 5), lo que ocasiona
que los resultados dependan casi exclusivamente de los valores de las ratas de fallas y
del tiempo de operación.
Los resultados de la priorización muestran algunas cuestiones que permanecen ocultas
en otros estudios.
Por ejemplo la tabla 6.2.5 muestra que durante la explotación sólo es posible realizar
mantenimientos a los equipos con reserva, y que el resultado que de dichos
mantenimientos se obtendrá es una reducción del riesgo (aumento de disponibilidad de la
instalación), de la misma magnitud para cada bomba.
En cuanto a la tabla 6.2.6 se observa que la contribución de las pruebas de la reserva
está distribuida también uniformemente, por lo que cualquier medida que sobre el patrón
de pruebas de cada bomba se realice tendrá igual aporte a la reducción del riesgo o al
aumento de disponibilidad de la instalación.

De la tabla 6.2.7 es posible concluir que los tiempos fuera de servicio, inicialmente
considerados para las bombas, están subestimados y es posible sin afectar
sensiblemente la disponibilidad de la instalación, aumentar los mismos.

A partir de los resultados de los estudios de importancia, se concluye que incidiendo


sobre determinados parámetros de algunos de los componentes más importantes,
puede lograrse la disminución de la influencia de los mismos, sobre la
indisponibilidad de la instalación.

Estos estudios se pueden realizar utilizando los análisis de sensibilidad.

Por ejemplo, afectando la rata de fallas de los componentes más importantes de este
análisis que son, de acuerdo a la tabla 6.2.4, los componentes 4,5 y 17 (Flare, Torre
despojadora y sistema de combustible respectivamente), lo que significa sustituirlos por
otros de mayor calidad, se puede lograr la mejoría de disponibilidad que refleja la curva
de la fig. 6.2.3. Este caso se evalúa considerando la disminución de la rata de fallas de
cada componente (4,5 y 17) en un orden (desde 1E-6 hasta 1E-7).

Del análisis de la siguiente curva se observa un aumento de un 12 % de la disponibilidad


de la instalación, cuando se mejora en sólo un orden la rata de fallas de los dispositivos
más importantes, lo que indica que deben dirigirse los esfuerzos a aumentar la calidad de
los mismos o a introducir mejoras internas en estos, sobre la base de análisis con mayor
resolución.
Fig. 6.2.3. Gráfica de sensibilidad sustituyendo los componentes más importantes de la
instalación (To, F, SC) por otros similares con rata de fallas disminuida en un orden.

Otra variante de análisis de sensibilidad se realiza variando los parámetros de los


componentes probados periódicamente, en este caso las bombas (B1, B2, B3 y B4). La
variación de los parámetros incluye el análisis de un intervalo de rata de fallas desde 3E-7
hasta 3E-5 (valor actual según base de datos), y de los tiempos entre pruebas de los
mismos en valores discretos de 360, 720, 1440 y 2160 horas.

Fig. 6.2.4. Gráfica de sensibilidad variando las ratas de fallas y tiempo entre pruebas de
las bombas probadas periódicamente.
El análisis de las curvas muestra, que la incidencia sobre estos parámetros no reporta
mejoras notables en la disponibilidad de la instalación. Ello se debe a que se ha afectado
la fiabilidad de equipos cuya importancia en la instalación es insignificante (veáse la tabla
6.2.4).

Sin embargo hay un detalle en dichas curvas que debe ser destacado. Cuando se
aumenta el tiempo entre pruebas aparecen dos efectos contrapuestos: el primero es el
aumento de la contribución de las fallas ocultas y el segundo es la disminución de la
contribución de la indisponibilidad durante las pruebas.

Esto explica que la variación de la indisponibilidad para tiempos entre pruebas mayores
(1440 y 2160 h) es más sensible a la variación de la rata de fallas que los casos de menor
tiempo entre pruebas.

Como tendencia general se observa que para bajas ratas de fallas el aporte de las
indisponibilidades por pruebas es determinante, mientras que para mayores ratas
predomina el aporte de las fallas ocultas. Esto significa que cuando se trabaje con
bombas de alta fiabilidad debe prestarse especial atención a la duración de las pruebas,
mientras que para bombas de menor calidad es importante prestar más atención a los
intervalos entre pruebas.

Existen algunas cuestiones del caso de estudio hasta el momento no abordadas, por
ejemplo el análisis de los resultados de la indisponibilidad instantánea, que como se
explicó puede mostrar aspectos hasta ahora enmascarados en los análisis por
parámetros medios. El análisis de la indisponibilidad instantánea de este sistema se
muestra en la figura 6.2.5:

Fig. 6.2.5. Gráfica de indisponibilidad instantánea del caso base.


En la gráfica se observa un grupo numeroso de picos de indisponibilidad debidos a las
pruebas de las bombas. Esto provoca que el ordenamiento de los mayores contribuyentes
a la falla de la instalación, durante los tiempos de prueba se altere, tal como se aprecia en
los análisis ulteriores en puntos aislados del tiempo (Tabla 6.2.9).

La curva de distribución correspondiente a esta gráfica de indisponibilidad instantánea,


se presenta en la figura 6.2.6:

Fig. 6.2.6. Gráfica de distribución del caso base.

Los resultados anteriores muestran un valor de indisponibilidad media sobre la base de la


instantánea de 2.73 E-2 y una indisponibilidad máxima de 4.79 E-2. En este caso la
sobreestimación de los valores obtenidos por la indisponibilidad media (ver a continuación
de la tabla 6.2.2) no resulta notable con respecto a los resultados de la instantánea.

Suponiendo que la estrategia de pruebas se cambie aumentando el intervalo entre las


pruebas a 1440 horas, se obtiene la curva de la fig 6.2.7.

Los resultados obtenidos muestran un crecimiento casi insignificante de los valores de la


indisponibilidad media y máxima respectivamente: 2.76E-2 y 4.81E-2 con respecto a
2.73E-3 y 4.79E-2 del caso base.
Fig. 6.2.7. Gráfica de indisponibilidad instantánea del caso base con aumento del tiempo
entre pruebas a 1440 horas.

La curva de distribución correspondiente al caso anterior se muestra en la fig. 6.2.8. La


comparación de las curvas de distribución de las figuras 6.2.6 y 6.2.8 arroja resultados
interesantes. Si se parte del hecho de que las indisponibilidades medias y máximas,
obtenidas en cada caso, son similares, se obtiene que el análisis de las curvas de
distribución es un buen punto de partida, para determinar cual será la mejor de las dos
estrategias. En este caso la estrategia de pruebas bimestral (1440 horas) reporta una
homogeneidad superior, lo que se interpreta como una reducción apreciable de los
aportes de las indisponibilidades por pruebas con respecto al caso base (estrategia de
pruebas con TI=720 horas).

Prácticamente la característica más ventajosa la tendrá aquel caso, en el que tomando


como referencia el valor de la indisponibilidad media, se obtengan áreas menores por
encima de dicho valor. Esto significa, desde el punto de vista técnico, que el sistema
idóneo deberá ser aquel que durante menos tiempo se mantenga en sus valores máximos
de indisponibilidad, lo que lo haría menos vulnerable a metas de fiabilidad hipotéticas. Un
ejemplo que ayuda a corroborar esta afirmación es el caso que se presenta en la figura
6.2.9, donde se ha reducido el tiempo entre pruebas a 360 horas.
Fig. 6.2.8. Gráfica de distribución para caso base con aumento del tiempo entre pruebas
a 1440 horas.

Fig. 6.2.9. Gráfica de indisponibilidad instantánea del caso base con reducción del
tiempo entre pruebas a 360 horas.
Como se observa en este caso mientras más se prueba (aumento de la frecuencia de
pruebas) el área que aportan los picos de indisponibilidad por pruebas es mayor y los
valores de homogeneidad (fig 6.2.10) por tanto son menores.

Lógicamente en este caso la característica definitoria, que ayuda a seleccionar una


estrategia de pruebas u otra, es el valor de indisponibilidad media (2.61 E-2 para este
caso), que resulta ser la menor de las obtenidas hasta el momento. Este detalle no debe
llevar a la conclusión de que el aumento de la frecuencia de las pruebas (disminución del
TI), conduce siempre al aumento de la disponibilidad, pues en estos estudios no se ha
tenido en cuenta la influencia del factor de degradación durante las pruebas, lo que
puede conllevar a obtener efectos contrarios a los mostrados hasta el momento.

Fig. 6.2.10. Gráfica de distribución del caso base con reducción


del tiempo entre pruebas a 360 horas.

Un estudio de sensibilidad realizado para un caso similar al anterior pero introduciendo


un factor de degradación del 3% por efecto de las pruebas periódicas, aporta valores de
indisponibilidad máxima y media similares (5.23E-2 y 2.62E-2), pero conlleva a la
disminución de la homogeneidad en un 12 %, lo que demuestra el aumento del aporte de
los picos de indisponibilidad por pruebas.

Los análisis en puntos aislados del tiempo permiten descubrir los mayores contribuyentes
en puntos aislados del tiempo, y tomar medidas sobre los mismos encaminadas a
disminuir sus aportes. Por ejemplo, del análisis del instante 720 horas, partiendo del caso
base, se obtienen las tablas 6.2.8 y 6.2.9 de conjuntos mínimos importantes (CMI) y de
importancia RRW, respectivamente.
Este análisis demuestra que el aporte pronunciado de indisponibilidad en los picos, lo
produce la ocurrencia de un reordenamiento de los mayores contribuyentes a la
indisponibilidad de la instalación en los intervalos de duración de las pruebas, donde
pasan a ser más importantes los aportes de las bombas en operación cuya rata de fallas
es significativamente superior comparada con las de otros contribuyentes que resultan

Esta cuestión indica que deben tomarse medidas encaminadas a disminuir las
indisponibilidades durante las pruebas. Otro detalle de interés en este caso, es que para
los períodos de pruebas aparecen también nuevas configuraciones críticas que difieren
del ordenamiento vigente en casi todo el intervalo. Esto se puede apreciar comparando

Es importante concluir que aún fuera de estos intervalos de pruebas cualquier alteración
del proceso tecnológico, que saque de servicio un equipo, aunque no implique la parada
de la instalación, puede generar configuraciones críticas que difieren por el
reordenamiento de los contribuyentes, de las inicialmente detectadas.

Conjuntos Mínimos más probables

Componente Código Prob. % Acum.

13 15 B1R * B2RE 1.07E-02 22.30 22.30


20 22 B3R * B4RE 1.07E-02 22.30 44.60
17 SC 7.17E-03 14.97 59.58
4 F 7.17E-03 14.97 74.55
5 TO 7.17E-03 14.97 89.53
7 I1 7.20E-04 1.50 91.03
8 E1 7.20E-04 1.50 92.53
9 I2 7.20E-04 1.50 94.03
10 H1R 7.20E-04 1.50 95.53

Tabla 6.2.8. Tabla de CMI en T=720 h.


Comp. Código Fussell-Vesely RRW RAW QComp

13 B1R 2.28E-01 1.09E-02 5.00E-01 2.14E-02


20 B3R 2.28E-01 1.09E-02 5.00E-01 2.14E-02
18 B3RE 2.23E-01 1.07E-02 1.07E-02 5.00E-01
11 B1RE 2.23E-01 1.07E-02 1.07E-02 5.00E-01
5 TO 1.50E-01 7.17E-03 9.52E-01 7.17E-03
17 SC 1.50E-01 7.17E-03 9.52E-01 7.17E-03
4 F 1.50E-01 7.17E-03 9.52E-01 7.17E-03
3 CO 1.50E-02 7.20E-04 9.52E-01 7.20E-04
1 E2 1.50E-02 7.20E-04 9.52E-01 7.20E-04
9 I2 1.50E-02 7.20E-04 9.52E-01 7.20E-04

Tabla 6.2.9. Importancia en T=721.


Anexo A. Análisis de datos.
A.1. Papel del análisis de datos en los análisis de confiabilidad.

El objetivo principal del análisis de datos es la obtención de datos, fundamentalmente por


métodos estadísticos, para su incorporación en los modelos desarrollados en el análisis
de sistemas. Los datos de fiabilidad permiten estimar las probabilidades de los sucesos
básicos de los modelos, a partir de las cuales se cuantifica la indisponibilidad del sistema
o la planta.

Los tipos de datos que se manejan principalmente en el análisis


de sistemas son:

a) Probabilidades y ratas de fallas para modos de fallas de componentes.

b) Indisponibilidades por mantenimiento y pruebas.

c) Probabilidades de errores humanos.

d) Probabilidades de fallas causa común.

La estimación de los dos últimos tipos de datos es objeto de estudio por otras actividades
de análisis (Análisis de Fiabilidad Humana y Análisis de Fallas Causa Común,
respectivamente).

A.2. Interfases del análisis de datos con el análisis de sistemas. Sucesos básicos.

La interfase entre las actividades de análisis de sistemas y datos se realiza a través de


los sucesos básicos de falla de componentes.

El analista de sistemas finaliza el desarrollo del modelo en sucesos básicos típicos para
los que es factible la obtención de datos estadísticos. Estos sucesos básicos representan
el agrupamiento de todos los posibles modos de falla de un componente en un número de
categorías limitadas.

A.2.1. Modos de falla.

El modo de falla se refiere a la forma en que se manifiesta la falla de un componente.


Los modos de falla más generalizados se relacionan a continuación:

(Los códigos que aparecen entre paréntesis acompañando cada modo de falla son
códigos estandarizados para los modos de falla, que conjuntamente con los códigos de
proyecto de los componentes a que se refieren conforman los códigos que identifican los
sucesos básicos en los modelos de sistemas).
- Falla al arranque (S)

- Caracteriza la falla de componentes a arrancar cuando son demandados.

- Es aplicable a todos los componentes que realizan su función arrancando y con


movimiento (rotación) continuo subsiguiente.

- Falla relativa a la demanda.

- Ejemplos: Bombas, Diesels, Ventiladores, Compresores.

- Falla en operación (R)

- Caracteriza la falla de un componente que trabaja en forma continua (movimiento


rotatorio) durante el tiempo de misión requerido.

- Aplicable a todos los componentes que realizan su función por movimiento continuo.

- Falla relativa al tiempo de operación.

- Ejemplos: Bombas, Diesels, Ventiladores, Compresores.

- Falla a la apertura (O)

- Caracteriza la falla de un componente a moverse a una posición nueva, abierta.

- Aplicable a componentes que realizan su función por (cambio) de un estado cerrado a


otro abierto.

- Falla relativa a la demanda.

- Ejemplos: Válvulas, Interruptores.

- Falla al cierre (E)

- Caracteriza la falla de un componente a moverse a una nueva, cerrada.

- Aplicable a componentes que realizan su función por cambio de un estado abierto a


otro cerrado.

- Falla relativa a la demanda.

- Ejemplos: Válvulas, Interruptores.


- Falla al mantenimiento de la posición (D)

- Caracteriza fallas de componentes para mantener la posición requerida. Aplicable


usualmente a componentes que realizan su función cambiando de estado entre dos
estados discretos o que cambian de estado regulando entre dos puntos extremos. Se
refiere a componentes que tienen que mantener su posición durante el tiempo de
misión. La falla causaría su movimiento a una posición contraria.

- Falla relativa al tiempo de operación o espera.

- Ejemplos: Válvulas, Interruptores.

- Falla por ruptura (T)

- Caracteriza una rotura grande en la frontera de retención de fluido.

- Aplicable a todos los componentes que retienen líquido. Si el componente realiza


alguna otra función, no sólo retener líquido, esta falla inhabilitaría al componente para
realizar su función.

- Falla relativa al tiempo operacional o de espera.

- Ejemplos: Intercambiadores, Bombas.

- Pérdida de eficiencia (Z)

- Caracteriza la disminución del flujo y la transferencia de calor debido a deposiciones


en las paredes de los componentes, que conlleva a la pérdida de la efectividad en el
trabajo del mismo.

- Aplicable a componentes donde se transfiere calor entre fluidos.

- Falla relativa al tiempo operacional o de espera.

- Ejemplos: Intercambiadores de calor, Calentadores, Enfriadores.

- Falla en funcionamiento (F)

- Es un modo de falla general que caracteriza la falla de un componente para cumplir su


función.

- Aplicable a componentes que no se mueven (macroscópicamente) para ejecutar su


función.

- Falla relativa al tiempo operacional o la demanda.


-
- Ejemplos: Baterías, Transformadores, Equipos de Instrumentación y control (I&C).

- Corto a tierra (G)

- Caracteriza conexiones a tierra de cualquier componente donde la corriente eléctrica es


aislada a una tensión más alta quela tierra.

- Aplicable a componentes eléctricos y de I&C que de alguna manera conducen,


transfieren o modifican la corriente eléctrica, cuando al romperse el aislamiento a tierra
estos componentes se inhabilitan para cumplir su función o se causa perturbación a
otros componentes.

- Falla relativa al tiempo operacional o de espera.

- Ejemplos: Barras, Centro de Control de Motores.

- Corto circuito (H)

- Caracteriza conexiones entre dos o más conductores que normalmente están


aislados.

- Aplicable prácticamente a todos los componentes eléctricos y de I&C, cuando el


aislamiento entre dos conductores normalmente separados desaparece formándose
un cortocircuito que inhabilita el componente para cumplir su función o causa
perturbación en otros componentes.

- Falla relativa al tiempo de operación o de espera.

- Ejemplos: Barras, Centro de Control de Motores.

- Circuito abierto (I)

- Caracteriza la desconexión (aislamiento) de un circuito eléctrico.


-
- Aplicable prácticamente a todos los componentes eléctricos y de I&C, para el caso de
que el componente sea inhabilitado para cumplir su función cuando el conductor
eléctrico se aísla internamente.

- Falla relativa al tiempo operacional o de espera.

- Ejemplos: Barras, Centro de Control de Motores.

- Obstrucción (Q)

- Caracteriza cualquier forma de obstaculizar el flujo en dirección requerida, no causada


por la operación normal componente.
Bomba motorizada
falla al arranque y en
operación

or

Falla suministro
Bomba falla al Bomba falla en eléctrico de C.A. al
arranque operación interruptor 1

or or

Bomba falla al Bomba falla al Bomba falla en Falla de la Falla del


arranque (fallas arranque (fallas operación refrigeración de enfriamiento
locales) locales) (fallas locales) la bomba del local

1
Falla de suministro
eléctrico de C.A. al
interruptor
or

Falla de suministro Falla de suministro


eléctrico desde la eléctrico desde la
barra de C.C. barra de C.A.

Fig. A.1. Fronteras de la bomba motorizada y sub-árbol de fallas para la misma.


Válvula motorizada
falla a la apertura
(cierre)
or

Falla a la apertura Falla de suministro Falla de la señal de


(cierre) eléctrico desde la control para la
apertura (cierre) de la
fallas locales barra de C.A.

Fig. A.2. Fronteras de la válvula motorizada y árbol de fallas para la misma.

En las figuras A.1 y A.2 se ilustran estos límites para una bomba y una válvula
motorizadas, así como los sub-árboles de falla de estos componentes que se
corresponden con los mismos. Las fallas dentro de las fronteras definidas se consideran
en los modelos de los componentes como "fallas locales" y son las que deben disponer
de datos para la estimación de su probabilidad. ” A continuación se describen los límites
que normalmente se consideran para algunos componentes importantes.
- Generadores diesel.

Los límites físicos de los generadores diesel incluyen: cuerpo del generador,
generador/accionador, sistema de lubricación (local), sistema de gas-oil (local),
componentes de refrigeración (locales), sistema de aire de arranque, sistema de aire de
combustión y gases de escape, sistema de control individual del generador diesel,
interruptor de suministro a las barras de los consumidores y su circuito de control local
asociado, con excepción de todos los contactos y relays que interaccionan con otros
sistemas eléctricos o de control.
- Bombas motorizadas.

Los límites físicos de las bombas incluyen: cuerpo de la bomba, motor/accionador,


sistema de lubricación, componentes de refrigeración de los sellos, interruptor de
suministro de tensión y su circuito de control local asociado.

- Turbobombas.

Los límites físicos de las turbobombas incluyen: cuerpo de la bomba, turbina/accionador,


sistema de lubricación (incluida bomba), extracciones, componentes de refrigeración de
los sellos y sistema local de control (velocidad) de la turbina. Quedan incluidas dentro
del sistema de control las válvulas de regulación y parada de la turbina.

- Válvulas motorizadas.

Los límites físicos de las válvulas incluyen: cuerpo de la válvula, motor/accionador,


interruptor de suministro de tensión y su circuito local de apertura/cierre.

- Válvulas electromagnéticas.

Los límites físicos de las válvulas electromagnéticas incluyen: cuerpo de la válvula,


operador (solenoide) y circuito local de energización del solenoide (contactos auxiliares,
cableados y contactos de energización del solenoide).

- Interruptores de potencia.

Los límites físicos de los interruptores de potencia incluyen el cuerpo/accionador del


interruptor entre la salida y entrada de cables.

A.2.3. Modelos de componentes.

Los regímenes de trabajo de los componentes (espera, no reparables, probados


periódicamente, monitoreados continuamente, mantenimiento preventivo, operación)
determinan los modelos de fiabilidad de los mismos y estos a su vez la información de
planta de interés para la estimación o ajuste de datos. Lo anterior se ilustra en la tabla a
continuación.
Suceso Básico Información Requerida Parámetro Estimado
Componente en espera n sucesos de falla en un total de Probabilidad de falla a la
(falla a la demanda) N demandas demanda P=n/N
n sucesos en un tiempo total de Rata de fallas a la espera
espera Ts R= n/Ts
Componente en operación n sucesos de falla en el tiempo Rata de fallas en operación
falla en funcionamiento o de exposición Te R= n/Te
cambia de estado durante
su misión
Componente no disponible Duración media de la prueba D. Indisponibilidad durante las
por pruebas Tiempo entre pruebas T pruebas Q=D/T
Componente no disponible Duración media del mtto. D Indisponibilidad por mtto.
por mantenimiento Tiempo entre mttos. T preventivo Q=D/T
preventivo
Componente no disponible Tiempo total fuera de servicio Indispon. por mtto. correctivo
por mantenimiento por mantenimientos correctivos Q=TFS/Top (durante la
correctivo estando la planta en operación operación del componente))
TFS . Tiempo total de
operación Top.
Número de actos de mtto. Q=TFS/(M*T) (asociada a
Correctivo M . pruebas
Tiempo entre pruebas T
Componente monitoreado Número de actos de mtto. N Rata d e mtto. (fallas)
no disponible por mtto. (núm. de fallas) en tiempo T R =N/T
correctivo debido a falla Tiempo medio de duración del
Indisponibilidad por mtto.
detectada mantenimiento Tr
Correctivo
Q=(N*Tr)/T

Los índices anteriores se obtienen para cada población (muestra) de componentes


análogos y conllevan una valoración estadística de los estimados realizados.

La información a valorar se obtiene de:

- Libros de operación

- Registros históricos de pruebas/mantenimientos

- Procedimientos de pruebas/ mantenimientos


- Ordenes de trabajo

- Informes periódicos

- Informes sobre sucesos notificables

Hay que destacar que si en el caso de las ratas de fallas se puede partir de datos
genéricos, en los casos de indisponibilidades por pruebas y mantenimientos se trata de
datos intrínsecos de cada planta y no procede su extrapolación de una planta a otra, por
la flexibilidad con que se definen las políticas de mantenimiento, su dependencia de las
características de diseño de las plantas, etc.

A.3. Bases de Datos

Las bases de datos de fiabilidad normalmente recogen para los diferentes casos típicos
de componentes (mecánicos, eléctricos y e I&C) y modos de fallas, los siguientes
índices:

- Probabilidades de falla a la demanda.

- Ratas de fallas en espera.

- Ratas de falla en operación.

- Factores de Error.

- Información complementaria sobre características de los componentes, definición de


sus límites, fuentes de información, experiencia operacional (en dependencia del
grado de detalle de la información presentada).

Las bases de datos pueden ser de dos tipos: específicas y genéricas.

Los datos específicos son los que se obtienen directamente de la experiencia operacional
de la planta de interés. Sin embargo, es difícil encontrar el caso de una planta cuyos
datos estén comprendidos completamente en esta categoría. En general la información
de una planta no es suficiente desde el punto de vista estadístico para desarrollar una
base de datos específica por sí misma. Por ello se parte de datos genéricos, los cuales
se ajustan con la experiencia operacional propia para obtener así una base específica.

Así, por datos genéricos se identifican los que no provienen de componentes de la planta
propia, sino que se adoptan de componentes análogos de otras plantas. El denominado
Análisis Bayesiano permite la adecuación de estos datos a la experiencia operacional
propia cuando existe evidencia (registros) apropiada de la misma.

Con este procedimiento se disminuye la incertidumbre estadística (aumento de la


población de partida) aunque con ello se incrementa la incertidumbre de conocimiento
(aplicabilidad de los datos) debido a diferencias en el productor, calidad de manufactura,
características de diseño, política y calidad de mantenimientos, ambiente operacional, etc.
Esto último puede contrarrestarse en cierta medida adoptando bases de datos definidas
para plantas de tecnología lo más similar posible a la propia.

Otra fuente de incertidumbre puede ser la no clara definición de las fronteras de los
componentes en la base genérica de partida, lo que puede determinar la falta de
correspondencia con respecto a los límites establecidos para los componentes propios
(ver A2.2).

No obstante, las incertidumbres que pueden derivarse del uso de datos genéricos no
restan validez a los resultados de los estudios realizados, cuando estos se refieren a las
valoraciones de tipo comparativo, que sirven de base a la proposición de mejoras y
establecimiento de prioridades en su implementación, como por ejemplo:

- ordenamiento por importancia de componentes,

- comparación de alternativas de diseño,

- comparación de alternativas de regímenes de explotación,

- optimización de especificaciones técnicas de funcionamiento.

Por último, existen técnicas para la valoración del impacto de estas incertidumbres en los
resultados del análisis (análisis de incertidumbres, análisis de sensibilidad), con vistas a
su consideración en la toma de decisiones.

De esta forma la utilización de datos genéricos de partida es una alternativa viable a la


carencia de una base de datos específica, a la vez que constituye un punto de partida
para el desarrollo de esta última.
Anexo B. El sistema ARCON
Los trabajos en este sistema se iniciaron a finales de 1987 y desde entonces se han
desarrollado varias versiones, caracterizadas por los siguientes atributos principales

ƒ Capacidad de resolución de árboles de fallas complejos en PC

ƒ Potente generador de CM que supera la cifra de cientos de millones

ƒ Variadas opciones de evaluación numérica

ƒ Facilidades gráficas poderosas para la representación de árboles de fallas y


árboles de sucesos, bases de datos y resultados de los análisis

Durante estos años se han sucedido diversas versiones del sistema, donde se han
ampliado sustancialmente sus capacidades e introducido nuevas y potentes opciones. La
más reciente versión 5.0 permite resolver los árboles de fallas muy complejos que se
generan a partir de las secuencias accidentales de un APS.

Seguidamente, mostramos los resultados de la generación de los CM y el cálculo de sus


probabilidades, en un árbol de fallas complejo evaluado con el sistema ARCON 5.0.

Ejemplo B.1: Modelo simplificado del sistema de inyección de alta presión de la Central
Electronuclear (CEN) de Juraguá en Cuba, para el suceso iniciador de avería Pérdida del
suministro eléctrico exterior. Para este iniciador, la función del sistema es reponer la
pequeña pérdida de inventario de agua que se produce en el circuito primario, debido al
disparo de las válvulas de seguridad del compensador de presión en los primeros
instantes de la avería.

El sistema consta de 3 líneas independientes para la inyección del agua al primario, con
dos bombas de alta presión por cada uno de los 3 trenes redundantes. Para este iniciador
el criterio de éxito es que se logre inyectar el gasto nominal de una de las bombas por
alguna de las 3 líneas existentes. El suceso tope no deseado es el evento complemento
de éste, es decir, que no se logre inyectar agua con ninguna de las bombas.

La figura B.1 muestra una de las pantallas del árbol de fallas, obtenida mediante el
sistema ARCON. Se aprecia que la información de los sucesos intermedios se refleja en
forma de códigos de las compuertas, que permiten describir los sucesos que ellas
representan de manera compacta y uniforme. Con esto se facilita la interpretación y
revisión de los modelos de árboles de fallas por otros especialistas.
Fig. B.1. Pantalla del árbol de fallas del sistema de inyección de alta
presión de la CEN de Juraguá, obtenida mediante el sistema ARCON.

La codificación anterior forma parte de la metodología lógico-modular, adoptada para la


modelación del APS de la central nuclear de Juraguá. Ella constituye un enfoque
sistemático para el desarrollo de árboles de fallas, a partir de la descomposición de los
sistemas en tramos de tuberías o redes, lográndose de esta forma un alto grado de
estandarización de los criterios de modelación de diferentes analistas.

A continuación mostramos una tabla resumen que facilita ARCON con las cantidades de
CM que genera este árbol de fallas.

Conjuntos Mínimos
1 5
2 0
3 3375
4 45225
5 266805
6 922843
7 2093472
8 3267364
9 3538944
10 2592768
11 1179648
12 262144
Total 14172493
Por supuesto que sería absurdo e inútil someter a análisis esta enorme cantidad de CM.
La tarea básica que realiza el sistema es, entonces, cuantificar la probabilidad de falla
del sistema a partir de todos estos CM y determinar cuáles de ellos son los mayores
contribuyentes a dicha probabilidad de falla, que es nuestro interés principal. Esto
último lo ofrece ARCON en una tabla como la que mostramos a continuación.

Conjuntos Mínimos más probables Prob. % Acum.

1) LF-1GX-S * LF-1GW-S * LF-1GV-S 4.47E-05 6.04 6.04


2) CM-1BVWX02Q-C 3.20E-05 4.32 10.36
3) LF-1GX-R * LF-1GW-S * LF-1GV-S 2.99E-05 4.03 14.39
4) LF-1GX-S * LF-1GW-R * LF-1GV-S 2.99E-05 4.03 18.43
5) LF-1GX-S * LF-1GW-S * LF-1GV-R 2.99E-05 4.03 22.46
6) LF-1GX-R * LF-1GW-R * LF-1GV-S 2.00E-05 2.69 25.15
7) LF-1GX-R * LF-1GW-S * LF-1GV-R 2.00E-05 2.69 27.85
8) LF-1GX-S * LF-1GW-R * LF-1GV-R 2.00E-05 2.69 30.54
9) LF-1GX-R * LF-1GW-R * LF-1GV-R 1.33E-05 1.80 32.34
10) FL-TJ61S21-O * LF-1GW-S * LF-1GV-S 1.00E-05 1.35 33.70
11) LF-1GX-S * FL-TJ41S21-O * LF-1GV-S 1.00E-05 1.35 35.05
12) LF-1GX-S * LF-1GW-S * FL-TJ21S21-O 1.00E-05 1.35 36.40
13) LF-1GX-R * FL-TJ41S21-O * LF-1GV-S 6.69E-06 0.90 37.30
14) LF-1GX-R * LF-1GW-S * FL-TJ21S21-O 6.69E-06 0.90 38.20
15) FL-TJ61S21-O * LF-1GW-R * LF-1GV-S 6.69E-06 0.90 39.10
16) FL-TJ61S21-O * LF-1GW-S * LF-1GV-R 6.69E-06 0.90 40.01
17) LF-1GX-S * LF-1GW-R * FL-TJ21S21-O 6.69E-06 0.90 40.91
18) LF-1GX-S * FL-TJ41S21-O * LF-1GV-R 6.69E-06 0.90 41.81
19) FL-TJ61S05-O * LF-1GW-S * LF-1GV-S 6.68E-06 0.90 42.71
20) LF-1GX-S * FL-TJ41S05-O * LF-1GV-S 6.68E-06 0.90 43.61

En estos resultados, correspondientes a los 20 CM de mayor importancia, se aprecia


como el peso relativo de cada uno de ellos es bajo, por lo que el % acumulado se va
incrementando de forma moderada. Este es un aspecto positivo y es precisamente lo que
se persigue con una toma de decisiones oportuna, porque significa que las probabilidades
de los modos de falla del sistema están distribuidas de forma balanceada y no existen CM
dominantes, que lo hagan vulnerable ante determinadas combinaciones de fallas o
indisponibilidades de equipo y errores humanos.

Llama la atención el CM #2, que es de orden 1. Este representa la falla modo común de
la alimentación eléctrica a los 3 trenes redundantes, lo que indispone completamente al
sistema. Una de las tareas importantes de un APS es, precisamente, identificar la
susceptibilidad de los sistemas y de la industria a este tipo de falla dependiente y
cuantificar los aportes que se producen por esta causa. Generalmente entre los CM más
importantes se hallan presentes las fallas modo común de componentes redundantes (ver
anexo D).
A pesar de la pequeña contribución individual, de cada CM separado, los primeros 20
representan algo más del 40% de la probabilidad total de falla del sistema, que es de
7.4E-4 por demanda (se trata de un sistema a la espera, que entra en funcionamiento
sólo cuando es demandado por la ocurrencia del suceso iniciador de avería). Si
continuáramos examinando los CM, veríamos que los 600 CM más importantes
representan ya alrededor del 96% de la indisponibilidad o probabilidad de falla por
demanda del sistema. En la práctica, los contribuyentes más significativos nunca
sobrepasan la cifra de 2000. Sin embargo, esto no simplifica la tarea, porque los 2000
hay que encontrarlos entre cientos y miles de millones. Para ello se requiere un software
eficiente.

Adicionalmente a estos análisis de indisponibilidad media con determinación de los CM


más importantes, ARCON posibilita una amplia gama de opciones de análisis cuantitativo
de árboles de fallas y de sucesos:

- Cálculos en tiempos aislados.


- Análisis de importancia para indisponibilidades medias y tiempos de cálculo aislados.
- Estudios de indisponibilidad instantánea.
- Análisis de sensibilidad.
- Estudios de priorización:
- sin atributos
- por tiempo entre pruebas
- por mantenimiento
- por AOT

La evaluación de árboles de sucesos contempla además el análisis detallado o


ininterrumpido de una o varias secuencias accidentales, así como medidas de
importancia de sistemas (Fussel-Vesely y RRW) y de secuencias accidentales (RIM).

Todas estas opciones se acompañan de un potente soporte gráfico para el análisis de los
resultados y la documentación de las tareas.

En los capítulos IV, V y VI se detallan las diversas aplicaciones de estas potencialidades


del sistema ARCON.
Anexo B. El sistema ARCON
Los trabajos en este sistema se iniciaron a finales de 1987 y desde entonces se han
desarrollado varias versiones, caracterizadas por los siguientes atributos principales

ƒ Capacidad de resolución de árboles de fallas complejos en PC

ƒ Potente generador de CM que supera la cifra de cientos de millones

ƒ Variadas opciones de evaluación numérica

ƒ Facilidades gráficas poderosas para la representación de árboles de fallas y


árboles de sucesos, bases de datos y resultados de los análisis

Durante estos años se han sucedido diversas versiones del sistema, donde se han
ampliado sustancialmente sus capacidades e introducido nuevas y potentes opciones. La
más reciente versión 5.0 permite resolver los árboles de fallas muy complejos que se
generan a partir de las secuencias accidentales de un APS.

Seguidamente, mostramos los resultados de la generación de los CM y el cálculo de sus


probabilidades, en un árbol de fallas complejo evaluado con el sistema ARCON 5.0.

Ejemplo B.1: Modelo simplificado del sistema de inyección de alta presión de la Central
Electronuclear (CEN) de Juraguá en Cuba, para el suceso iniciador de avería Pérdida del
suministro eléctrico exterior. Para este iniciador, la función del sistema es reponer la
pequeña pérdida de inventario de agua que se produce en el circuito primario, debido al
disparo de las válvulas de seguridad del compensador de presión en los primeros
instantes de la avería.

El sistema consta de 3 líneas independientes para la inyección del agua al primario, con
dos bombas de alta presión por cada uno de los 3 trenes redundantes. Para este iniciador
el criterio de éxito es que se logre inyectar el gasto nominal de una de las bombas por
alguna de las 3 líneas existentes. El suceso tope no deseado es el evento complemento
de éste, es decir, que no se logre inyectar agua con ninguna de las bombas.

La figura B.1 muestra una de las pantallas del árbol de fallas, obtenida mediante el
sistema ARCON. Se aprecia que la información de los sucesos intermedios se refleja en
forma de códigos de las compuertas, que permiten describir los sucesos que ellas
representan de manera compacta y uniforme. Con esto se facilita la interpretación y
revisión de los modelos de árboles de fallas por otros especialistas.
Fig. B.1. Pantalla del árbol de fallas del sistema de inyección de alta
presión de la CEN de Juraguá, obtenida mediante el sistema ARCON.

La codificación anterior forma parte de la metodología lógico-modular, adoptada para la


modelación del APS de la central nuclear de Juraguá. Ella constituye un enfoque
sistemático para el desarrollo de árboles de fallas, a partir de la descomposición de los
sistemas en tramos de tuberías o redes, lográndose de esta forma un alto grado de
estandarización de los criterios de modelación de diferentes analistas.

A continuación mostramos una tabla resumen que facilita ARCON con las cantidades de
CM que genera este árbol de fallas.

Conjuntos Mínimos
1 5
2 0
3 3375
4 45225
5 266805
6 922843
7 2093472
8 3267364
9 3538944
10 2592768
11 1179648
12 262144
Total 14172493
Por supuesto que sería absurdo e inútil someter a análisis esta enorme cantidad de CM.
La tarea básica que realiza el sistema es, entonces, cuantificar la probabilidad de falla
del sistema a partir de todos estos CM y determinar cuáles de ellos son los mayores
contribuyentes a dicha probabilidad de falla, que es nuestro interés principal. Esto
último lo ofrece ARCON en una tabla como la que mostramos a continuación.

Conjuntos Mínimos más probables Prob. % Acum.

1) LF-1GX-S * LF-1GW-S * LF-1GV-S 4.47E-05 6.04 6.04


2) CM-1BVWX02Q-C 3.20E-05 4.32 10.36
3) LF-1GX-R * LF-1GW-S * LF-1GV-S 2.99E-05 4.03 14.39
4) LF-1GX-S * LF-1GW-R * LF-1GV-S 2.99E-05 4.03 18.43
5) LF-1GX-S * LF-1GW-S * LF-1GV-R 2.99E-05 4.03 22.46
6) LF-1GX-R * LF-1GW-R * LF-1GV-S 2.00E-05 2.69 25.15
7) LF-1GX-R * LF-1GW-S * LF-1GV-R 2.00E-05 2.69 27.85
8) LF-1GX-S * LF-1GW-R * LF-1GV-R 2.00E-05 2.69 30.54
9) LF-1GX-R * LF-1GW-R * LF-1GV-R 1.33E-05 1.80 32.34
10) FL-TJ61S21-O * LF-1GW-S * LF-1GV-S 1.00E-05 1.35 33.70
11) LF-1GX-S * FL-TJ41S21-O * LF-1GV-S 1.00E-05 1.35 35.05
12) LF-1GX-S * LF-1GW-S * FL-TJ21S21-O 1.00E-05 1.35 36.40
13) LF-1GX-R * FL-TJ41S21-O * LF-1GV-S 6.69E-06 0.90 37.30
14) LF-1GX-R * LF-1GW-S * FL-TJ21S21-O 6.69E-06 0.90 38.20
15) FL-TJ61S21-O * LF-1GW-R * LF-1GV-S 6.69E-06 0.90 39.10
16) FL-TJ61S21-O * LF-1GW-S * LF-1GV-R 6.69E-06 0.90 40.01
17) LF-1GX-S * LF-1GW-R * FL-TJ21S21-O 6.69E-06 0.90 40.91
18) LF-1GX-S * FL-TJ41S21-O * LF-1GV-R 6.69E-06 0.90 41.81
19) FL-TJ61S05-O * LF-1GW-S * LF-1GV-S 6.68E-06 0.90 42.71
20) LF-1GX-S * FL-TJ41S05-O * LF-1GV-S 6.68E-06 0.90 43.61

En estos resultados, correspondientes a los 20 CM de mayor importancia, se aprecia


como el peso relativo de cada uno de ellos es bajo, por lo que el % acumulado se va
incrementando de forma moderada. Este es un aspecto positivo y es precisamente lo que
se persigue con una toma de decisiones oportuna, porque significa que las probabilidades
de los modos de falla del sistema están distribuidas de forma balanceada y no existen CM
dominantes, que lo hagan vulnerable ante determinadas combinaciones de fallas o
indisponibilidades de equipo y errores humanos.

Llama la atención el CM #2, que es de orden 1. Este representa la falla modo común de
la alimentación eléctrica a los 3 trenes redundantes, lo que indispone completamente al
sistema. Una de las tareas importantes de un APS es, precisamente, identificar la
susceptibilidad de los sistemas y de la industria a este tipo de falla dependiente y
cuantificar los aportes que se producen por esta causa. Generalmente entre los CM más
importantes se hallan presentes las fallas modo común de componentes redundantes (ver
anexo D).
A pesar de la pequeña contribución individual, de cada CM separado, los primeros 20
representan algo más del 40% de la probabilidad total de falla del sistema, que es de
7.4E-4 por demanda (se trata de un sistema a la espera, que entra en funcionamiento
sólo cuando es demandado por la ocurrencia del suceso iniciador de avería). Si
continuáramos examinando los CM, veríamos que los 600 CM más importantes
representan ya alrededor del 96% de la indisponibilidad o probabilidad de falla por
demanda del sistema. En la práctica, los contribuyentes más significativos nunca
sobrepasan la cifra de 2000. Sin embargo, esto no simplifica la tarea, porque los 2000
hay que encontrarlos entre cientos y miles de millones. Para ello se requiere un software
eficiente.

Adicionalmente a estos análisis de indisponibilidad media con determinación de los CM


más importantes, ARCON posibilita una amplia gama de opciones de análisis cuantitativo
de árboles de fallas y de sucesos:

- Cálculos en tiempos aislados.


- Análisis de importancia para indisponibilidades medias y tiempos de cálculo aislados.
- Estudios de indisponibilidad instantánea.
- Análisis de sensibilidad.
- Estudios de priorización:
- sin atributos
- por tiempo entre pruebas
- por mantenimiento
- por AOT

La evaluación de árboles de sucesos contempla además el análisis detallado o


ininterrumpido de una o varias secuencias accidentales, así como medidas de
importancia de sistemas (Fussel-Vesely y RRW) y de secuencias accidentales (RIM).

Todas estas opciones se acompañan de un potente soporte gráfico para el análisis de los
resultados y la documentación de las tareas.

En los capítulos IV, V y VI se detallan las diversas aplicaciones de estas potencialidades


del sistema ARCON.
Anexo C. Análisis de Modos y Efectos de Fallas
(FMEA).
C.1. Introducción.

Dentro de las técnicas de análisis de confiabilidad de sistemas se presenta el FMEA


como una de las más sencillas y útiles, ya que no se necesita de la existencia de datos
para obtener resultados beneficiosos.

Se refiere a un método inductivo de análisis cualitativo de fiabilidad basado en la


pregunta "¿Qué puede pasar si...?" y parte de la definición de una falla única en el
equipamiento o tuberías de un sistema, determinando los efectos de éste para el sistema
a que pertenece el elemento fallado, para otros sistemas y para la planta en general.

Los sistemas a que se hace referencia pueden ser:

- sistemas de fluidos;
- sistemas eléctricos;
- sistemas de instrumentación y control;
- sistemas de ventilación y aire acondicionado.

Para una mejor comprensión de esta técnica se definen los siguientes conceptos:

- Componente (elemento): nivel inferior de la subdivisión de la planta o sistema que es


objeto de análisis. La definición de qué constituye un componente para cualquier análisis
depende de la disponibilidad de datos (resolución de la base de datos de fiabilidad) y de
los objetivos y alcance de la tarea específica.

- Función: requerimientos al trabajo de un componente dentro de un sistema (p.e., la


función de una válvula de cierre podría ser abrir ante una señal determinada para permitir
el paso de un fluido y mantenerse abierta por un espacio dado de tiempo).

- Falla única: falla aleatoria que resulta en la pérdida de la capacidad de un componente


para ejecutar las funciones a él asignadas. Las fallas que resulten como consecuencia de
un suceso único aleatorio se consideran parte de la falla única.

- Mecanismo de falla: procesos de origen físico (mecánico) o químico cuya incidencia


acumulativa sobre un componente determinado provoca su falla en un modo dado.
Pueden relacionarse con el tiempo de espera o de trabajo del componente, o con las
demandas a que éste se someta durante su tiempo de servicio.

- Modo de falla: forma en la que puede fallar la función de un componente (p.e., válvula
falla al cierre, ruptura de tubería, interruptor falla al mantenimiento de la posición
requerida).
- Efecto de la falla: consecuencias positivas o negativas de una falla sobre un subsistema,
un sistema o la planta en general. La relación entre el mecanismo, modo y efecto de una
falla es que los mecanismos de fallas que actúan sobre un componente provocan la falla
del componente en un modo dado, que se refleja con determinados efectos sobre el
sistema y la instalación en general.

C.2. Propósito del FMEA.

El propósito principal de un FMEA en el marco de un análisis de fiabilidad de sistemas, es


proveer información cualitativa sobre los variados modos en que un sistema puede fallar y
las consecuencias de estos para el propio sistema, otros sistemas con él relacionados y
la planta en general. De ahí que se pueda utilizar para apoyar el desarrollo de los
modelos de sistemas (árboles de falla de sistemas) cuando los registros en planta no son
suficientes y hay carencia de datos estadísticos, o cuando el equipo de análisis no está
suficientemente familiarizado con el diseño y la operación de la instalación, así como para
determinar los sucesos iniciadores de accidente específicos de una planta.

Otros usos que puede tener un FMEA son, los siguientes:

-Comparación de varias alternativas de diseño y configuraciones de sistemas o


plantas en su conjunto,

-Confirmación de la capacidad de un sistema para satisfacer ”sus criterios de fiabilidad de


diseño,

-Identificar las áreas problemáticas en el diseño y operación de un sistema (p.e., modos


de falla que puedan causar que el ”sistema falle, interconexiones entre sistemas, áreas
que necesitan una redundancia mayor, etc.),

C.3. Requisitos para ejecutar un FMEA.

Antes de ejecutar un FMEA el analista debe definir qué constituye el sistema que va a ser
analizado (fronteras interior y exterior del sistema). Esta definición incluye:

- requerimientos al estado funcional del sistema,

- condiciones ambientales y operacionales bajo las cuales el sistema va a estar,

- establecimiento claro de las fronteras físicas y funcionales del sistema y las interfases
con otros sistemas,

- definición de la falla del sistema,


- nivel de resolución del análisis (subsistemas y componentes en los que comienza el
análisis y sistemas o planta en su conjunto en los que termina), determinado por los
objetivos planteados de la tarea.

C.4. Pasos del análisis.

1. Reunir toda la información de proyecto importante sobre el sistema en


consideración (p.e., descripción, planos, etc.).

2. Determinar el nivel al cual va a asumirse la falla de los componentes (resolución del


análisis respecto a la frontera interior) para la iteración inicial.

3. Usando el formato de la fig. C.1, identificar para cada componente los posibles modos
de falla con sus causas probables.

4. Identificar los efectos de cada falla a nivel del sistema.

Durante este proceso identificar otras fallas con efectos e indicaciones muy similares.

5. Comprobar las acciones de diagnóstico necesarias para identificar los efectos dados
con un modo de falla particular.

6. Determinar las acciones correctivas necesarias.

7. Repetir los pasos (4), (5) y (6) para cada conjunto de condiciones que modifiquen los
efectos del modo de falla (*),

8. Cuando el proceso esté completo al nivel del sistema, identificar los efectos de la
falla al nivel de otros sistemas y la planta en su conjunto.

C.5. Formato de presentación del análisis.

Los resultados del análisis se presentan en forma resumida en una tabla con el formato
que se ilustra en la figura C.1.

Pueden existir determinadas condiciones de operación del ”sistema o la instalación, para


las cuales los efectos de un mismo modo de falla de uno o varios componentes no sea el
mismo. Por ejemplo, la falla de una bomba de agua de alimentar estando la reserva
indisponible (por cualquier causa), no tiene el mismo efecto que la misma falla estando
disponible la reserva. Cada caso debe identificarse de manera clara en el análisis.
No. COMPONENTE EFECTOS SOBRE

POSIBILIDADES DE
RECUPERACION

COMENTARIOS
METODO DE
DETECCION
DESCRIPCION

UBICACIÓN

SISTEMAS
MODO DE

SISTEMA
ESTADO
CODIGO

PLANTA
OTROS
FALLA
Fig. C.1. Formato de presentación del FMEA.

donde:

CODIGO: se refiere al código de Proyecto del componente.

DESCRIPCION: se refiere a la denominación, tipo de componente y tipo de actuación


del mismo (p.e., válvula de no retorno, válvula manual de cierre, bomba centrífuga, etc.).

UBICACIÓN: se refiere al local (código) y cota donde se ubica el componente.

ESTADO: se refiere a la posición del componente en operación normal (p.e.,


normalmente abierto, desconectado, etc.).

MODOS DE FALLA: se refiere al modo de falla particular que se analiza, (para un


mismo componente pueden haber varios modos de falla posibles). Incluye descripción y
código.

CAUSAS DE FALLA: se refiere a las causas posibles que pueden originar la falla del
componente.

EFECTOS: se refiere a los efectos que tiene la falla sobre el sistema a que pertenece el
componente, sobre otros sistemas con él relacionados y sobre la planta (p.e., disparo de
turbina, disparo del generador, ningún efecto apreciable, etc.).

METODO DE DETECCION: se refiere a la forma en que se detecta la falla (si es posible),


ya sea directa o indirectamente, localmente o en panel de control central mediante
alarmas, indicadores, etc.).

POSIBILIDADES DE RECUPERACION: se refiere a si existe la posibilidad, y cómo, de


recuperar las condiciones iniciales antes de la falla del sistema, o la salida de servicio de
la planta.

COMENTARIOS: se refiere a cualquier información adicional que sirva para aclaración


del análisis.
Anexo D. Nociones generales sobre fallas
dependientes.
D.1. Introducción.

El tratamiento de las fallas dependientes tiene una importancia crucial en los análisis
de fiabilidad de sistemas y Análisis Probabilistas de Seguridad (APS). Esto se debe a
que existen mecanismos que provocan la ocurrencia de múltiples fallas de
componentes producto de una única causa o varias que coexisten al mismo tiempo y de
no considerarse se obtendría como consecuencia una subestimación de los resultados
cuantitativos del análisis y por lo tanto una caracterización erróneamente optimista de
la disponibilidad de los sistemas y de la seguridad de la instalación.

En la medida en que se ha ido perfeccionando el diseño, la fabricación y construcción


de las instalaciones, se ha comprobado una reducción notable de sus probabilidades de
fallas únicas aleatorias, convirtiéndose así las fallas dependientes en uno de los
factores dominantes de la evaluación del riesgo y la fiabilidad.

La falla de múltiples componentes puede clasificarse como independiente o


dependiente.

ƒ Fallas múltiples independientes: conjunto de sucesos de falla cuya probabilidad


puede expresarse como el producto simple de las probabilidades incondicionales de
los sucesos de fallas individuales que lo forman. Por ejemplo, dado la falla de
dos componentes A y B, P(A*B)=P(A)*P(B).

ƒ Fallas múltiples dependientes: conjunto de sucesos de falla cuya probabilidad no


puede expresarse como el producto simple de las probabilidades incondicionales de
fallas de los sucesos individuales que lo forman. Por ejemplo, P(A*B)=/ P(A)*P(B).
En este caso P(A*B)=P(A)*P(B/A), donde P(B/A) es la probabilidad condicional de
que ocurra la falla de B dado que ha ocurrido la de A.

D.2. Tratamiento de las fallas dependientes.

Las fallas dependientes son el resultado de la coexistencia de dos factores: uno que
proporciona la susceptibilidad del elemento a la falla (causa raíz) y un mecanismo de
acoplamiento que crea las condiciones de fallas múltiples de componentes. De acuerdo
con la estrategia de defensa incorporada en el proyecto del sistema puede
considerarse posible o no la ocurrencia de la falla dependiente.

Atendiendo a estas cuestiones existen tres direcciones sobre las que se enfoca el
análisis de las fallas dependientes:

a) Las causas raíces de la falla.


b) El mecanismo de acoplamiento entre las fallas individuales.
c) La estrategia defensiva para eliminar las dependencias o reducir la probabilidad de
que se presenten.
a) Causas raíces de la falla.
La causa raíz de la falla de uno o varios componentes, se identifica como la razón
primaria por la que el componente se encuentra en estado indisponible y que mientras
esté presente va a existir la posibilidad de que el mismo componente u otros
componentes similares se encuentren en este estado.
Existen cuatro tipos generales de causas raíces:

ƒ De equipo (Hardware): fallas aleatorias aisladas del equipamiento debidas a


causas inherentes al componente afectado.
ƒ Humanas: errores durante las actividades de la planta relacionadas con la
operación, el mantenimiento, las pruebas, el diseño, la fabricación y la construcción.

ƒ Ambientales: sucesos externos al equipamiento pero internos a la planta, que


resultan en esfuerzos ambientales aplicados al equipamiento.

ƒ Externas: sucesos externos a la planta que resultan en esfuerzos ambientales


anormales que se aplican al equipamiento.
La determinación de las causas raíces de falla juega un papel importante en el
análisis de las fallas, sean dependientes o independientes, ya que incidiendo sobre
éstas pueden modificarse el diseño o los procedimientos de operación, pruebas y
mantenimiento de los componentes y sistemas, de modo que no vuelva a
presentarse una falla por esa causa. Al fallar o encontrarse indisponible uno o
varios componentes (falla múltiple), con frecuencia se puede determinar el hecho que
se manifiesta como causa del mismo, sin embargo, esto generalmente se refiere a la
"causa directa". Por ejemplo:
Suceso Causa directa Causa raíz
Falla mecánica de una Alta vibración Capacitación inade-
bomba en operación. por error en el cuada del personal
montaje. de montaje y deficien-
cias en los procedi-
mientos de montaje.
Es decir, es importante examinar la cadena de sucesos que van desde la causa
próxima o directa hasta la causa final o raíz, que muchas veces se presenta como un
proceso complejo.
En la fig. D.1 se muestra un esquema orientativo de clasificación de causas genéricas de
falla, de acuerdo a la experiencia de las centrales nucleares:
CAUSAS DE FALLAS
DEPENDIENTES

Ingeniería Operación No
(E) (O) Indentificadas

Diseño Construcción Procedimientos Ambiente


(ED) (EC) (EC) (OE)

Deficiencia Fallas de Fabricación Montaje y Mantenim. Operación Extremos Sucesos


Funcional Realización (ECM) P. En Serv. (OPM) (OPO) Normales Energéticos
(EDF) (EDR (ECI) (OEN) (OEE)

Peligro No Dependenc Control de Control de Reparación Errores del Temperat. Incendio


Detectable . Calidad Calidad Incorrecta Operador
Entre Indadecuad Indadecuad
Trenes o o
Presión Inundación

Instrument. Pruebas Procedim.


Inadecuada Operación Normas Normas Incorrectas Inadecuad.
y Indadecuad Indadecuad Humedad Tiempo
Protección . . Meteorol.
de
Compon. Calibración Supervsión
Control Comunes Incorrecta Inadecuada Vibración
Inadecuado Inspección Inspección Terremoto
Inadecuada Inadecuada

Deficiencia Procedim. Error de Aceleración


s Operac. Incorrectos Comunicac. Explosión
Pruebas Pruebas y
Inadecuad. Puesta en
Servicio Tensión
Compon. Inadecuad. Supervisión Proyectiles
Inadecuado Incorrecta
s
Corrosión
Energía
Eléctrica
Errores en
el Diseño Contamina
c
Radiación

Limitac. en
el Diseño Interferenc.
Fuentes
Químicas
b) Mecanismo de acoplamiento entre fallas individuales.

El mecanismo de acoplamiento es el responsable de extender la susceptibilidad de


un componente a una causa de falla, hacia otros componentes.

Se identifican 3 tipos de mecanismos de acoplamiento:

(1) Dependencias funcionales:

Dependencias entre elementos (1) debidas a que comparten determinados


equipos o a procesos de acoplamiento. El compartimiento de equipos se refiere
a aquellos casos de múltiples elementos que comparten el mismo equipamiento
(válvulas, intercambiadores de calor, bombas, etc.), mientras que los procesos de
acoplamiento se refieren a los casos donde la función de un elemento depende directa
o indirectamente de la función de otro. En este último caso existe una dependencia
directa cuando el producto del funcionamiento de un elemento constituye una entrada
para otro (p.e., enlace entre el sistema de agua de alimentar y el sistema de
alimentación eléctrica de consumos propios, etc.). Una dependencia indirecta existe
siempre que los requerimientos funcionales de un elemento dependan del estado de
otro (p.e., dependencia del trabajo del sistema de agua de alimentar del trabajo del
sistema de calentadores de baja presión).

(2) Dependencias físicas:

Existen dos tipos de dependencias físicas,

ƒ Equipamiento ubicado dentro del mismo local, dentro de las mismas barreras
contra incendio, contra inundaciones o contra impacto de objetos. (Proximidad
espacial).

ƒ Equipamiento no interconectado espacialmente, pero acoplado por condiciones


ambientales (por ejemplo, sistema de ventilación, aire acondicionado, etc.).

(3) Interacciones humanas.

Se pueden distinguir las relativas a acciones basadas en el conocimiento y las


relativas a acciones basadas en procedimientos; en las actividades relacionadas
con el diseño, fabricación, construcción, montaje, operación, pruebas, inspección,
mantenimiento preventivo y correctivo y liquidación de averías.
___________________________
(1) En estas definiciones el término genérico "elemento" puede significar un sistema, un subsistema, un tren redundante, o un
componente.
Al examinar las causas raíces luego de definir los mecanismos de acoplamiento, las
primeras pueden agruparse como sigue:

ƒ Causas raíces que afectan al equipamiento similar. Componentes similares


que son afectados usualmente por procedimientos similares de montaje,
mantenimiento y pruebas, así como por procesos similares de diseño y fabricación.
Estos rasgos comunes pueden provocar fallas múltiples debidas a errores
humanos sistemáticamente repetidos. Por tanto, para estas causas de fallas
dependientes el mecanismo de acoplamiento es la similitud del equipamiento, y
los grupos de componentes de interés son aquellos con componentes similares.
Las fallas dependientes resultantes de este tipo de causas raíces presentan
mecanismos de acoplamiento del tipo (1) y (3) anteriores.

ƒ Causas raíces que afectan al equipamiento ubicado en el mismo local, o


enlazado por las mismas condiciones ambientales. Las condiciones ambientales
adversas como, por ejemplo, incendios, inundaciones, alta humedad, campos
magnéticos, etc., pueden generar fallas múltiples en un área limitada o en diversas
áreas acopladas por la ventilación, el aire acondicionado, etc. Para estas causas, el
mecanismo de acoplamiento de interés es la susceptibilidad a ciertas condiciones
ambientales adversas y la ubicación con respecto a éstas, o el acoplamiento por un
factor o agente externo (por ejemplo, equipamiento no separado por barreras de
la fuente de condiciones ambientales adversas). Este tipo de causas raíces genera
fallas dependientes que presentan mecanismos de acoplamiento del tipo (2).

ƒ Causas raíces que afectan al equipamiento operado o mantenido según los


mismos procedimientos. Los componentes que son afectados por los mismos
procedimientos de operación normal, de pruebas y mantenimiento, o de avería
pueden fallar producto de errores comunes del personal al aplicar dichos
procedimientos. Estos procedimientos pueden influir sobre componentes no
similares. Este tipo de causas raíces pueden afectar a componentes
diferentes, generando sucesos dependientes que presentan mecanismos de falla
del tipo (3).

c) Estrategia defensiva.

Las fallas dependientes pueden eliminarse o reducirse su probabilidad mediante las


dos estrategias de defensa siguientes:

1. Reducir la susceptibilidad de los componentes a una causa falla determinada (p.e.,


control de calidad del diseño, calidad de los procedimientos de prueba y
mantenimiento, etc.).

2. Eliminar el mecanismo de acoplamiento (p.e., separación física, diversidad, etc.).

Entre las medidas que pueden tomarse contra este tipo de fallas están:
- Establecimiento de barreras.

Se refiere a cualquier impedimento físico que trate de confinar o restringir cualquier


condición potencialmente dañina (por ejemplo, la propagación de un incendio).

También debe evitarse interconectar componentes redundantes separados


físicamente (por barreras o locales) a través de sistema de ventilación o aire
acondicionado común.

Se emplean comúnmente los bloqueos entre componentes o trenes redundantes de


los sistemas de instrumentación y control, para evitar, por ejemplo, que puedan ser
sacados fuera de servicio más de uno a la vez para la realización de una prueba
o mantenimiento; esto reduce el acoplamiento asociado a errores que pudieran
cometerse en la realización de la prueba de un tren o componente redundante,
mientras existe otro que está en mantenimiento preventivo.

- Entrenamiento adecuado del personal.

Mediante un programa de entrenamiento que asegure que los operadores y el


personal de mantenimiento se familiaricen con los procedimientos, de modo que sean
capaces de seguirlos durante todas las condiciones de operación.

- Control de la calidad.

Mediante un programa que asegure un producto en correspondencia con los


requerimientos de proyecto y las normas.

- Redundancia.

Se agregan componentes redundantes idénticos adicionales al sistema con el fin de


incrementar la probabilidad de que un suficiente número de componentes sobreviva a
una causa de falla dada ante una demanda de actuación.

- Estrategia de vigilancia, pruebas y mantenimiento planificado.

Se evita la existencia de fallas no revelables (ocultas) o al menos se disminuye el


tiempo en que éstas puedan existir. Esto incluye el monitoreo (alarmas), pruebas
frecuentes, inspecciones, etc.

La realización de pruebas y mantenimientos preventivos escalonados para los


componentes redundantes tiene algunas ventajas sobre ejecutarlos de manera
simultánea (concentrada) o secuencial. Primeramente, se reduce el acoplamiento
asociado a ciertas fallas relacionadas con errores del personal durante las actividades
de pruebas y mantenimientos. (La probabilidad de que un operador o un técnico repita
una acción incorrecta es menor cuando esa actividad se realiza meses, semanas e
incluso días después de haberse realizado con anterioridad).
Otra gran ventaja es que se reduce el tiempo de exposición a las fallas dependientes de
manera proporcional al número de equipos redundantes, que definen el escalonamiento.
- Revisión de procedimientos.
Revisión de los procedimientos de operación, mantenimiento, de pruebas y calibración
para eliminar acciones incorrectas o inapropiadas, que puedan resultar en la
indisponibilidad del sistema.
- Diversidad.
Uso de enfoques, procesos o métodos diferentes para lograr el mismo resultado
(diversidad funcional). Por ejemplo, el control de diferentes variables de proceso para
iniciar la corrección de parámetros en el circuito o el disparo del equipo que se quiere
proteger.
Uso de diferente tipo de equipamiento para ejecutar la misma función (diversidad de
equipamiento). Por ejemplo, empleo de bombas y válvulas redundantes de diferente
fabricante.
Empleo de diferente personal para ejecutar las tareas de montaje, mantenimiento y
pruebas sobre el equipamiento redundante.

D.3. Consideración de las fallas dependientes en los modelos de sistemas.


Se pueden incluir de manera explícita o implícita.
- De forma explícita.
Cuando las causas de la falla de múltiples componentes se puede representar como
modos de falla de los componentes de los que depende (dependencias funcionales,
físicas y humanas). Por ejemplo, la falla de varias bombas o válvulas eléctricas debida
a la falla de una barra común de consumo propio de la cual se alimentan. Debe
tratarse de incluir las fallas dependientes en los modelos de manera explícita, siempre
que sea posible.
Esta dependencia se incluye en el modelo de falla del sistema (árbol de fallas) a través
de la inclusión del suceso básico que representa la falla de la barra de alimentación
eléctrica, con su respectiva probabilidad o rata de fallas, como una de las causas de falla
de cada una de las válvulas o bombas respectivas, asegurándose que dicho suceso
tenga la misma codificación para todos los casos donde intervenga (ver fig. D.2,
componente F-ALIMELE).
- De forma implícita.
Cuando la causa de fallas múltiples no está en la falla de otro u otros componentes, o
cuando no está identificada de manera clara su causa raíz o, aun estándolo, no se
cuenta con los datos que permitan su evaluación individual.
Sus efectos se tienen en cuenta (de forma implícita sin enumerar de manera explícita
las causas de la falla múltiple en el modelo), a través de parámetros que se
determinan a partir del procesamiento de los datos registrados de la experiencia
operacional, de la misma manera que se determinan las ratas de fallas de los
componentes de los sistemas. Ejemplos de métodos utilizados son: el del Factor
BETA (más utilizado por su sencillez), el método de la rata Binomial de Fallas, el
método de los Parámetros Básicos, etc.
En el ejemplo de la fig. D.2 se presenta un sub-árbol simplificado de falla de la parte
de bombas de un sistema de agua de alimentar. El suceso básico CM-BAB-R
significa la falla de ambas bombas BA-A y BA-B a continuar en operación por causa
común (dependencias residuales). Nótese que en dicha figura aparecen dos sucesos
dependientes, uno es la falla de las bombas por la falla de la alimentación eléctrica
colocado explícitamente en el modelo como causa de falla de éstas (método explícito),
representado por F-ALIMELE, y el otro CM-BAB-R, que no especifica la causa o
causas que provocan la falla en operación de ambas bombas (método implícito).

FALLA DE LAS BOMBAS DE


AGUA DE ALIMENTAR

AND

FALLA BOMBA BA FALLA LA RESERVA


EN OPERACION (BOMBA BA-B)

OR OR

F-BAB-R F-ALIMELE CM-BAB-R F-BAB-S F-BAB-R F-ALIMELE CM-BAB-R

Fig. D.2. Subárbol de fallas simplificado de las bombas de agua de alimentar de un


sistema hipotético.
Los sucesos de falla en la fig. D.2 se describen como:
F-BAA-R. Falla de la bomba BA-A en operación.
F-BAB-R. Falla de la bomba BA-B en operación.
F-BAB-S. Falla de la bomba BA-B al arranque.
F-ALIMELE. Falla de la alimentación eléctrica.
CM-BAB-R. Falla en operación de las bombas BA-A y BA-B, por causa común
BIBLIOGRAFIA
1- Maintenance Engineering Workshop, Houston, THFC, 1963, pág. 253.

2- Lozano Conejero, Antonio. Confiabilidad - Teoría y Práctica. Buenos Aires, Editorial


Universitaria,1969, pág. 94.

3- Finley, Howard. Principios de Optimización de Mantenimiento, Howard Finley de Venezuela


C.A., 1975, pág. 525.

4- C. Valhuerdi, R. Quintero . Seguridad nuclear. Problemas y valoraciones. Selección de temas.


Instituto Superior de Ciencias y Tecnología Nucleares, MES, La Habana, 1990.

5- IAEA-TECDOC-478. Component Reliability Data for Use in Probabilistic Safety Assessment.


IAEA, Vienna, 1988.

6- Finley, Howard. Ingeniería de Mantenimiento, Houston, 1977.

7- Mosquera, Genaro. Apoyo Logístico para el Mantenimiento Industrial, U.C.V. – C.D.C.H.,


Caracas, 1987.

8- Mosquera, Genaro. Gerencia de Logística Industrial, Academia de Ciencias Económicas,


Caracas, 1994.

9- J. Rivero, J. Salomón, M. Perdomo, A. Torres. Resultados más significativos de los estudios


de análisis probabilista de seguridad en Cuba. Revista CTN No 1, Brasil, 1993.

10- J. Rivero, J. Salomón, A. Torres, M. Perdomo. El programa ARCON 4.1 para análisis
probabilista de seguridad de nivel I. Memorias del II Congreso Regional de ARCAL. México,
1993.

11- NUREG/CR-4213. SETS Reference Manual. USNRC, Washington DC,U.S.A, 1985.

12- R. W. Randall. FTAP: Computer Aided Fault Tree Analysis. Operational Research Center,
University of California, Berkeley, ORC 78-14, 1978.

13- IAEA-TECDOC-480. J. B. Fussell, PRISIM - A Computer Program that Enhances Operational


Safety. JBFAssociates,Inc., Knoxville, Tennessee. U.S.A., 1988.

14- R. Nakai, Y. Kani. A Living PSA System LIPSAS for an LMFBR. Power Reactor and Nuclear
Fuel Development Corporation. Narita, O-arai,Ibaraki,311-13. Japan, 1991.

15- S. Haddad, S. Hirschberg. PSA in the Nuclear and Process Industry: Opportunities for
Interchange of Experience. International Atomic Energy Agency (IAEA). Vienna, Austria, 1991.
16- GDA/APS. Grupo de desarrollo y aplicaciones de APS. Manual de Usuario del Código ARCON
versión docente. Cuba, 1993.

17- STI/PUB/759. IAEA, Safety Aspects of the Ageing and Maintenance of Nuclear Power Plants.
Viena, 1988.

18- IAEA-TECDOC-542. Use of Expert Systems in Nuclear Safety. Vienna. 1988.

19- N. J. Liparrulo, D. R. Sharp. B. D. Sloane, J. K. Chan. Developments in Living Probabilistic


Risk Assessment. Pittsburg. PA 15230. U.S.A, 1988.

20- GDA/APS. Grupo de desarrollo y aplicaciones de APS. Manual de instrucciones y


procedimientos de garantía de calidad del APS de la CEN Juraguá. 1993.

21- Workshop "PSA based optimization of tasks and procedures in NPP operation", Mexico, 1993.

22- IAEA-TECDOC-480. Improving Operational Safety Management through Probabilistic Safety


Assessment on Personal Computers. Vienna, 1988.

23- Mc Cormick. Reliability and risk analysis. Methods and nuclear power applications. 1983.

24- 24-IAEA-TECDOC-590. Case study on the use of PSA methods: Determinig safety importance
of systems and components at nuclear power plants. April, 1991.

25- IAEA-TECDOC-508. Survey of Ranges of Component Reliability Data for Use in Probabilistic
Safety Assessment. IAEA, Vienna, 1989.

26- IAEA Safety Series No. 50-P-4. Procedures for Conducting Probabilistic Safety Assessment of
Nuclear Power Plants. IAEA, 1992.

27- NUREG/CR-4780. Procedures for Treating Common Cause Failures in Safety and Reliability
Studies. USNRC, 1988.

28- SRD Dependent Failures Procedures Guide. SRD, UKAEA, 1987.

29- Castillo Guilarte, Manuel. Sistematización del Departamento Técnico de Continuidad Absoluta,
Caracas, 1981, pág. 92

30- Estava Moreno, Nicolás. Mantenimiento y Subdesarrollo, Caracas, Editorial Principios, pág.
233.

31- Foster, Caxton. Real Time Programming. Philippines, Editorial Addiso-Wesley, Publishing
Company, 1981, pág. 190.

32- Glass, Robert y Noiseux, Rolan. Software Maintenance Guidebook, New Jersey, Editorial
Prentice-Hall Inc., 1981, pág. 193.
33- Goldeman, S.A. y Slattery, T.B., Maintainability: A mayor element of System Effectiveness,
Newe York, Editorial John Wiley & Sons Inc., 1964, pág. 282.

34- Gumbel, Emil Julius, Statistics of Extremes, 3ra. Ed., Editorial Columbia University Press,
1066, pág. 375.

35- Jelen, F.C., Const and Optimization Engineering, New York, Editorial Mc-Graw Hill Book
Company, 1970, pág. 490

36- Newbrough, E.T., Administración de Mantenimiento Industrial, 2da. Impresión, México,


Editorial Diana, 1976, pág. 413, traducido por Mario Bracamonte Cantolla.

37- Organización de la Aviación Civil Internacional, Confiabilidad y Disponibilidad del Equipo


Electrónico, Montreal, 1968, pág. 20.

38- Bain, Lee y Antle, Charles, Estimation of Parameters in the Weibull Distribution,
Technometrics, Vol. 9, No. 4, Nov. 1967, págs. 621-627.

39- Beichelt, F. Y Fisher, K., On a basic Equation of Reliability Theory, Microelectronics Reliability,
Vol.`19, No. 1979, págs. 367-369.

40- Bosch, G., Model for Failure Rate Curves, Microelectronics Reliability, Vol.`19, No. 1979, págs.
579-588.

41- Cohen, Clifford A., Maximum Likelihood Estimation in the Weibull Distribution based on
Censored and on Complete Data, Technometrics, Vol. 7, No. 4, Nov. 1965, págs. 579-588

42- Finley, Howard, Total Life Cycle Costs of Plant and Equipment, Canadian Society for Chemical
Engineering, 20th Conference, Paper 65, Oct. 1970.

43- Finley, Howard, How Cost-Effective is your Maintenance Organization?, Hydrocarbon


Processing, Enero 1972, págs. 81-86.

44- Finley, Howard, High Technology Maintenance Management, National Petroleum Refiners
Association, Atlanta, Sept. 1976.

45- Johnson, L.G., Statistical Treatment of Failure Experiments, Transactions of the 22nd Technical
Conference of Quality Control., págs. 113-140.

46- Latour, P.R., On-Line Computer Optimization: What is it and where to do it, Hydrocarbon
Processing, Jun. 1979, págs. 73-82.

47- Mosquera C., Genaro, Administración y Mantenimiento, Universidad Central de Venezuela,


Caracas, 1979, pág. 18.

48- Qureisi, A.S., The Discrimination between two Weibull Processes, Technometrics, Vol. 6, No.1
Feb, 1964, págs. 57-75.

49- Redding, J.H. y Maynard, H.B., Can a Computer Reduce your Maintenance?, Hydrocarbon
Processing, January 1980, págs. 78-91.

50- Trotter, J.A., Reduce Maintenance Costs with Computers, Hydrocarbon Processing, January
1979, págs. 133-140.

51- Weibull, Waloddi, An Statistical Representation of Fatigue Failure in Solids, Transactions of


the Royal Institute of Technology, Stockholm, No. 27, p;ags. 133-140.

You might also like