361.1 - Ejercicios: Conceptos y Teoría HA
Pregunta 1
¿Cuánto tiempo de inactividad máximo al año permite una disponibilidad de 99.99%?
a) 8.76 horas b) 52.6 minutos c) 5.26 minutos d) 31.5 segundos
Respuesta
b) 52.6 minutos
99.99% (cuatro nueves) permite aproximadamente 52.6 minutos de inactividad al año. 99.9% = 8.76 horas, 99.999% = 5.26 minutos y 99.9999% = 31.5 segundos.
Pregunta 2
¿Qué componente de la arquitectura Pacemaker/Corosync se encarga de la comunicación entre nodos y la gestión de membresía?
a) Pacemaker b) CIB c) Corosync d) LRMd
Respuesta
c) Corosync
Corosync es la capa de mensajería que gestiona la comunicación entre nodos, la membresía del cluster y el quorum. Pacemaker se encarga de la gestión de recursos.
Pregunta 3
En un cluster de 5 nodos, ¿cuántos nodos deben estar activos para mantener el quorum?
a) 2 b) 3 c) 4 d) 5
Respuesta
b) 3
El quorum requiere (N+1)/2 nodos para N impar. Con 5 nodos: (5+1)/2 = 3. Esto permite tolerar el fallo de hasta 2 nodos.
Pregunta 4
¿Qué es STONITH?
a) Un protocolo de comunicación entre nodos del cluster b) Un mecanismo para apagar o reiniciar físicamente un nodo defectuoso c) Un algoritmo de balanceo de carga d) Un tipo de sistema de archivos cluster
Respuesta
b) Un mecanismo para apagar o reiniciar físicamente un nodo defectuoso
STONITH (Shoot The Other Node In The Head) es un mecanismo de fencing que garantiza que un nodo problemático sea eliminado físicamente del cluster para evitar corrupción de datos.
Pregunta 5
¿Cuál es la principal consecuencia de un split-brain en un cluster?
a) Mejora del rendimiento b) Corrupción de datos en almacenamiento compartido c) Aumento de la disponibilidad d) Reducción del consumo de recursos
Respuesta
b) Corrupción de datos en almacenamiento compartido
El split-brain ocurre cuando los nodos pierden comunicación y ambos creen ser el primario. Si ambos escriben simultáneamente en almacenamiento compartido, se produce corrupción de datos.
Pregunta 6
¿Qué almacena el CIB (Cluster Information Base)?
a) Los logs del cluster b) La configuración completa del cluster en formato XML c) Las estadísticas de rendimiento d) Las credenciales de los nodos
Respuesta
b) La configuración completa del cluster en formato XML
El CIB es una base de datos XML que contiene la configuración del cluster, incluyendo nodos, recursos, restricciones y propiedades. Se replica automáticamente entre todos los nodos.
Pregunta 7
¿Qué valor de no-quorum-policy detiene todos los recursos cuando se pierde el quorum?
a) freeze
b) ignore
c) stop
d) suicide
Respuesta
c) stop
stop es el valor predeterminado y detiene todos los recursos. freeze mantiene los activos pero no inicia nuevos. ignore ignora la pérdida de quorum. suicide apaga el nodo.
Pregunta 8
¿Cuál es la clase de agente de recurso más completa y recomendada en Pacemaker?
a) LSB b) systemd c) OCF d) service
Respuesta
c) OCF
Los agentes OCF (Open Cluster Framework) son los más completos, soportando operaciones como start, stop, monitor, promote, demote y migrate. Se encuentran en /usr/lib/ocf/resource.d/.
Pregunta 9
Un sistema tiene un MTBF de 1000 horas y un MTTR de 1 hora. ¿Cuál es su disponibilidad aproximada?
a) 99% b) 99.9% c) 99.99% d) 99.999%
Respuesta
b) 99.9%
Disponibilidad = MTBF / (MTBF + MTTR) = 1000 / (1000 + 1) = 1000 / 1001 ≈ 0.999 = 99.9%.
Pregunta 10
¿Qué mecanismo adicional se necesita en un cluster de exactamente 2 nodos para resolver el problema de quorum?
a) Un tercer anillo de Corosync b) Un quorum disk o quorum device c) Desactivar el fencing d) Configurar modo activo/activo
Respuesta
b) Un quorum disk o quorum device
Con 2 nodos, ningún nodo tiene mayoría si el otro falla o si se pierde la comunicación. Un quorum disk o quorum device actúa como “tercer voto” para desempatar. Alternativamente se puede configurar two_node: 1 en Corosync junto con wait_for_all.
Pregunta 11
¿Qué componente de Pacemaker calcula el estado deseado del cluster y decide qué acciones realizar?
a) CIB (Cluster Information Base) b) PE (Policy Engine) c) LRMd (Local Resource Manager daemon) d) STONITHd
Respuesta
b) PE (Policy Engine)
El Policy Engine (PE) evalúa el estado actual del cluster (almacenado en la CIB) y calcula la transición necesaria para alcanzar el estado deseado. Genera un grafo de acciones que el CRMd coordina y el LRMd ejecuta localmente.
Pregunta 12
¿Cuál es la principal diferencia entre un modelo de cluster activo/pasivo y activo/activo?
a) El activo/pasivo requiere más nodos b) En el activo/activo ambos nodos procesan peticiones simultáneamente c) El activo/pasivo es más complejo de configurar d) El activo/activo no necesita almacenamiento compartido
Respuesta
b) En el activo/activo ambos nodos procesan peticiones simultáneamente
En el modelo activo/activo, todos los nodos procesan peticiones, aprovechando mejor los recursos. El activo/pasivo mantiene un nodo en espera. El activo/activo es más complejo y requiere sistemas de archivos cluster o almacenamiento compartido para escrituras concurrentes.
Pregunta 13
¿Qué protocolo utiliza Corosync para garantizar el orden de mensajes entre los nodos del cluster?
a) VRRP b) Totem (Single Ring Ordering) c) Raft d) Paxos
Respuesta
b) Totem (Single Ring Ordering)
Corosync utiliza el protocolo Totem con Single Ring Ordering para garantizar que los mensajes se entregan a todos los nodos en el mismo orden. Esto es fundamental para mantener la coherencia del estado del cluster.
Pregunta 14
Un sistema tiene un MTBF de 500 horas y un MTTR de 0.5 horas. ¿Cuál es su disponibilidad aproximada?
a) 99% b) 99.5% c) 99.9% d) 99.99%
Respuesta
c) 99.9%
Disponibilidad = MTBF / (MTBF + MTTR) = 500 / (500 + 0.5) = 500 / 500.5 ≈ 0.999 = 99.9%. Un MTBF alto combinado con un MTTR bajo resulta en alta disponibilidad.
Pregunta 15
¿Cuánto tiempo de inactividad máximo al año permite una disponibilidad de 99.999% (cinco nueves)?
a) 52.6 minutos b) 8.76 horas c) 5.26 minutos d) 31.5 segundos
Respuesta
c) 5.26 minutos
Cinco nueves (99.999%) permite solo 5.26 minutos de inactividad al año. Este nivel de disponibilidad se considera el estándar más exigente y requiere redundancia completa, failover automático y tiempos de recuperación extremadamente rápidos.
Pregunta 16
¿Qué valor de no-quorum-policy mantiene los recursos activos pero impide iniciar nuevos cuando se pierde el quorum?
a) stop
b) freeze
c) ignore
d) suicide
Respuesta
b) freeze
La política freeze mantiene los recursos que ya están activos pero no permite iniciar nuevos ni mover los existentes. stop detiene todo, ignore ignora la pérdida de quorum, y suicide apaga los nodos que no tienen quorum.
Pregunta 17
¿En qué directorio se encuentran los agentes de recursos OCF en un sistema Linux?
a) /etc/ocf/agents/
b) /usr/lib/ocf/resource.d/
c) /var/lib/pacemaker/ocf/
d) /opt/ocf/resources/
Respuesta
b) /usr/lib/ocf/resource.d/
Los agentes OCF se ubican en /usr/lib/ocf/resource.d/ organizados por proveedor. Por ejemplo, /usr/lib/ocf/resource.d/heartbeat/IPaddr2 es el agente de IP virtual del proveedor heartbeat.
Pregunta 18
¿Qué tipo de fencing opera a nivel de recurso bloqueando el acceso del nodo al almacenamiento en lugar de apagar el nodo completo?
a) STONITH b) SAN zoning / fencing de recurso c) Watchdog timer d) Network partition
Respuesta
b) SAN zoning / fencing de recurso
El fencing a nivel de recurso bloquea el acceso del nodo a recursos específicos (por ejemplo, mediante SAN zoning o reservas SCSI). A diferencia de STONITH que apaga todo el nodo, el fencing de recurso es más granular pero menos determinista.
Pregunta 19
En un cluster de 7 nodos, ¿cuántos fallos simultáneos puede tolerar sin perder el quorum?
a) 2 b) 3 c) 4 d) 5
Respuesta
b) 3
Con 7 nodos, el quorum requiere (7+1)/2 = 4 nodos. Por lo tanto, el cluster puede tolerar la pérdida de 3 nodos (7 - 4 = 3) sin perder el quorum.
Pregunta 20
¿Qué componente de Pacemaker ejecuta las operaciones de start, stop y monitor de los recursos en el nodo local?
a) CRMd (Cluster Resource Manager daemon) b) PE (Policy Engine) c) LRMd (Local Resource Manager daemon) d) CIB (Cluster Information Base)
Respuesta
c) LRMd (Local Resource Manager daemon)
El LRMd es el daemon que ejecuta las operaciones de los resource agents en el nodo local. Recibe instrucciones del CRMd y las ejecuta llamando a los agentes de recursos apropiados (start, stop, monitor, etc.).
Pregunta 21
¿Qué comando lista los agentes de recursos OCF disponibles del proveedor heartbeat en un cluster Pacemaker?
Respuesta
pcs resource agents ocf:heartbeat
El comando pcs resource agents ocf:heartbeat muestra todos los agentes OCF disponibles del proveedor heartbeat. Sin especificar proveedor, pcs resource agents muestra agentes de todas las clases.
Pregunta 22
¿Qué comando muestra la descripción y los parámetros del agente de recurso ocf:heartbeat:IPaddr2?
Respuesta
pcs resource describe ocf:heartbeat:IPaddr2
El comando pcs resource describe muestra la documentación completa de un agente de recurso, incluyendo sus parámetros obligatorios y opcionales, valores predeterminados y las operaciones soportadas.
Pregunta 23
¿Cuál es la fórmula correcta para calcular la disponibilidad de un sistema a partir del MTBF y el MTTR?
Respuesta
MTBF / (MTBF + MTTR)
La disponibilidad se calcula dividiendo el tiempo medio entre fallos (MTBF) entre la suma del MTBF y el tiempo medio de reparación (MTTR). El resultado se multiplica por 100 para obtener el porcentaje.
Pregunta 24
¿Qué comando muestra el estado completo de un cluster Pacemaker incluyendo nodos, recursos y restricciones?
Respuesta
pcs status
El comando pcs status muestra un resumen completo del cluster: estado de los nodos, recursos activos, restricciones y errores. Equivale a crm status en la shell crm o a crm_mon para monitorización continua.
Pregunta 25
¿Qué comando configura la propiedad de STONITH como habilitada en un cluster Pacemaker?
Respuesta
pcs property set stonith-enabled=true
El comando pcs property set stonith-enabled=true activa STONITH en el cluster. STONITH es obligatorio en entornos de producción para garantizar la integridad de los datos. Sin STONITH habilitado, Pacemaker no puede evitar la corrupción por split-brain.