Flashcards: 361.1 - Conceptos Y Teoria Ha
38 tarjetas de repaso. Usa el sistema de repeticion espaciada para memorizar.
P: ¿Cuánto tiempo de inactividad máximo al año permite una disponibilidad de 99.99%?
R: b) 52.6 minutos. 99.99% (cuatro nueves) permite aproximadamente 52.6 minutos de inactividad al año. 99.9% = 8.76 horas, 99.999% = 5.26 minutos y 99.9999% = 31.5 segundos.
P: ¿Qué componente de la arquitectura Pacemaker/Corosync se encarga de la comunicación entre nodos y la gestión de membresía?
R: c) Corosync. Corosync es la capa de mensajería que gestiona la comunicación entre nodos, la membresía del cluster y el quorum. Pacemaker se encarga de la gestión de recursos.
P: En un cluster de 5 nodos, ¿cuántos nodos deben estar activos para mantener el quorum?
R: b) 3. El quorum requiere (N+1)/2 nodos para N impar. Con 5 nodos: (5+1)/2 = 3. Esto permite tolerar el fallo de hasta 2 nodos.
P: ¿Qué es STONITH?
R: b) Un mecanismo para apagar o reiniciar físicamente un nodo defectuoso. STONITH (Shoot The Other Node In The Head) es un mecanismo de fencing que garantiza que un nodo problemático sea eliminado físicamente del cluster para evitar corrupción de datos.
P: ¿Cuál es la principal consecuencia de un split-brain en un cluster?
R: b) Corrupción de datos en almacenamiento compartido. El split-brain ocurre cuando los nodos pierden comunicación y ambos creen ser el primario. Si ambos escriben simultáneamente en almacenamiento compartido, se produce corrupción de datos.
P: ¿Qué almacena el CIB (Cluster Information Base)?
R: b) La configuración completa del cluster en formato XML. El CIB es una base de datos XML que contiene la configuración del cluster, incluyendo nodos, recursos, restricciones y propiedades. Se replica automáticamente entre todos los nodos.
P: ¿Qué valor de no-quorum-policy detiene todos los recursos cuando se pierde el quorum?
R: c) stop. stop es el valor predeterminado y detiene todos los recursos. freeze mantiene los activos pero no inicia nuevos. ignore ignora la pérdida de quorum. suicide apaga el nodo.
P: ¿Cuál es la clase de agente de recurso más completa y recomendada en Pacemaker?
R: c) OCF. Los agentes OCF (Open Cluster Framework) son los más completos, soportando operaciones como start, stop, monitor, promote, demote y migrate. Se encuentran en /usr/lib/ocf/resource.d/.
P: Un sistema tiene un MTBF de 1000 horas y un MTTR de 1 hora. ¿Cuál es su disponibilidad aproximada?
R: b) 99.9%. Disponibilidad = MTBF / (MTBF + MTTR) = 1000 / (1000 + 1) = 1000 / 1001 ≈ 0.999 = 99.9%.
P: ¿Qué mecanismo adicional se necesita en un cluster de exactamente 2 nodos para resolver el problema de quorum?
R: b) Un quorum disk o quorum device. Con 2 nodos, ningún nodo tiene mayoría si el otro falla o si se pierde la comunicación. Un quorum disk o quorum device actúa como “tercer voto” para desempatar. Alternativamente se puede configurar two_node: 1 en Corosync junto con wait_for_all.
P: ¿Qué componente de Pacemaker calcula el estado deseado del cluster y decide qué acciones realizar?
R: b) PE (Policy Engine). El Policy Engine (PE) evalúa el estado actual del cluster (almacenado en la CIB) y calcula la transición necesaria para alcanzar el estado deseado. Genera un grafo de acciones que el CRMd coordina y el LRMd ejecuta localmente.
P: ¿Cuál es la principal diferencia entre un modelo de cluster activo/pasivo y activo/activo?
R: b) En el activo/activo ambos nodos procesan peticiones simultáneamente. En el modelo activo/activo, todos los nodos procesan peticiones, aprovechando mejor los recursos. El activo/pasivo mantiene un nodo en espera. El activo/activo es más complejo y requiere sistemas de archivos cluster o almacenamiento compartido para escrituras concurrentes.
P: ¿Qué protocolo utiliza Corosync para garantizar el orden de mensajes entre los nodos del cluster?
R: b) Totem (Single Ring Ordering). Corosync utiliza el protocolo Totem con Single Ring Ordering para garantizar que los mensajes se entregan a todos los nodos en el mismo orden. Esto es fundamental para mantener la coherencia del estado del cluster.
P: Un sistema tiene un MTBF de 500 horas y un MTTR de 0.5 horas. ¿Cuál es su disponibilidad aproximada?
R: c) 99.9%. Disponibilidad = MTBF / (MTBF + MTTR) = 500 / (500 + 0.5) = 500 / 500.5 ≈ 0.999 = 99.9%. Un MTBF alto combinado con un MTTR bajo resulta en alta disponibilidad.
P: ¿Cuánto tiempo de inactividad máximo al año permite una disponibilidad de 99.999% (cinco nueves)?
R: c) 5.26 minutos. Cinco nueves (99.999%) permite solo 5.26 minutos de inactividad al año. Este nivel de disponibilidad se considera el estándar más exigente y requiere redundancia completa, failover automático y tiempos de recuperación extremadamente rápidos.
P: ¿Qué valor de no-quorum-policy mantiene los recursos activos pero impide iniciar nuevos cuando se pierde el quorum?
R: b) freeze. La política freeze mantiene los recursos que ya están activos pero no permite iniciar nuevos ni mover los existentes. stop detiene todo, ignore ignora la pérdida de quorum, y suicide apaga los nodos que no tienen quorum.
P: ¿En qué directorio se encuentran los agentes de recursos OCF en un sistema Linux?
R: b) /usr/lib/ocf/resource.d/. Los agentes OCF se ubican en /usr/lib/ocf/resource.d/ organizados por proveedor. Por ejemplo, /usr/lib/ocf/resource.d/heartbeat/IPaddr2 es el agente de IP virtual del proveedor heartbeat.
P: ¿Qué tipo de fencing opera a nivel de recurso bloqueando el acceso del nodo al almacenamiento en lugar de apagar el nodo completo?
R: b) SAN zoning / fencing de recurso. El fencing a nivel de recurso bloquea el acceso del nodo a recursos específicos (por ejemplo, mediante SAN zoning o reservas SCSI). A diferencia de STONITH que apaga todo el nodo, el fencing de recurso es más granular pero menos determinista.
P: En un cluster de 7 nodos, ¿cuántos fallos simultáneos puede tolerar sin perder el quorum?
R: b) 3. Con 7 nodos, el quorum requiere (7+1)/2 = 4 nodos. Por lo tanto, el cluster puede tolerar la pérdida de 3 nodos (7 - 4 = 3) sin perder el quorum.
P: ¿Qué componente de Pacemaker ejecuta las operaciones de start, stop y monitor de los recursos en el nodo local?
R: c) LRMd (Local Resource Manager daemon). El LRMd es el daemon que ejecuta las operaciones de los resource agents en el nodo local. Recibe instrucciones del CRMd y las ejecuta llamando a los agentes de recursos apropiados (start, stop, monitor, etc.).
P: ¿Qué comando lista los agentes de recursos OCF disponibles del proveedor heartbeat en un cluster Pacemaker?
R: pcs resource agents ocf:heartbeat. El comando pcs resource agents ocf:heartbeat muestra todos los agentes OCF disponibles del proveedor heartbeat. Sin especificar proveedor, pcs resource agents muestra agentes de todas las clases.
P: ¿Qué comando muestra la descripción y los parámetros del agente de recurso ocf:heartbeat:IPaddr2?
R: pcs resource describe ocf:heartbeat:IPaddr2. El comando pcs resource describe muestra la documentación completa de un agente de recurso, incluyendo sus parámetros obligatorios y opcionales, valores predeterminados y las operaciones soportadas.
P: ¿Cuál es la fórmula correcta para calcular la disponibilidad de un sistema a partir del MTBF y el MTTR?
R: MTBF / (MTBF + MTTR). La disponibilidad se calcula dividiendo el tiempo medio entre fallos (MTBF) entre la suma del MTBF y el tiempo medio de reparación (MTTR). El resultado se multiplica por 100 para obtener el porcentaje.
P: ¿Qué comando muestra el estado completo de un cluster Pacemaker incluyendo nodos, recursos y restricciones?
R: pcs status. El comando pcs status muestra un resumen completo del cluster: estado de los nodos, recursos activos, restricciones y errores. Equivale a crm status en la shell crm o a crm_mon para monitorización continua.
P: ¿Qué comando configura la propiedad de STONITH como habilitada en un cluster Pacemaker?
R: pcs property set stonith-enabled=true. El comando pcs property set stonith-enabled=true activa STONITH en el cluster. STONITH es obligatorio en entornos de producción para garantizar la integridad de los datos. Sin STONITH habilitado, Pacemaker no puede evitar la corrupción por split-brain.
P: Tip de examen: Memoriza los valores de 99.9% (8.76 h/año), 99.99% (52.6 min/año) y 99.999% (5.2…
R: Memoriza los valores de 99.9% (8.76 h/año), 99.99% (52.6 min/año) y 99.999% (5.26 min/año). Son los más preguntados.
P: Tip de examen: Identifica siempre los SPOF en un diagrama de arquitectura. La eliminación de SP…
R: Identifica siempre los SPOF en un diagrama de arquitectura. La eliminación de SPOF es el principio fundamental del diseño HA.
P: Tip de examen: Conoce las diferencias entre activo/pasivo y activo/activo, y cuándo usar cada m…
R: Conoce las diferencias entre activo/pasivo y activo/activo, y cuándo usar cada modelo.
P: Tip de examen: STONITH es obligatorio en un cluster Pacemaker en producción. Sin STONITH, e…
R: STONITH es obligatorio en un cluster Pacemaker en producción. Sin STONITH, el cluster no puede garantizar la integridad de los datos.
P: Tip de examen: Un cluster de 2 nodos no tiene quorum natural. Necesita un mecanismo adicional c…
R: Un cluster de 2 nodos no tiene quorum natural. Necesita un mecanismo adicional como quorum disk, quorum device o configuración two_node: 1 en Corosync.
P: Tip de examen: Los agentes OCF son los más importantes. Soportan operaciones de start, stop, mo…
R: Los agentes OCF son los más importantes. Soportan operaciones de start, stop, monitor, promote, demote, migrate_to y migrate_from.
P: Que es/son Introducción a la Alta Disponibilidad?
R: La Alta Disponibilidad (HA) es la capacidad de un sistema para permanecer operativo y accesible durante un período de tiempo determinado, minimizando el tiempo de inactividad no planificado. En ent
P: Que es/son SPOF - Single Point of Failure?
R: Un SPOF es cualquier componente cuyo fallo provoca la caída completa del servicio. El objetivo principal de HA es eliminar todos los SPOF del sistema.
P: Que es/son El Problema del Split-Brain?
R: El split-brain ocurre cuando los nodos de un cluster pierden la comunicación entre sí pero siguen funcionando. Cada nodo cree que el otro ha fallado y ambos intentan tomar el control de los recurso
P: Que es/son Quorum?
R: El quorum es el mecanismo de votación que determina qué partición del cluster tiene derecho a seguir operando. Evita el split-brain asegurando que solo la partición mayoritaria continúe.
P: Que es/son Resource Agents (Agentes de Recursos)?
R: Los Resource Agents son scripts que Pacemaker usa para gestionar recursos:
P: Que es/son Heartbeat y Comunicación?
R: El heartbeat es el mecanismo de latido que permite a los nodos confirmar que están activos:
P: Que es/son Trampas del examen?
R: > Errores comunes y distinciones criticas que LPI suele evaluar en este subtema: