AWS Systems Manager
AWS Systems Manager
目次

Guía completa de AWS Systems Manager: diseño operativo centrado en Session Manager, Patch Manager y Automation — con comparaciones frente a GCP OS Config (VM Manager) / Azure Update Manager (Arc)

Puntos clave (resumen al inicio)

AWS Systems Manager es una plataforma de operaciones que te permite administrar servidores (nodos) en AWS, on-premises y multicloud con un enfoque único de visibilidad, acceso remoto, parcheo y automatización. Bajo una consola unificada, ofrece múltiples capacidades como Run Command, Session Manager, Automation, Patch Manager e Inventory. :contentReference[oaicite:0]{index=0}

Los tres puntos que más importan en operaciones reales son:

  • Ordenar el “punto de entrada”: con Session Manager puedes reducir la dependencia de bastion hosts y evitar exponer puertos de entrada innecesariamente, a la vez que habilitas control de acceso centralizado y un registro de auditoría más sencillo. :contentReference[oaicite:1]{index=1}
  • Higiene continua: con Patch Manager y Maintenance Windows, puedes planificar el escaneo/aplicación de parches y hacer seguimiento del estado de parches (compliance). :contentReference[oaicite:2]{index=2}
  • Sistematizar la operación: con Automation (runbooks) y Run Command (documents), puedes mover la operación diaria desde “procedimientos humanos” a procesos reproducibles y estandarizados. :contentReference[oaicite:3]{index=3}

Como puntos de comparación: GCP proporciona parcheo e inventario del SO mediante OS Config (VM Manager), donde el agente escanea periódicamente y envía datos. :contentReference[oaicite:4]{index=4}
Azure describe Update Manager como un servicio integrado que gestiona el monitoreo de cumplimiento de actualizaciones y la programación de updates en máquinas de Azure, on-premises e incluso de otras nubes (conectadas vía Azure Arc). :contentReference[oaicite:5]{index=5}
Además, el antiguo Azure Automation Update Management terminó el 2024-08-31, y se recomienda migrar a Azure Update Manager. :contentReference[oaicite:6]{index=6}


A quién ayuda este artículo (casos de uso concretos)

Las operaciones de servidores no pueden sostenerse solo con “esfuerzo individual”. A medida que se acumulan incidentes nocturnos y dependencias de una sola persona, todo se vuelve doloroso. Systems Manager es una caja de herramientas para convertir la operación en un activo compartido del equipo. Este artículo es especialmente para:

  1. Desarrolladores backend en productos pequeños/medianos donde el número de servidores crece
    Una vez que pasas la etapa en la que “SSH manual” todavía funciona, la dificultad de repetir lo mismo de forma segura y consistente aumenta bruscamente a medida que crecen los servidores. Introducir Systems Manager mejora la repetibilidad y reduce errores y omisiones.

  2. SRE / ingenieros de operaciones que enfrentan exigencias crecientes de auditoría y seguridad
    Poder responder “quién hizo qué, cuándo y en qué servidor” es esencial no solo para seguridad, sino también para la calidad de respuesta a incidentes. El diseño de auditoría/log de Session Manager se vuelve la columna vertebral de la operación. :contentReference[oaicite:7]{index=7}

  3. Arquitectos que planean multicloud / híbrido y quieren una capa de operación común
    Alinear esto junto con GCP OS Config y Azure Arc + Update Manager facilita establecer un “vocabulario operativo” compartido (parcheo, inventario, ejecución remota, auditoría). :contentReference[oaicite:8]{index=8}


1. ¿Qué es AWS Systems Manager? Una “consola unificada + suite de herramientas” para operar nodos

AWS Systems Manager es un servicio para gestionar centralmente nodos a escala (por ejemplo, EC2, servidores on-premises y VMs en otras nubes). Oficialmente se describe como una experiencia de consola unificada que reúne visualización de nodos, diagnóstico, remediación y herramientas como Run Command, Session Manager, Automation y Parameter Store. :contentReference[oaicite:9]{index=9}

El punto importante es que Systems Manager no es un servicio de un solo propósito, sino una plataforma de operaciones que agrupa funciones que suelen volverse necesarias. Aunque el monitoreo/alertas y los despliegues se manejen en otros sitios, tareas como “entrar a servidores”, “aplicar parches” y “estandarizar estado” siempre quedan. Systems Manager ofrece una base más segura y reproducible para esa “última milla”.

Las cuotas (límites) de servicio también se organizan por función, y existe una lista con cuotas para herramientas como Patch Manager, Session Manager, Inventory y Automation. Entender estos techos desde temprano ayuda a prevenir incidentes a medida que el entorno crece. :contentReference[oaicite:10]{index=10}


2. Conceptos núcleo que conviene entender primero: Managed Nodes, SSM Documents y ejecución programada

2-1. Managed Nodes

Los servidores gestionados por Systems Manager se tratan como managed nodes. La documentación “What is AWS Systems Manager?” incluye que el alcance puede cubrir no solo AWS, sino también entornos on-premises y multicloud. :contentReference[oaicite:11]{index=11}

En la práctica, el primer paso es decidir qué servidores serán managed nodes: ¿todos, o se empieza por un subconjunto crítico? Definir un orden de migración evita que la operación se vuelva caótica.

2-2. SSM Documents

Muchas operaciones de Systems Manager se ejecutan como documents. Esto incluye documentos de comando usados por Run Command y runbooks usados por Automation. Puedes administrar plantillas de ejecución como documentos y correrlas repetidamente cambiando parámetros. Materiales de AWS también posicionan Run Command como central en “cómo se ejecutan los documents”. :contentReference[oaicite:12]{index=12}

2-3. Ejecución programada: State Manager y Maintenance Windows

En la práctica, lo que realmente paga dividendos es la ejecución programada, no las corridas manuales. Materiales de administración de operaciones de AWS describen State Manager como útil para ejecutar Run Command y Patch Manager en un calendario, y Maintenance Windows como un modo de ejecutar tareas según un horario definido. :contentReference[oaicite:13]{index=13}

Dejar “qué correr, cuándo y contra qué nodos” como configuración hace que la operación se sienta notablemente más tranquila.


3. Session Manager: reducir bastiones y convertir el acceso en “trabajo auditable”

3-1. El valor de Session Manager es “rediseñar el punto de entrada”

Session Manager se describe en la documentación oficial como un medio para habilitar acceso seguro a managed nodes sin abrir puertos entrantes ni mantener bastion hosts, y también para soportar control de acceso centralizado mediante políticas IAM. :contentReference[oaicite:14]{index=14}

Operativamente, esto alivia dolores como:

  • Carga de distribución/rotación de claves SSH
  • Bastiones convertidos en puntos únicos de falla
  • Imposibilidad de rastrear “de quién fue el trabajo” mediante logs
  • Pérdida de control durante accesos de emergencia en incidentes

Usar Session Manager como base ayuda a tratar el “acceso” no como una técnica suelta, sino como un proceso operativo controlado.

3-2. Logs de auditoría: entender desde el inicio qué se registra y qué no

La auditoría de Session Manager puede entenderse en dos capas: actividad de API registrada en CloudTrail y logs de actividad dentro de la sesión enviados a CloudWatch Logs / S3. Los docs oficiales de auditoría explican que la integración con EventBridge depende de la actividad de API registrada en CloudTrail. :contentReference[oaicite:15]{index=15}

Los docs oficiales también describen cómo exportar logs de sesión a CloudWatch Logs o S3, con precauciones, y señalan limitaciones en la captura de logs para port forwarding o conexiones basadas en SSH. :contentReference[oaicite:16]{index=16}

En operaciones reales, se recomienda decidir temprano el “diseño de logs”, por ejemplo:

  • ¿El objetivo primario de auditoría es “quién se conectó cuándo”?
  • ¿O “qué se ejecutó dentro de la sesión”?
  • ¿Qué destino (S3 / CloudWatch Logs) será el sistema de registro (system of record)?
  • ¿Cómo equilibras retención (costo) y resistencia a manipulación (requisitos de auditoría)?

La ambigüedad aquí suele causar después “faltan logs” o “hay demasiados para revisar”.

3-3. Ejemplo: un “patrón de entrada” común que reduce bastiones

Un patrón mínimo y común para organizar acceso es:

  • Ubicar servidores en subredes privadas
  • Como regla, permitir puertos entrantes solo desde puntos de entrada de la app (p. ej., LB)
  • Hacer de Session Manager la ruta oficial de acceso operativo
  • Centralizar logs de sesión en CloudWatch Logs o S3 y aclarar retención y permisos :contentReference[oaicite:17]{index=17}

Solo avanzar hacia este patrón reduce mantenimiento de bastiones, distribución de claves y operaciones de “abrir agujeros” en security groups — y baja el estrés del equipo.


4. Run Command: “documentar” operaciones de servidor y repetirlas con seguridad

Run Command es un mecanismo para ejecutar comandos en managed nodes y es una forma central de ejecutar SSM documents. Materiales AWS Black Belt también resumen casos de uso de Run Command, incluyendo ejemplos como ejecución de scripts shell y ejecución de Ansible. :contentReference[oaicite:18]{index=18}

4-1. Dónde brilla en la práctica

Run Command es especialmente efectivo para tareas repetitivas como:

  • Primera respuesta en incidentes grandes (recolección de logs, chequeo de procesos, presión de disco)
  • Despliegue de agentes/config (actualizar agentes de monitoreo, distribuir archivos de config)
  • Chequeos pre/post para parcheo de emergencia (estado de servicios, verificación de dependencias)
  • Acciones defensivas temporales (ajustes de reglas FW, cambios de configuración)

La clave es preservar procedimientos como SSM documents, no como historial personal de comandos, y absorber diferencias de entorno vía parámetros. Eso vuelve el proceso revisable y eleva la calidad operativa.

4-2. Mentalidad de ejemplo: un “documento de recolección de logs” para respuesta a incidentes

Puedes plantillar tareas que siempre haces en incidentes, por ejemplo:

  • Recoger últimos 30 minutos de logs con journalctl
  • Capturar instantáneas de CPU/memoria/disco
  • Volcar estados de procesos clave
  • Agregar salidas a un lugar definido

Si puedes “disparar” esto a todos los objetivos vía Run Command, la presión de incidentes nocturnos baja mucho — especialmente cuando aún no sabes cuántas máquinas están afectadas.


5. Patch Manager: ejecutar parcheo como “plan → aplicar → evidencia”

El parcheo no se sostiene solo por motivación: incluye frecuencia, alcance, manejo de fallos, validación y responsabilidad. Patch Manager se describe como soporte para parcheo sobre grandes conjuntos de nodos, y los docs oficiales señalan específicamente que puedes programar Scan o Scan and install vía Maintenance Windows como tareas tipo Run Command. :contentReference[oaicite:19]{index=19}

5-1. Perspectivas de diseño: tratar el parcheo como “calidad operativa”

Lo primero a decidir es la política, no la tecnología:

  • Rutina mensual de parcheo (día/hora, lead time)
  • Priorización de parches de emergencia y reglas de excepción
  • Manejo de fallos (reintento automático, intervención manual, factibilidad de rollback)
  • Validación post-aplicación (reinicio de servicios, health checks, confirmación en monitoreo)
  • Formato de reporte (cómo mostrar % cobertura, alcance, etc.)

Patch Manager te empuja a “correr esto como un sistema”, pero evitar accidentes depende al final de políticas y procedimientos acordados.

5-2. Ejemplo: plantilla mínima mensual de parches

  • Correr primero un “solo escaneo” en noche de fin de semana (hacer visible el impacto)
  • Correr “instalar + reboot” en una Maintenance Window separada
  • Ejecutar automáticamente un Run Command de verificación posterior
  • Resumir resultados por “tasa de aplicación”, “cantidad de nodos fallidos” y “razones de fallo (patrones comunes)”

Esta plantilla se generaliza bien incluso cuando el entorno cambia.


6. Automation: orquestar operaciones y convertir cambios en “procedimientos”

Automation te permite definir procedimientos operativos como Automation runbooks y ejecutarlos. El overview oficial también lista explícitamente Automation como parte del conjunto de herramientas de Systems Manager. :contentReference[oaicite:20]{index=20}

Si Run Command es mejor para “acciones puntuales o secuencias cortas”, Automation es mejor para “procedimientos con ramificación, aprobaciones y ejecución por pasos”. Por ejemplo, puedes sistematizar gestión de cambios como:

  • Pre-check → backup/snapshot → aplicar cambio → post-check → notificar en fallo
  • Desplegar cambios secuencialmente solo a nodos con tags específicos (rollout escalonado)
  • Preservar historial de que “este procedimiento se ejecutó”, para auditoría

A medida que sube la madurez operativa, importa menos que “la gente sea hábil” y más que “el sistema sea correcto”. Automation ofrece ese apoyo.


7. Inventory / Fleet: bajar el costo de “saber qué tienes” a escala

A medida que crece el número de servidores, la “conciencia situacional” se vuelve sorprendentemente dolorosa:

  • Cuántos nodos ejecutan qué versiones de SO
  • Qué agentes están instalados
  • Qué paquetes existen

La gestión de inventario del SO en GCP afirma que el agente OS Config ejecuta escaneos de inventario y envía la información al servidor de metadata, la API de OS Config y flujos de logs, y que el escaneo corre cada 10 minutos. :contentReference[oaicite:21]{index=21}

Es la misma dirección general que AWS: “agente + agregación + visualización”. Si estableces inventario/gestión de flota del lado de Systems Manager, la velocidad de parcheo y respuesta a vulnerabilidades mejora — porque identificar objetivos es la mitad del trabajo.


8. Precios: en su mayoría sin cargo extra—pero conoce las “excepciones”

La página de precios de Systems Manager indica que la mayoría de funciones se pueden usar sin cargos adicionales, mientras que algunas funciones sí incurren en costos; por ejemplo, Just-in-time node access incluye ejemplos de precios por nodo-hora. :contentReference[oaicite:22]{index=22}
También explica (en una página de tarifas por país) que no hay cargo adicional y pagas por recursos de AWS creados o agregados por Systems Manager. :contentReference[oaicite:23]{index=23}

Para evitar malentendidos, es más seguro enmarcarlo así:

  • Systems Manager en sí no necesariamente añade grandes costos fijos, pero
  • los costos suelen concentrarse en ciertas funciones (especialmente opciones de control más alto) y
  • en recursos “alrededor” como almacenamiento de logs (S3/Logs), notificaciones y recursos ligados a ejecución

Por eso, conviene decidir primero “qué quieres controlar” y “hasta dónde quieres automatizar”, y luego elegir funciones: esto estabiliza costos y explicaciones.


9. Comparación con GCP y Azure: resolver los mismos “problemas de ops” con servicios distintos

Aquí mapeamos Systems Manager no como “herramienta solo AWS”, sino como “capa de operaciones”, y lo comparamos con GCP y Azure.

9-1. GCP: ejecutar “parcheo e inventario” con OS Config (VM Manager)

La documentación de GCP describe un flujo donde inicias un despliegue de parches vía VM Manager (OS Config API), y la API de VM Manager notifica al agente OS Config en las VMs objetivo para comenzar el parcheo. :contentReference[oaicite:24]{index=24}
También señala que el inventario del SO se recopila mediante escaneos periódicos del agente y que el intervalo es de 10 minutos. :contentReference[oaicite:25]{index=25}

Así, en GCP es natural diseñar alrededor de “OS Config como base que agrupa parcheo, inventario y gestión de configuración”. Como AWS, es un modelo “agente en la VM” con visibilidad central e instrucciones.

Una diferencia útil: mientras AWS Systems Manager tiende a ser una caja de herramientas más amplia (shell remoto con Session, ejecución de documentos con Run Command y flujos procedimentales con Automation), el “centro de gravedad” de GCP suele inclinarse hacia “mantenimiento de VM (parche/inventario/config)”. La elección depende de cuánto quieras centralizar más allá del mantenimiento.

9-2. Azure: construir “gestión unificada de updates” con Arc + Update Manager

Azure Update Manager se describe como un servicio integrado para gestionar y gobernar actualizaciones para máquinas que ejecutan SO de servidor, cubriendo Azure, on-premises y otras nubes (vía Azure Arc), monitoreando el cumplimiento de updates Windows/Linux desde una sola vista, y soportando updates en tiempo real y también updates programados mediante maintenance windows. :contentReference[oaicite:26]{index=26}

Azure Arc también provee Run command (servidores habilitados con Arc), descrito como una manera de ejecutar scripts/comandos de forma segura sin login directo por RDP/SSH, para tareas como updates de software, ajustes de firewall, health checks y troubleshooting. :contentReference[oaicite:27]{index=27}

Como nota de migración, Microsoft indica que el antiguo Azure Automation Update Management finalizó el 2024-08-31, y se recomienda migrar a Azure Update Manager. :contentReference[oaicite:28]{index=28}

Esto hace fácil imaginar la forma general de Azure como: Update Manager como núcleo de gobernanza de updates, Arc como superficie de conectividad híbrida/multicloud, y Arc Run command como cobertura de ejecución remota. Como AWS, es “control central con un agente local”, pero difiere la forma en que se separan los servicios.

9-3. Resumen: alinear “ejes de comparación” facilita elegir

Incluso entre nubes, las preguntas operativas son similares:

  • Cómo correr parcheo (plan, aplicar, evidencia)
  • Cómo controlar acceso a servidores (claves, puertos, auditoría)
  • Cómo entender configuración/inventario
  • Cómo hacer procedimientos reproducibles

En AWS, Systems Manager sirve ampliamente como “caja de ops”; en GCP, OS Config (VM Manager) suele ser el centro de mantenimiento; en Azure, Update Manager y Arc forman el núcleo de integración. :contentReference[oaicite:29]{index=29}


10. Checklist de diseño de implementación: qué decidir en las primeras 1–2 semanas

Para evitar “lo instalamos y ahí se quedó”, estos ítems conviene acordarlos pronto:

  1. Definir la ruta oficial de acceso operativo
    • p. ej., Session Manager como estándar; excepciones bajo solicitud/aprobación
  2. Definir destino y retención de logs
    • a dónde van los logs de sesión (CloudWatch Logs / S3) y cuántos días se guardan :contentReference[oaicite:30]{index=30}
  3. Reglas para operar con documentos de Run Command
    • ¿prohíbes “comandos directos en prod” y obligas ejecución basada en documentos?
  4. Modelo operativo de parcheo
    • rutina mensual, manejo de emergencias, políticas de maintenance windows :contentReference[oaicite:31]{index=31}
  5. Granularidad de Automation
    • ¿empiezas con automatizaciones de “investigación/recolección” o llegas a “aplicar cambios”?
  6. Diseño de permisos (mínimo privilegio)
    • definición por roles de quién puede hacer qué
  7. Estrategia de tags pensando en crecimiento
    • que soporten selección por entorno, rol, dueño, criticidad

Acordar estos siete puntos temprano reduce mucha fricción futura.


11. Quién se beneficia y cómo (efectos concretos)

11-1. Desarrolladores backend

  • Menos respuestas a incidentes basadas en “entrar por SSH y mirar”. Pasas a “ejecutar un documento definido y agregar resultados”, mejorando la consistencia en incidentes nocturnos.
  • Procedimientos documentados permiten revisión del equipo y reducen dependencia de una sola persona.

11-2. SRE / ingenieros de operaciones

  • El control de acceso centralizado y la preparación de logs de auditoría se vuelven más fáciles, ofreciendo material sólido para explicaciones de seguridad y auditoría. Session Manager se describe oficialmente como acceso seguro sin puertos entrantes ni bastiones. :contentReference[oaicite:32]{index=32}
  • Cuando el parcheo corre como sistema en vez de esfuerzo personal, disminuyen los parches omitidos y se acorta el lead time de respuesta a vulnerabilidades. :contentReference[oaicite:33]{index=33}

11-3. Tech leads / arquitectos

  • Al pasar de “operación de un servidor” a “operación de flota”, puedes unificar la capa de operaciones.
  • Como puedes describirlo junto con GCP OS Config y Azure Update Manager/Arc, puedes reutilizar el pensamiento de diseño si en el futuro hay migración o convivencia. :contentReference[oaicite:34]{index=34}

12. Conclusión: Systems Manager es una base para “repetir operaciones con seguridad”

AWS Systems Manager es una base operativa para gestionar centralmente nodos en AWS, on-premises y multicloud mediante una consola unificada y múltiples herramientas. Con Run Command, Session Manager, Automation y Patch Manager, vuelve el trabajo diario reproducible. :contentReference[oaicite:35]{index=35}

En GCP, OS Config (VM Manager) cubre parcheo e inventario basados en agente; en Azure, Update Manager y Arc forman el centro de integrar gestión de updates híbrida/multicloud y ejecución remota. :contentReference[oaicite:36]{index=36}

Un buen primer paso es elegir solo uno para empezar:

  • Hacer de Session Manager la ruta oficial de acceso operativo (controlar el punto de entrada)
  • Ejecutar parcheo mensual con Patch Manager + Maintenance Windows (higiene continua)
  • Convertir comandos comunes de respuesta a incidentes en documentos de Run Command (operación reproducible)

Empieza pequeño y expande los patrones que funcionan. Systems Manager encaja especialmente bien con ese estilo de crecimiento.


Referencias (fuentes oficiales / primarias)

por greeden

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)