woman on black folding wheelchair
Photo by Judita Mikalkevičė on Pexels.com
目次

Guía práctica de accesibilidad para contenidos de audio y video: subtítulos, closed captions, audiodescripción, controles del reproductor y optimización para entornos de uso diversos

Resumen (puntos clave primero)

  • Los subtítulos no son solo “transcripción”: son una traducción del sonido, el contexto y la intención a texto. Los closed captions van más allá y añaden información como quién habla, sonidos ambientales y emociones.
  • Para audio solo, video solo, contenido muy visual, etc., necesitas métodos alternativos adaptados a cada tipo de medio. La combinación más sólida es una triple capa: subtítulos + transcripción completa + audiodescripción.
  • Un reproductor debe permitir operación por teclado, tener foco visible y ofrecer compatibilidad con lectores de pantalla para todos los controles. Para la barra de progreso, expón valores actual y máximo con ARIA.
  • Usa prefers-reduced-motion y prefers-reduced-transparency para ofrecer un modo de visualización con menos movimiento y efectos.
  • Ofrece atajos de teclado fáciles de aprender y formas alternativas de interactuar con la UI para reproducir/pausar, activar subtítulos, cambiar la velocidad de reproducción y más.

Público objetivo (concreto): productores de video, equipos de educación/formación, equipos de comunicación del sector público, ingenieros frontend, diseñadores UI/UX, producción de video/cine, responsables de accesibilidad
Nivel de accesibilidad objetivo: WCAG 2.1 AA (especialmente la serie 1.2.x: subtítulos, closed captions, audiodescripción y alternativas para contenido multimedia con tiempo)


1. Introducción: el video es donde “se encuentran varios sentidos”

El audio y el video pueden transmitir emociones y contexto mucho más fácilmente que el texto plano. Pero, al mismo tiempo, las limitaciones de vista, oído o entorno pueden cambiar drásticamente cómo se recibe esa información.

Para alguien ciego o con baja visión, las imágenes por sí solas dejan grandes vacíos; el audio se convierte en el canal principal. Para alguien sordo o con hipoacusia —o simplemente en un entorno ruidoso—, los subtítulos son la única forma de acceder a lo que se dice.

Cerrar esta “asimetría sensorial” es el papel de los subtítulos, closed captions, audiodescripción y controles accesibles. Esta guía repasa formas prácticas de hacer que tu contenido multimedia sea comprensible tanto si alguien está viendo, escuchando o leyendo.


2. Subtítulos vs closed captions: no solo “escribir palabras” sino traducir información

2.1 Subtítulos vs closed captions

  • Subtítulos: convierten en texto solo las palabras habladas.
  • Closed captions: incluyen palabras habladas más información sonora (sonidos ambientales, quién habla, tono emocional); es decir, una representación más completa de la pista de audio.

Las WCAG exigen closed captions para personas sordas/hipoacúsicas o en entornos sin audio (1.2.2, 1.2.4).

2.2 Qué incluir en los closed captions

  • Identificación de quién habla: por ejemplo, “(Tanaka)”, “(Narrador)”.
  • Sonidos de ambiente: “[se cierra la puerta]”, “[risas]”, “[murmullo de la multitud]”.
  • Cues no verbales: “[suspira]”, “[con enfado]”, “[en un susurro]”.
  • Texto importante en pantalla: si tus subtítulos tapan texto clave, descríbelo o trátalo de otra forma.

Piensa en los closed captions como la visualización de los matices de la pista de audio. Con esa mentalidad, crearlos resulta mucho más natural.

2.3 Formatos técnicos (WebVTT / SRT)

<video controls>
  <source src="movie.mp4" type="video/mp4">
  <track kind="captions" src="captions.vtt" srclang="ja" label="Subtítulos en japonés" default>
</video>

En la web, WebVTT (.vtt) es el formato más conveniente: admite posicionamiento, estilos y distinción entre personas que hablan.


3. Audiodescripción: convertir la información visual en palabras

3.1 ¿Qué es la audiodescripción?

La audiodescripción narra elementos visuales como:

  • Acciones
  • Cambios de escena
  • Expresiones faciales
  • Texto en pantalla

Sirve de apoyo para lo que no se puede entender solo a partir del audio.

3.2 Qué (y cuánto) hay que describir

  • Evita sobreexplicar: demasiada narración rompe el ritmo.
  • Verbaliza siempre los cambios importantes: entradas de personajes, expresiones faciales relevantes, transiciones de escena.
  • Resume de forma concisa contenidos de texto como gráficos, diapositivas o rótulos informativos.

Ejemplo:

“Una mujer con traje negro se acerca al atril, con gesto algo tenso. En la pantalla detrás de ella aparece el texto ‘Foro de Convivencia Comunitaria 2025’.”

3.3 Ofrecer la audiodescripción como pista alternativa

<video controls>
  <source src="movie.mp4" type="video/mp4">
  <track kind="descriptions" src="ad.vtt" srclang="ja" label="Audiodescripción">
</video>

Tu reproductor debe permitir cambiar de pista de audio o activar la pista de audiodescripción.


4. Reproductores accesibles: la operabilidad es lo primero

4.1 Soporte para teclado

Asignaciones típicas:

  • Tab: mover el foco por los controles
  • Enter / Espacio: reproducir/pausar
  • Flechas izquierda/derecha: buscar (seek)
  • Flechas arriba/abajo: volumen
  • M: activar/desactivar silencio
  • C: activar/desactivar subtítulos (si existen)

Si reinventas los controles en cada reproductor, aumentas el coste de aprendizaje. Ajusta tu diseño a los patrones más comunes.

4.2 Foco visible (contraste 3:1 para elementos no textuales)

button:focus-visible {
  outline: 3px solid #FF9900;
  outline-offset: 3px;
}

Asegúrate de que los controles con foco sean claramente visibles y cumplan las expectativas de contraste (WCAG 2.1 2.4.7, 2.4.11/12 en 2.2).

4.3 ARIA para los deslizadores de volumen y progreso

<div role="slider"
     aria-label="Posición de reproducción"
     aria-valuemin="0"
     aria-valuemax="100"
     aria-valuenow="35"
     tabindex="0"></div>

Así un lector de pantalla puede anunciar: “Posición de reproducción, 35 por ciento, control deslizante”, permitiendo que las personas entiendan en qué punto de la línea de tiempo están.

4.4 Nombre, rol y valor para los controles

Usa atributos como:

  • aria-pressed (para botones con estado de activado/desactivado)
  • aria-expanded (para menús de subtítulos o ajustes)
  • aria-controls (para relacionar controles con los elementos que afectan)

Esto facilita que las tecnologías de apoyo entiendan cómo funciona el reproductor.


5. Movimiento y calma visual: animaciones suaves, sin efectos agresivos

5.1 Respetar prefers-reduced-motion

@media (prefers-reduced-motion: reduce) {
  .fade, .slide {
    animation: none;
    transition: none;
  }
}

Desvanecimientos rápidos y zooms pueden:

  • Provocar mareos o malestar
  • Distraer la atención
  • Dificultar la comprensión para algunos perfiles cognitivos

Es mejor optar por movimiento sutil, especialmente cuando la persona usuaria lo ha pedido explícitamente.

5.2 Evitar parpadeos agresivos

  • La WCAG 2.3.1 Tres destellos establece límites para contenido parpadeante.
  • Un parpadeo intenso o estroboscópico puede provocar crisis epilépticas; mantente muy por debajo de esos umbrales y, en general, evita por completo este tipo de efectos.

6. Transcripciones en texto: una “segunda versión” del video que cualquiera puede leer

6.1 Por qué ofrecer una transcripción

  • Los subtítulos están anclados al tiempo, por lo que son difíciles de buscar y hojear.
  • La audiodescripción cubre solo las partes narradas, no toda la experiencia.
  • Quienes usan lectores de pantalla pueden procesar la información con mucha más eficiencia cuando está en texto.

Por eso una transcripción completa es la alternativa más equitativa.

6.2 Qué debe incluir una transcripción

  • Todo el diálogo hablado
  • Contenido de audiodescripción
  • Texto en pantalla
  • Resúmenes de elementos visuales difíciles de expresar palabra por palabra
  • Para gráficos o figuras complejas, añade una tabla o descripción estructurada aparte

7. Entrega y rendimiento: protege la experiencia de “inicio inmediato”

7.1 Mantén ligero el video

  • Optimiza la tasa de bits (bitrate).
  • Usa códecs modernos como H.265/HEVC o AV1 cuando sea viable.
  • Sirve contenido con streaming adaptativo (HLS/DASH) para que la calidad se ajuste al ancho de banda.

7.2 Reproducción automática: mejor evitarla (WCAG 2.2.2)

  • La reproducción automática aumenta la carga cognitiva y a menudo interrumpe la interacción.
  • Por defecto, opta por reproducción iniciada por la persona usuaria. Si debes usar autoplay, que sea sin sonido y con controles claros para pausar/detener.

8. Soporte multilingüe: subtítulos y pistas de audio traducidas

8.1 Ofrecer varias pistas de subtítulos

<track kind="subtitles" src="en.vtt" srclang="en" label="English">
<track kind="subtitles" src="zh.vtt" srclang="zh" label="中文">

8.2 Coherencia terminológica

Para subtítulos traducidos:

  • Mantén un glosario compartido de nombres propios y términos técnicos.
  • Asegúrate de que las personas que traducen disponen de suficiente contexto para elegir expresiones coherentes.

Esto reduce la confusión y mejora la comprensión interlingüística.


9. Plantilla de implementación de la UI del reproductor (extracto)

<div class="player">
  <video id="v" aria-describedby="vd">
    <source src="movie.mp4" type="video/mp4">
    <track kind="captions" src="ja.vtt" srclang="ja" label="Japonés" default>
  </video>

  <div class="controls">
    <button id="play" aria-label="Reproducir">▶</button>
    <button id="mute" aria-label="Silenciar" aria-pressed="false">🔈</button>

    <div id="seek"
         role="slider"
         aria-label="Posición de reproducción"
         aria-valuemin="0"
         aria-valuemax="100"
         aria-valuenow="0"
         tabindex="0"></div>

    <button id="cc" aria-label="Activar/desactivar subtítulos">CC</button>
  </div>
</div>

Después, asociarás la lógica de teclado, puntero y lector de pantalla con JavaScript.


10. Errores comunes y cómo evitarlos

Error Qué ocurre Cómo evitarlo
Solo subtítulos “normales” Se pierde información sonora Usa closed captions que incluyan quién habla y sonidos
Confiar solo en subtítulos automáticos Errores de reconocimiento y traducción Aplica revisión humana y mantén un glosario de nombres propios
Activar autoplay Sobrecarga cognitiva, frustración Usa reproducción manual; si no, empieza sin sonido y con controles claros
Controles ocultos o solo al pasar el ratón Quienes usan teclado no pueden manejarlos Muestra siempre los controles o al menos muéstralos al recibir foco
Barra de progreso no accesible La persona no sabe dónde está Usa role="slider" y aria-valuenow/aria-valuemax
Animaciones con destellos Riesgo de convulsiones y malestar Evita destellos; respeta prefers-reduced-motion
Sin audiodescripción Se pierde información visual clave Ofrece una narración mínima pero suficiente de los elementos visuales importantes

11. Prueba rápida de 5 minutos: ritual mínimo para cada pieza multimedia

Para cada video o pieza de audio, comprueba rápidamente:

  1. Que reproducción, pausa, volumen, subtítulos y velocidad puedan manejarse con Tab + Enter/Espacio.
  2. Que los closed captions incluyan quién habla y sonidos ambientales cuando corresponda.
  3. Que existe audiodescripción cuando la información visual es esencial para la comprensión.
  4. Que hay una transcripción completa, legible y bien estructurada.
  5. Que prefers-reduced-motion desactiva o reduce drásticamente las animaciones.
  6. Que no hay efectos fuertes de parpadeo o estroboscópicos.
  7. Que, con un lector de pantalla, los nombres y roles de los controles se anuncian correctamente.

12. Convertir la accesibilidad multimedia en “estándar de producción” en tu organización

  • Checklist de producción de video

    • Incluye información relevante para los subtítulos en la fase de guion.
    • Decide pronto si se requiere audiodescripción.
    • Produce la transcripción en paralelo al montaje.
  • Plantillas de edición en tu NLE

    • Distribución de subtítulos y áreas seguras
    • Rótulos estándar que no colisionen con los subtítulos
  • Glosario de subtítulos compartido

    • Mantén una base centralizada de términos para nombres, marcas y términos técnicos.
  • Guías para subida/publicación

    • Convenciones de nombre para archivos WebVTT.
    • Resoluciones y bitrates estándar.
    • Reglas para múltiples pistas de audio e idiomas de subtítulos.

13. Beneficios concretos para distintos usuarios

  • Personas sordas o con hipoacusia: Los closed captions les permiten entender quién habla, qué sucede y cómo se dice.
  • Personas ciegas o con baja visión: La audiodescripción rellena acciones, expresiones y texto en pantalla.
  • Personas con diferencias cognitivas: Menos movimiento y layouts estables, junto con subtítulos y transcripciones, apoyan una comprensión más predecible.
  • Personas que aprenden idiomas: Los subtítulos y el ajuste de velocidad facilitan seguir el contenido y estudiarlo.
  • Personas mayores / quienes usan ampliación: Un foco claro y controles de buen tamaño hacen que manejar el reproductor sea menos estresante.
  • Todo el mundo: Con ancho de banda limitado o en entornos ruidosos/silenciosos, medios y controles flexibles mantienen el contenido utilizable.

14. Nivel de accesibilidad de esta guía (a qué apunta)

  • WCAG 2.1 AA – multimedia y operabilidad

    • 1.2.2 Subtítulos (pregrabados)
    • 1.2.4 Subtítulos (en directo/pregrabados)
    • 1.2.5 Audiodescripción (pregrabados)
    • 2.1.1 Teclado (controles del reproductor)
    • 2.2.2 Pausar, detener, ocultar (sin autoplay disruptivo)
    • 2.3.3 Animación por interacción / Tres destellos (sin parpadeo dañino)
    • 4.1.2 Nombre, rol, valor (ARIA para los controles)
  • Recomendado: WCAG 2.2

    • Mejoras en tamaño de objetivo táctil
    • Soporte adicional a la interacción y estabilidad

15. Conclusión: abrir el sonido y la imagen a todo el mundo

  1. Los subtítulos son una traducción del sonido, y los closed captions son una traducción del sonido más el contexto.
  2. La audiodescripción cierra la brecha para la información visual, para que todas las personas puedan acceder al mismo significado.
  3. Un reproductor que pueda manejar cualquiera —con teclado, foco visible y ARIA correcta— no es negociable.
  4. Mantén el movimiento suave y evita los destellos, para crear un entorno de visualización tranquilo y cómodo.
  5. Las transcripciones en texto son la alternativa más potente para comprender, buscar y usar lectores de pantalla.
  6. Cuando integras todo esto en tu flujo de producción, tus videos se convierten en activos de información duraderos que incluyen, en lugar de excluir, a las personas.

El audio y el video son medios que vivimos con los ojos, los oídos y las emociones.
Diseñarlos para que cualquiera pueda participar —sea cual sea su contexto o capacidades— es buena práctica y, sinceramente, también buena educación.
Que tu próxima pieza de contenido sea tan accesible y acogedora como es atractiva.


por greeden

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)