Con los años, el sistema de captura automatizado de YouTube ha ido mejorando, y ahora puede incluso detectar y añadir información sobre los efectos de sonido. El sistema de capturas automáticas fue introducido en 2009 y se ha centrado, sobre todo, en transcribir los diálogos para crear subtítulos, y de esta manera ofrecer un contenido mucho más accesible. Desde luego, YouTube tiene que mejorar esta tecnología, que en ocasiones no termina de cuajar; pero ha dado un gran paso al añadir los efectos de sonido. Sin las descripciones de sonidos de ambiente en los vídeos, el impacto de alguno de ellos se veía disminuido.

Youtube

“El efecto del audio en nuestra percepción difícilmente puede ser exagerado. Su importancia como medio de comunicación oral es obviamente el más familiar, pero también hay información significativa enviada en sonidos de ambiente. Estos sonidos de ambiente crean contexto al que respondemos instintivamente, como asustarnos por una conmoción repentina, el uso de música como elemento narrativo o cómo la rusa se usa como pie para la audiencia en las sitcoms” ha dicho Sourish Chaudhuri en un post de YouTube.

Nuevos cambios al sistema de subtitulado

Este cambio ha sido posible gracias a la colaboración entre YouTube, Sound Understanding y Accessibility, quienes se embarcaron en la tarea de desarrollar el primer sistema de captura automatizado de efectos de sonido para Youtube. Han utilizado miles de horas de vídeo para entrenar una red neural que consiga grandes resultados de reconocimiento.

“Como resultado, ahora podemos detectar automáticamente la existencia de estos efectos en un vídeo y transcribirlos a las clases o etiquetas de sonido apropiadas. Con tantos sonidos de los que elegir, hemos empezado por [APLAUSO], [MÚSICA] y [RISA], dado que estas estaban entre los sonidos capturados manualmente más frecuentes, y pueden añadir contexto significativo para los videntes sordos o con problemas de oído.»