Audio binaural en vídeos de 360 grados

El audio Binaural es perfecto para realidad virtual. Sin embargo por su lado las grabaciones no lo son tanto, en absoluto.

Al igual que un par de vídeo en estéreo que dan la ilusión de una vista 3D desde exactamente una sola perspectiva, pero no contiene la información que nos deja saber como se ve el mundo si movemos nuestra cabeza. Lo mismo pasa con el audio binaural, grabando una ilusión 3D de sonido sin la información que nos dice como suena todo lo que hay a nuestro alrededor al mover la cabeza. Algo que sería distinto dependiendo de la localización de nuestras orejas cuando movemos la cabeza.

En las películas estéreo y grabaciones binaurales, toda la computación y lo 3D que pasa en nuestro cerebro sin la grabación de tener un modelo 3D o cualquier idea de lo que es el 3D. Sin suficientes cámaras, podrías crear una punto 3D del mundo dentro del punto de vista de la cámara (asumiendo que este software aún no existe).

O también puedes usar una cámara de luz para capturar las ondas de luz que vienen de todas las direcciones en un espacio pequeño. Ambas opciones de vídeo no son soluciones viables para vídeos de realidad virtual aún, pero las cámaras de 360 grados son suficientes para hacer nuestro cerebro feliz en este sentido.

¿Qué opciones de sonido tenemos para los vídeos 360º?

micro montura Las grabaciones binaurales no son suficientes, pero algunos campos son más fáciles de capturar. Puedes hacer un trabajo decente con un pequeño micro tetraédrico, con el que usando algunas matemáticas puede modelar el sonido de alrededor.

Esto es lo que se conoce como ambisonics, y es una tecnología relativamente abierta ya que la mayoría de patentes han expirado. Aún así, las personas aún no han escuchado sobre esto o sobre el sonido binaural. Pero bueno, por esto escribimos sobre ello en cámara360grados.com ¿verdad?

El caso es que la información se puede guardar en sólo 4 pistas regulares de audio. Tal vez un poco más dependiendo de la calidad del micro ambisonics. Algo que es poco común en los formatos normales de audio, y no representa el sonido del que tendría que salir de los altavoces o de la información de un campo de sonido. Este formato de sonido puede ser descodificado usando matemáticas de toda la vida hasta formatos de audio que pueden salir por los auriculares o altavoces sin problemas mientras miras el vídeo de 360 grados. También se puede volver en una ecuación de una serie de harmónicas esféricas. El sitio dónde esta serie se trunca depende del orden de tus ambisonics.

Hemos tenido esta tecnología al abasto de nuestras manos durante bastante tiempo, pero el uso real que le hemos dado ha sido mínimo. En una habitación llena de altavoces, el efecto es sólo perfecto en una localización en el centro. Esto asumiendo de que llegues a ajustar estos dispositivos de manera correcta y descodificar el sonido. Algo que hace que no sea del todo práctico incluso por los equipos de casa.

Para esos usuarios de cascos, tiene que ser escuchado en estéreo de todas modos, así que ¿por qué molestarse? Pero con la RV, siempre estás en el centro exacto, y las decodificaciones estéreo pueden cambiarse en tiempo real basado en las rotaciones de la cabeza.

Con sólo 4 micrófonos pequeños no hay manera de que el campo de sonido se pueda simular a la perfección, exactamente lo que oyes cuando mueves la cabeza. Pero entonces ¿es esto lo suficientemente bueno? ¿es convincente en realidad virtual?

Poca gente lo ha probado en VR, es por esto que hemos tardado en publicar un artículo en nuestro blog que haga referencia a esto. Pero en algún momento teníamos que hacer referencia al audio, con la promesa de volver a escribir más sobre ello cuando todo mejore, que seguro que lo hará teniendo en cuenta que aún encontramos cámaras de primera generación en este mundo.

Métodos de grabación de audio en realidad virtual

Aquí tenemos algunos métodos de la implementación de sonido en los vídeos de 360 grados que nos hemos encontrado por nuestra parte y que los usuarios también han comentado en nuestro grupo de Facebook.

No hacer nada

Grabamos un concierto con la idea en mente de que todo el mundo tiene asumido que la música está fuera de sitio por lo que hace los músicos. Más que nada porque cuando sale por los altavoces no nos preocupamos por el hecho de escuchar audio grabado.

Queríamos esa sensación de escucha de sonido binaural de cosas que pasan a tu alrededor, por lo que hicimos una cabeza ad-hoc tipo rombododecaedro y ponerla encima de la audiencia. De este modo el ruido que esta producía se iba cambiando constantemente sin ninguna fuente específica, y funciona.

También hemos hecho vídeos panorámicos con comentarios de voz añadidos. Esta se supone que debe flotar de forma mágica de todas maneras. La voz sin localización para algunos vídeos se supone que debe tener clips de sonido binaural del entorno, así que no hay problemas.

Renderizar diferentes clips de sonido en una localización 3D

En algunas pruebas de vídeos de realidad virtual que se han hecho en Unity, varias esferas texturizadas con vídeo se pusieron alrededor de una ambiente 3D. El sonido por cada vídeo salió de un altavoz virtual dispuesto dónde la voz del narrador se supone que tiene que venir en el vídeo.

El seguidor de movimientos de cabeza de Oculus integrado en Unity, se ocupa del sonido de 3D desde ahí: por ejemplo, caminar hacia la burbuja del vídeo, escuchar como el sonido sube. Gira tu cabeza, y escuchar como el sonido disminuye en panorámica.

Sería bastante trivial de poner tus altavoces en una localización estático en el vídeo de la burbuja que acabamos de enlazar, por ejemplo usar la realidad virtual con textura esférica y después poner cada una de las grabaciones de voz dónde nuestras cabezas acostumbran a estar. Nuestras localizaciones son lo suficientemente constantes como para que estas implementaciones funcionen bien.

Pero… ¡Lo podemos hacer mejor!

La tecnología ya existe para crear “movimiento” para los altavoces en atmosferas interpretadas en 3D, así que con un poco de trabajo a mano, puedes dar a cualquier sonido el movimiento de seguir algo según lo que suene en el clip de sonido. Esto sigue siendo otro sitio dónde los ambientes renderizados se ponen por delate de las películas capturadas, porque cada entrada ya existe en la localización definida, al contrario que los píxeles misteriosos de las películas que sólo pasan a ser objetos en tu cabeza.

Codificar una implementación especial específica

Para ponerte un ejemplo, el vídeo de 360 grados Blues es una demo dónde los músicos graban múltiples veces en distintos instrumentos electrónicos y cada archivo creado con esto se pone en una localización estática del vídeo. Sin duda vale la pena abrirlo y comprobarlo. Se publicita un poco como un ejemplo realista de audio 3D, lo que realmente no lo es. Los datos de sonido se reproducen pero también se cortan de golpe según miras alrededor, además de no ser intuitivo de asocial con el sonido digital con la contraparte de vídeo en cuestión.

Se trata de algo más que el archivo de vídeo, ya que se requiere cada archivo de sonido por separado para que se programe en su lugar correspondiente, y que se abre cuando ese píxel tiene que ser visualizado. Por lo que podemos decir que esta forma no es del todo viable excepto para los que estén puestos en el Total Cinema 360 para crear algo con ello.

Podemos decir que no es realista o usable aún, pero como ejemplo del potencial de las experiencias de realidad virtual es interesante de saber. ¿Por qué no cortar de golpe un sonido específico cuando vas mirando alrededor? Bueno, seguro que podemos pensar en cosas más divertidas de hacer con una idea más centrada. Ya existen algunas experiencias de realidad virtual mirando alrededor los afecta y crea sonido.

Sería divertido hacer algo como grabar un vídeo en un museo y escuchar el audio en narración sobre la cosa que estás escuchando. Por lo que de momento estaremos a la espera de lo que hacen a continuación los narradores de Total Cinema 360.

Esperar lo mejor de las grabaciones binaurales

Como puedes ver en la siguiente imagen, se trata del micro Omni-Binaural. Nos encanta el diseño y aún es mejor cuando se monta encima de una “cabeza” como parte de un concierto o similar. Cada uno de los cuatro micrófonos son buenos modelos binaurales, por lo que es genial para crear una grabación de cuatro audios al mismo tiempo. Esto es lo que puedo hacer por el momento, nada más.

microfono binaural

Dicho micrófono fue desarrollado por Back y Chris de Hello Again. Una experiencia visual y de audio en 360 muy chula. Puedes ir alrededor del concierto de vídeo y verás como las grabaciones están hechas para que encajen, combinándolas y demás. Las cámaras, los micros y el escenario se mueven constantemente en círculos.

Personalmente me encanta la implementación de la pieza. Lo que no me gusta tanto es que de hecho lo publiciten como si fuera una grabación 360º de sonido binaural. Los humanos pueden localizar una cara del sonido de precisión hasta un solo grado, por lo que estoy convencido en afirmar que el Free Space Omni este, graba a cuatro grados de sonido binaural. Nuestra mañana de localización de sonidos periféricos puede ser tan malo como 15 grados, por lo que puedes decir que graba a 60 grados de sonido binaural si realmente le quieres sacar un poco de jugo.

Me recuerda bastante a esta preciosa pero completamente poco realista montura de cámaras de 360. Sí, estamos hablando de la GoPro 360. Me gusta la montura 360Heros, y de hecho la hemos usado como estéreo pentagonal, lo que funciona, pero si están vendiendo esta cosa, supongo que no entienden mucho como funciona exactamente esto de las monturas.

Sea como sea, grabar música en directo que se reproduce desde altavoces hace que sea difícil juzgar un sistema de micrófonos. Nada del audio vienen de la cosa que hace el sonido, pero esto nos hace preguntar si la culpa la tiene el micro, o un error en el reproductor de vídeo, o que el altavoz reproduciendo este sonido estaba en algún que otro sitio.

¿Viene la interferencia de los altavoces de conciertos, o es debido a mezclarlos y tenerlos varios centímetros lejos el uno del otro? Cuando te mueves un poco parece que el sonido hace un salto de 90 grados. ¿Es porque la grabación es rara, o porque el micro se mueve durante la grabación?

Aún así para esta implementación es suficientemente bueno. Es genial para cualquier cosa cuando necesites sonido binaural, lleno de sonidos chulos en 3D, y no necesitas preocuparte de ruidos que puedan estar distorsionados y sólo precisos en 90 grados. Mezclar grabaciones binaurales no nivela las localizaciones de los audios. No más que poner en capas dos fotos estéreo que te da la perspectiva de que miras desde tu nariz, pero puedes crear una efecto de transición chulo. Aún así, al final necesitamos juntar mejor las imágenes.

Especulación atrevida

esfera armónica Cuando tenemos que degradar un poco con múltiples micrófonos nuestro vídeo de 360º, suficientes de estos en una bola o montura puede ser suficiente para sonido 3D que tiene una precisión creíble. La interferencia de audio de mezclar micros dispuestos unos cuantos centímetros de distancia se puede oír, pero seguramente ni lo notas. Y si tu grabación binaural te deja localizar el sonido con 1 grado de precisión, pero tu cabeza está ligeramente en medio de los micros, entonces estás en un rango de 10 grados fuera de dónde el ruido está pasando en el vídeo, aunque probablemente es suficiente para disfrutarlo un poco.

También nos podemos saltar las cosas efectistas y pasar a usar matemáticas. Ondas y campos de sonido, cada micro siendo no una representación de la oreja humana, pero otro punto de datos haciendo nuestro modelo de realidad aún más preciso. Es por este motivo que personalmente estoy interesado en ambisonics. Hay miles de estudios y búsquedas al respecto, y si podemos hacer las mates, podemos hacer realidad virtual de verdad.

Idealmente, a la que tengas tu campo de sonido, lo puedes renderizar basándote en modelos 3D de escucha, para crear una experiencia binaural esférica. Es tu propia distorsión 3D de tus orejas que deja que tu cerebro interprete 1D en 3D. Las cabezas que hemos mencionado al principio del artículo suenan muy bien, pero llevarán a una percepción de sonido espacial menos preciso que usando modelos 3D propios de tu propia cabeza y después renderizar el audio sólo para ti.

Sea como sea, casi nada de lo que escuchas en el cine viene de una sola grabación que incluye voces de actores, pasos, y sonido de fondo, ya que en este sentido estamos hablando de captura ambisonica y seguramente no será el futuro de la producción de películas de realidad virtual. Las pelis de nivel graban los efectos de sonido, música y voces de forma separada, y después lo mezclan todo para que estén en el lugar indicado y momento indicado. Las herramientas de edición de vídeo son bastante buenas en seguir objetos elegidos en una peli, con un trabajo mínimo.

seguimiento cabeza

Podríamos usar la misma tecnología que nos deja poner efectos de explosión en coches, siguiéndolo para asegurarnos que esta es realística y que se mueve con la grabación, y usar esta información para seguir del mismo modo el audio que hace este objeto al volar por los aires en un mundo de realidad virtual.

Como se puede ver en la imagen, se ha puesto con el After Effects, un seguidor de movimiento, y ya se tiene una voz grabada porque se usa un micro inalámbrico, por lo que se tiene toda la información necesaria para mover la pista de audio. Lo siguiente que se tiene que hacer es que se pueda escuchar por parte de las orejas de la audiencia.

Una opción sería hacer tipo Total Cinema 360 que hemos visto con Blues. Esto sería tener una carpeta que contenga los archivos de los efectos de sonido, y otro que tenga la información de pistas extraídas, después transformarlos y sincronizarlos todos juntos en el mismo reproductor. Esto sería tal vez un poco demasiado trabajo, pero bastante directo. Sin duda no quiero tener un archivo de vídeo además de una carpeta y efectos de sonido que sólo se pueden arreglar con programas especiales, en un formato que puede ser o no estándar para otros reproductores. Con esto dejaríamos mucho espacio para que se creen multitud de problemas.

Aunque parezca demasiado, puedo visualizar usuarios exportando a After Effects información para que sea compatible con Unity, dónde puedes compilar el vídeo con toda la información y efectos de sonido como si fuera un juego, y después descargar y ejecutar todo el juego Unity para ver el vídeo 360 grados.

ondas sonido O incluso, si no capturase originalmente el sonido ambisonicamente, puede seguir usando este formato para codificar tu espiral de sonido de información como una esfera de sonido en vez de un millón de pequeñas pistas, usando un programa que sólo el creador de vídeo, no el consumidor, necesita usar. Parece natural y fácil para un reproductor de vídeo esférico el hecho de poder soportar sonido ambisonico. Un archivo regular de vídeo puede almacenar datos de información como una serie de pistas de audio representadas en una esfera de sonido.

Aplicar una rotación para emparejarlo, después juntarlo en un estéreo binaural usando micrófonos virtuales. Matemáticamente simple. Y cualquier cosa que requiera más, es simplemente una extensión fácil de la tecnología.

Todo parece la mar de simple, tal vez demasiado, para implementar ambisonicos básicos, por lo que me sorprende un poco el hecho de no haberlo visto aún. Debería ser tan simple como:

Grabar con sonido de micro en el lugar adecuado.
Convertir al formato B estándar.
Usar información de seguimiento de cabeza para aplicar en la transformación de rotación.
Convertir a estéreo.

Una teoría que en la practica funciona la mar de bien ¿no crees? No lo sé la verdad. Tal vez estoy cometiendo algún error fundamental. Supongo que lo veremos pronto. Y ya sabes que cualquier comentario que quieras hacer al respecto, lo puedes hacer en nuestra comunidad que te enlazamos en el menú.

Índice de contenido

1 ¿Qué opciones de sonido tenemos para los vídeos 360º?
2 Métodos de grabación de audio en realidad virtual