Resolución de audio * No siempre más es mejor

El desarrollo de la tecnología es continuo y por regla general se puede apreciar el progreso en la practica. Sin embargo en determinadas ocasiones, somos invadidos por información sobre la misma que no entendemos, ni apreciamos objetivamente. Es el caso de la resolución de audio digital.

Todos conocemos el término HD y comprendemos lo que significa, aunque sea de una manera abstracta. Un dispositivo con imagen HD tiene efectivamente mayor y mejor resolución. La imagen es más luminosa, limpia y con una mayor sensación de profundidad en el campo visual y se puede apreciar objetivamente sin problema.

En el audio también se ha producido un incremento en los números, pero es lo único que parece haber crecido, ya que el sistema auditivo no puede detectar las diferencias de una manera clara. En este artículo hablo de algunos hechos referentes a la resolución del audio digital.

Contenidos

Naturaleza y audición

El sentido de la audición es muy importante en la naturaleza, pues nos ayuda a entender nuestro entorno de un modo asombrosamente exacto. Al ver algo, nuestro cerebro recibe una gran cantidad de datos pero no es hasta que se suma el sentido de la audición, que estos datos son interpretados. Por ejemplo, al ver un rayo, no tenemos una reacción inmediata, pero al escuchar el trueno obtenemos datos importantes. Aunque ya sabíamos lo que iba a pasar, recibimos información sobre la intensidad y distancia de las descargas, por lo tanto podemos calcular la distancia e intensidad de la tormenta. En el momento en el que el sonido es procesado, es cuando el cerebro finalmente reacciona al estímulo.

A través del oído es muy fácil manipular el cerebro. Una prueba clásica de esto es ver una película de terror, sin sonido. De esta forma notamos que las imágenes que vemos, no producen el mismo efecto terrorífico e incluso la película se puede llegar a percibir como humorística (algo que experimenté personalmente).

Las puertas de la percepción

Según diversos estudios sobre el comportamiento del cerebro, captamos nuestro mundo a través de sensaciones comunicadas por nuestros sentidos, pero estas sensaciones no son interpretadas de una manera objetiva sino que pasan por innumerables redes neuronales, con información totalmente subjetiva y diferente en cada individuo.

Se podría decir que cada ser percibe el mundo desde su perspectiva particular y subjetiva, haciendo que cuando precisamos medir algo en el mundo del audio, necesitamos alguna herramienta que aporte objetividad al resultado.

La prueba ciega

En publicidad y marketing, cuando se quieren estudiar varias muestras de algo, se usa una técnica denominada «prueba ciega». Se toman las muestras y se realizan la prueba sin conocimiento del origen de la muestra por parte del probador. Así se realiza, por ejemplo, la cata de vinos. De esta forma el catador se puede concentrar en las características de cada vino, sin los condicionantes de la marca. Al usar la técnica de la prueba ciega con dispositivos de audio, los resultados suelen ser sorprendentes.

Muchas veces me han dicho «tienes que escuchar tal placa de sonido y vas ver que suena mejor que tal otra», a lo que yo normalmente contesto que dudo que se pueda sacar una conclusión valida, sin tener la posibilidad de hacer una prueba ciega. La he hecho en numerosas ocasiones con resultados muy claros y lo que queda demostrado es la facilidad con la que el oído puede ser engañado. A modo de ejemplo, en el articulo «Analógico o digital, dos mundos paralelos» hablo de un experimente que realicé respecto a la fidelidad de la grabación de audio digital. No siempre más es mejor.

Dithering para mejorar la resolución de audio

El comienzo del audio digital fue difícil. El mayor problema era volver a reconstituir el audio, de digital a analógico. El sonido era frio y al analizarlo visualmente, no se conseguía reestablecer la forma de onda original.

En la figura podemos observar un ejemplo de una onda sinusoidal superpuesta con el resultado tras digitalizarla. Como se ve, en la versión digital se observan unos escalones. La cantidad de los mismos depende de la frecuencia de muestreo que se está usando.

Para conseguir un mejor resultado en la conversión final de digital a analógico, se desarrollo una técnica para suavizar los escalones llamada dithering que no es mas que añadir un tipo de ruido al circuito de conversión, con lo que se consigue restaurar la forma de onda de tal forma que para nuestra percepción, el resultado es excelente.

Según el teorema de Nyquist se estableció que la mínima frecuencia de muestreo para codificar audio digital debía ser de 44.1 Khz. Por esto para la distribución de audio, es suficiente la codificación en 16 bits, 44.1 Khz.

Resolución de audio para grabar, mezclar y masterizar

Profundidad de bits

En sonido, el ancho de la llamada «palabra digital» es muy importante. Sobre todo en la mezcla y mastering, pues cuanto mayor es la palabra, mejor es el procesamiento de efectos. Actualmente la codificación de 24 bits parece suficiente para el intercambio de archivos durante la producción.

Una vez llegada a la etapa del mastering es mejor usar 32 bits punto flotante. Así garantizas la calidad del audio y su correcto proceso por la cadena de mastering.

Para la distribución se puede utilizar tanto 16 bits como 24, pero al exportar al archivo final en el mastering, siempre hay que usar dithering para obtener un sonido más natural al reducir el ancho de la palabra digital de 32 bits a una inferior.

Frecuencia de muestreo

En cuanto a frecuencias de muestreo(sampleo), 44.1 Khz sigue siendo la adecuada para proyectos de audio y 48 Khz para audio con vídeo, pero esta última, funciona más como una característica técnica de cine y TV que por su mejora en calidad, que es inapreciable. Yo no he podido detectar claramente la diferencia entre estas dos frecuencias.

Por otro lado, sí que se ha demostrado la deformación en el audio, al convertir la frecuencia de muestreo, motivo por el cual cada vez es más común y recomendable trabajar en la frecuencia de muestreo en la que se va a distribuir el audio en el que estemos trabajando.

Por el momento no parece haber motivo para usar otra resolución, en la fase de producción, sobre todo cuando se pone en la balanza el supuesto beneficio, contra el alto costo de los formatos de audio más complejos, teniendo en cuenta el uso de ancho de banda en comunicaciones y la capacidad de una PC en aplicaciones de estudio, tanto casero, como profesional.

Conclusiones sobre la resolución de audio

Sobre gustos no hay nada escrito y si hay gente dispuesta a pagar dinero por una botella con aire de las sierras cordobesas, también puede haber quien prefiera trabajar con frecuencias de muestreo de hasta 192 Khz.

Actualmente resulta muy difícil distinguir entre un audio grabado en 44.1 y otras frecuencias de sampleo superiores. No digo que sea imposible, o que no hay diferencia, simplemente no es tan evidente como en el caso de la imagen.

En sonido el término HD parece más una normativa que una mejora y si hay que convertirlo por motivos de distribución, conviene que recordemos hacerlo como último paso y siempre al final del mastering, usando entonces el dithering en el caso del ancho de bits y un buen re-sampleador para la frecuencia de muestreo.

Relacionado

4 comentarios en «Resolución de audio * No siempre más es mejor»

brainwash el 12/11/2017 a las 4:46 pm

Responder

Supongo que esto tendrá que ver con el marketing totalmente, seria mas interesante intentar saber que significa la frecuencia de muestreo y la profundidad de bits.
1. Félix Valls el 14/11/2017 a las 4:32 pm
  
  Responder
  
  La frecuencia de muestreo de 44.1 es suficiente para grabar y reproducir audio. Yo nunca escuche diferencias y eso que probé hasta en 192 Khz.
  En cambio la profundidad de bits ya es otra cosa.
  Por un lado, si bien 16 bits son suficientes para la mayoría de música, (96 dBs de rango dinámico) hay una ventaja en disponer de 24 bits de rango y es por lo que me parece recomendable para sonido con imagen. Normalmente en el sonido para cine no se hace mucho uso de compresores y la dinámica se puede usar como recurso narrativo. Una explosión en sonido acompañando a una explosión en la imagen, siempre es impactante.
  Si bien lo anterior vale para la escucha de sonido, para mezclar sonido también es mejor la mayor profundidad de bits.
  Para mi el abuso marketiniano se hace con la frecuencia de muestreo en la que mas no es mejor.
Juan Manuel Tossi el 10/12/2020 a las 11:23 am

Responder

Gran tema de discusión, Felix! Hoy hay muchos sistemas de reproducción en los que uno podría excusarse para el uso de resoluciones más altas, léase atmos y otros sistemas nuevos de muchísima calidad, pero para el común de las personas que escuchan en teléfonos, tv’s o auriculares tipo “consumer”, con codecs de servicios de streaming que deforman y distorsionan mucho, no van a notar diferencia alguna. Yo la única manera que he tenido de notar diferencias de algún tipo en resolución fue haciendo comparaciones inmediatas (onda “toggle between…”) y tenés que estar buscándolas casi concentrado exclusivamente en eso…
1. Felix Valls el 13/12/2020 a las 10:04 pm
  
  Responder
  
  Efectivamente Juan, nosotros hemos probado en el estudio con masters, usando la técnica que comentas (toggle between) y no pudimos detecta la diferencia en temas con la dinamica lógica del rock o pop.
  Lo que, por otro lado pude comprobar es la subjetividad del sistema auditivo humano. Si crees que hay una diferencia, terminas escuchando la diferencia. Por eso hablo de la técnica del Doble ciego, por ser la única manera científica de comparar audio.
  
  Muchas gracias por visitar mi blog y comentar, saludos!