Desafío:

Verificar la Autenticidad de Grabaciones

de Habla Sintetizada

 

La constante evolución de la ciencia y la tecnología plantea un desafío significativo para los peritos forenses de audio e investigadores: la autenticación de grabaciones que puedan contener habla sintetizada. En un mundo donde la biometría de voz se utiliza para verificar la identidad en servicios como teleoperadores y banca en línea, existe una creciente vulnerabilidad ante los ataques de suplantación de voz o spoofing.

Existen dos tipos principales de ataques de suplantación de voz:

  • Repetición de discurso previamente grabado: En este escenario, el atacante, que no está registrado en la base de datos, reproduce un discurso pregrabado utilizando muestras de voz del objetivo. Estas muestras a menudo se obtienen mediante grabadoras de voz instaladas en teléfonos u otros dispositivos.
  • Síntesis de voz mediante tecnologías avanzadas: Un método cada vez más relevante implica la síntesis de voz a través de un sintetizador de texto a voz, particularmente utilizando redes neuronales profundas, como las redes neuronales profundas (DNN). Este enfoque requiere una cantidad significativa de muestras textuales del habla objetivo (generalmente al menos 5 minutos) para entrenar la red neuronal.

En este artículo, nos centraremos en la detección de falsificaciones de voz sintética y cómo la empresa Speech Technology Center aborda este problema mediante su módulo anti-spoofing conocido como IKAR Lab, que se utiliza en análisis forenses.

Para ilustrar este desafío, analizaremos un ejemplo concreto: el primer «deep fake» utilizado en un conflicto armado, donde un video falso muestra al presidente Zelenski ordenando la rendición del ejército y el pueblo ucraniano. Este video fue publicado en un medio de comunicación previamente hackeado, y se atribuye a un supuesto gobierno enemigo.

El constante avance tecnológico nos obliga a estar alerta y desarrollar soluciones efectivas para detectar y prevenir la suplantación de voz, una amenaza cada vez más sofisticada en la era digital.

Funcionamiento del Método de Detección de Falsificación Mediante Voz Sintética

 

El núcleo de este método de detección se basa en una red neuronal profunda altamente entrenada e implementada específicamente para esta tarea. El proceso de detección se divide en varias etapas clave:

  • Recolección de Datos de Entrenamiento: Para entrenar la red neuronal, se necesita una amplia base de datos de grabaciones de audio que contengan miles de muestras. Estas grabaciones incluyen fragmentos de audio que representan situaciones de spoofing o falsificación, así como otras muestras de audio que no contienen ninguna traza de falsificación.
  • Procesamiento de Espectros: Durante la etapa de entrenamiento, la red neuronal procesa los espectros de cada grabación de audio. Esto implica analizar y extraer características específicas de las grabaciones que permiten distinguir entre el habla natural y la voz sintética utilizada en intentos de suplantación.
  • Ajuste de Parámetros: La red neuronal se entrena mediante miles de iteraciones repetidas. Durante este proceso, los algoritmos de entrenamiento ajustan gradualmente los parámetros de la red. Esto permite que la red aprenda a identificar patrones y características que son indicativas de falsificaciones de voz.
  • Modelos de Red Neuronal: Se crean dos modelos de redes neuronales distintos, dependiendo del tipo de canal utilizado para la grabación: grabación telefónica o grabación ambiental con micrófono.
  • Salida de la Red Neuronal: La red neuronal produce un valor llamado «Score,» que puede ser tanto negativo como positivo. Para facilitar la interpretación de estos valores, la herramienta proporciona un valor «P,» que representa la probabilidad en porcentaje (de 0 a 100) de que la grabación de audio contenga falsificaciones o spoofing.

Metodología de Identificación de Voz Sintética en un Caso Específico

 

En el contexto de un caso específico, como el análisis de autenticidad de una pista de audio, se siguen varios pasos:

  • Extracción de la Pista de Audio: El primer paso implica extraer la pista de audio a analizar para determinar su autenticidad. Este proceso permite descartar la posibilidad de que se trate de un montaje de voz natural, donde se hayan utilizado fragmentos de otras grabaciones y se hayan añadido frases o palabras.
  • Análisis de Autenticidad: El análisis de autenticidad tiene como objetivo verificar si ha habido alguna edición en la grabación. En el caso que mencionas, la conclusión es que no hay evidencia de edición, lo que sugiere que la grabación es una secuencia única y auténtica.

Este enfoque combina la potencia de la tecnología de redes neuronales profundas con la capacidad de análisis de audio para identificar de manera efectiva la voz sintética y detectar intentos de suplantación en grabaciones de voz.

Características de la señal de audio:

El audio antes de ser analizado debe ser examinado previamente para determinar si cumple con unos requisitos mínimos de calidad en lo que respecta a algunos parámetros acústicos: Ancho de banda, relación señal ruido y tiempo de reverberación.

Es importante que en la señal de audio se visualicen los segmentos de voz con sus formantes vocálicos (F1 y F2) bien definidos y esbeltos. En audios de baja calidad es muy fácil que la red neuronal pueda cometer errores de verificación.

Módulo de Detección de falsificación:

Dentro de este módulo debemos seleccionar previamente el fragmento de audio que será analizado. La duración mínima de la grabación o fragmento de audio que se desea analizar por spoofing es de 3 segundos.

En nuestro caso seleccionamos la señal entera para buscar falsificación en toda la señal de audio.

Y como fuente, seleccionaremos la red neuronal entrenada con características específicas del canal microfónico.

Comienza el proceso de verificación de la señal de audio para detectar spoofing (falsificación), mostrando una ventana con el proceso de detección.

En la parte inferior del cuadro de diálogo se muestra el resultado de la verificación con un valor P que es la probabilidad de spoofing en la grabación de audio.

En este caso, un 79,37 indica que se detectaron rastros de falsificación con un grado de confianza alto (valores P en un rango por encima de 65).

 

Si la grabación de audio es en su mayoría original y solo un fragmento separado es falsificación. ¿Es posible detectarlo de alguna manera y determinar el comienzo y final de dicho fragmento?

En este caso la grabación de audio es de interés forense en dos sentidos. Primero, si se han insertado fragmentos de voz sintética, se ha editado el audio y por consiguiente, se ha roto la integridad de la grabación.

Segundo, la detección del fragmento con voz sintética dependerá de la duración de ese fragmento, y de la detección exacta del comienzo y final del fragmento superpuesto.

En el próximo articulo explicaremos el procedimiento llevado a cabo para identificar falsificación dentro de una grabación de audio original.

 

 

Más artículos en nuestro blog:

¿Es legal grabar una conversación? ¿Cómo debo hacerlo?

En este artículo, te damos algunos consejos clave para asegurar que tus grabaciones sean efectivas como prueba en un juicio.

Desmontando Audios Fakes: La Verdad Detrás de las Manipulaciones

Descubre cómo la era digital ha dado paso a un preocupante aumento en la manipulación de audios y cómo enfrentar el desafío de desmontar pruebas de audio falsas, especialmente para profesionales legales.

Acoso Laboral: Importancia de Recabar Pruebas

En este post encontrarás algunas claves para tener evidencias y demostrar el acoso laboral. Es importante un buen peritaje.

Riesgos de Filtración de Información y Soluciones Efectivas

En este post hablaremos de las filtraciones de comunicaciones que generan casos de competencia desleal, empleados hostiles…

Apoyo en litigios por caso de acoso escolar

En este post, en colaboración con Akirutek, contamos cómo la acústica forense puede ayudar en los casos de acoso escolar.

La Transcripción Literal como Prueba en un Juicio: ¿Es Válida?

En este post hablamos sobre las transcripciones de audio como prueba en un juicio. Características de una transcripción literal.

Transcripciones Legales: Aspectos Clave a Considerar

En este post hablamos sobre la transcripción literal. Esta transcripción es la válida en los juicios. Os contamos sus características, y la metodología de trabajo.

Limpieza de audio: caso práctico

La restauración y limpieza de audio es un proceso complejo y delicado. Para su trabajo se requieren herramientas y tecnología específica que nos permita mejorar notablemente la calidad de una grabación de audio, siempre dentro de los parámetros que permita la física...

Participación en el máster de ciberdelincuencia de la Universidad de Nebrija

El año pasado colaboramos ya con la Universidad de Nebrija en su máster de ciberdelincuencia. Tras la gran aceptación y buena opinión de los asistentes, este curso volveremos a formar parte del cuerpo docente del mismo, serán los días 23 y 24 de mayo.  La  Fundación...

I Jornada técnica febrero 2023

En los últimos años los casos de acústica forense se han multiplicado. El cambio tecnológico ha acelerado ciertos procesos, y nos obliga a mantenernos informados constantemente. En Graudio vivimos cómo las grabaciones de audio obtenidas y legalmente aún son un gran...