Desafío:

Verificar la Autenticidad de Grabaciones

de Habla Sintetizada

 

La constante evolución de la ciencia y la tecnología plantea un desafío significativo para los peritos forenses de audio e investigadores: la autenticación de grabaciones que puedan contener habla sintetizada. En un mundo donde la biometría de voz se utiliza para verificar la identidad en servicios como teleoperadores y banca en línea, existe una creciente vulnerabilidad ante los ataques de suplantación de voz o spoofing.

Existen dos tipos principales de ataques de suplantación de voz:

  • Repetición de discurso previamente grabado: En este escenario, el atacante, que no está registrado en la base de datos, reproduce un discurso pregrabado utilizando muestras de voz del objetivo. Estas muestras a menudo se obtienen mediante grabadoras de voz instaladas en teléfonos u otros dispositivos.
  • Síntesis de voz mediante tecnologías avanzadas: Un método cada vez más relevante implica la síntesis de voz a través de un sintetizador de texto a voz, particularmente utilizando redes neuronales profundas, como las redes neuronales profundas (DNN). Este enfoque requiere una cantidad significativa de muestras textuales del habla objetivo (generalmente al menos 5 minutos) para entrenar la red neuronal.

En este artículo, nos centraremos en la detección de falsificaciones de voz sintética y cómo la empresa Speech Technology Center aborda este problema mediante su módulo anti-spoofing conocido como IKAR Lab, que se utiliza en análisis forenses.

Para ilustrar este desafío, analizaremos un ejemplo concreto: el primer «deep fake» utilizado en un conflicto armado, donde un video falso muestra al presidente Zelenski ordenando la rendición del ejército y el pueblo ucraniano. Este video fue publicado en un medio de comunicación previamente hackeado, y se atribuye a un supuesto gobierno enemigo.

El constante avance tecnológico nos obliga a estar alerta y desarrollar soluciones efectivas para detectar y prevenir la suplantación de voz, una amenaza cada vez más sofisticada en la era digital.

Funcionamiento del Método de Detección de Falsificación Mediante Voz Sintética

 

El núcleo de este método de detección se basa en una red neuronal profunda altamente entrenada e implementada específicamente para esta tarea. El proceso de detección se divide en varias etapas clave:

  • Recolección de Datos de Entrenamiento: Para entrenar la red neuronal, se necesita una amplia base de datos de grabaciones de audio que contengan miles de muestras. Estas grabaciones incluyen fragmentos de audio que representan situaciones de spoofing o falsificación, así como otras muestras de audio que no contienen ninguna traza de falsificación.
  • Procesamiento de Espectros: Durante la etapa de entrenamiento, la red neuronal procesa los espectros de cada grabación de audio. Esto implica analizar y extraer características específicas de las grabaciones que permiten distinguir entre el habla natural y la voz sintética utilizada en intentos de suplantación.
  • Ajuste de Parámetros: La red neuronal se entrena mediante miles de iteraciones repetidas. Durante este proceso, los algoritmos de entrenamiento ajustan gradualmente los parámetros de la red. Esto permite que la red aprenda a identificar patrones y características que son indicativas de falsificaciones de voz.
  • Modelos de Red Neuronal: Se crean dos modelos de redes neuronales distintos, dependiendo del tipo de canal utilizado para la grabación: grabación telefónica o grabación ambiental con micrófono.
  • Salida de la Red Neuronal: La red neuronal produce un valor llamado «Score,» que puede ser tanto negativo como positivo. Para facilitar la interpretación de estos valores, la herramienta proporciona un valor «P,» que representa la probabilidad en porcentaje (de 0 a 100) de que la grabación de audio contenga falsificaciones o spoofing.

Metodología de Identificación de Voz Sintética en un Caso Específico

 

En el contexto de un caso específico, como el análisis de autenticidad de una pista de audio, se siguen varios pasos:

  • Extracción de la Pista de Audio: El primer paso implica extraer la pista de audio a analizar para determinar su autenticidad. Este proceso permite descartar la posibilidad de que se trate de un montaje de voz natural, donde se hayan utilizado fragmentos de otras grabaciones y se hayan añadido frases o palabras.
  • Análisis de Autenticidad: El análisis de autenticidad tiene como objetivo verificar si ha habido alguna edición en la grabación. En el caso que mencionas, la conclusión es que no hay evidencia de edición, lo que sugiere que la grabación es una secuencia única y auténtica.

Este enfoque combina la potencia de la tecnología de redes neuronales profundas con la capacidad de análisis de audio para identificar de manera efectiva la voz sintética y detectar intentos de suplantación en grabaciones de voz.

Características de la señal de audio:

El audio antes de ser analizado debe ser examinado previamente para determinar si cumple con unos requisitos mínimos de calidad en lo que respecta a algunos parámetros acústicos: Ancho de banda, relación señal ruido y tiempo de reverberación.

Es importante que en la señal de audio se visualicen los segmentos de voz con sus formantes vocálicos (F1 y F2) bien definidos y esbeltos. En audios de baja calidad es muy fácil que la red neuronal pueda cometer errores de verificación.

Módulo de Detección de falsificación:

Dentro de este módulo debemos seleccionar previamente el fragmento de audio que será analizado. La duración mínima de la grabación o fragmento de audio que se desea analizar por spoofing es de 3 segundos.

En nuestro caso seleccionamos la señal entera para buscar falsificación en toda la señal de audio.

Y como fuente, seleccionaremos la red neuronal entrenada con características específicas del canal microfónico.

Comienza el proceso de verificación de la señal de audio para detectar spoofing (falsificación), mostrando una ventana con el proceso de detección.

En la parte inferior del cuadro de diálogo se muestra el resultado de la verificación con un valor P que es la probabilidad de spoofing en la grabación de audio.

En este caso, un 79,37 indica que se detectaron rastros de falsificación con un grado de confianza alto (valores P en un rango por encima de 65).

 

Si la grabación de audio es en su mayoría original y solo un fragmento separado es falsificación. ¿Es posible detectarlo de alguna manera y determinar el comienzo y final de dicho fragmento?

En este caso la grabación de audio es de interés forense en dos sentidos. Primero, si se han insertado fragmentos de voz sintética, se ha editado el audio y por consiguiente, se ha roto la integridad de la grabación.

Segundo, la detección del fragmento con voz sintética dependerá de la duración de ese fragmento, y de la detección exacta del comienzo y final del fragmento superpuesto.

En el próximo articulo explicaremos el procedimiento llevado a cabo para identificar falsificación dentro de una grabación de audio original.

 

 

Más artículos en nuestro blog:

Deep fake de Audio en Estafas y campañas de desinformación

En este post hablamos de cómo en la actualidad los Deep fake y la inteligencia artificial está siendo la tendencia de la estafa y cómo protegerte legalmente.

La importancia del peritaje forense en la búsqueda de la verdad: el caso de los audios de Ourense

Hablamos del caso Ourense. Tras hacerse pública unas grabaciones, el afectado denunció a un medio de comunicación por su publicación. Alegó que esas grabaciones estaban realizadas con Inteligencia Artificial. Contamos cómo trabajamos ese peritaje.

La Acústica Forense: Una Herramienta Clave para los Abogados

En este artículo te hablamos de cómo la acústica forense ayuda a los abogados a presentar pruebas sólidas mediante el análisis técnico de grabaciones de audio, esenciales para esclarecer hechos y fortalecer estrategias legales

Cómo las Transcripciones Refuerzan el Análisis de Pruebas Acústicas Forense

En este artículo, hablamos de cómo debe llevarse acabo la transcripción forense para un peritaje de acústica forense.

Acústica Forense: La Clave para Ganar Litigios Penales

En este artículo, te enseñamos lo necesario para que puedas conocer más sobre la acústica forense y cómo te puede ayudar a ganar litigios.

Seminario de Acústica Forense. Análisis de Integridad e IA

En este artículo, te detallamos más sobre nuestras formaciones. Si eres criminalista, perito informático o abogado, esto es interesante para ti.

Sistema de privacidad de voz contra escuchas no autorizadas

En este artículo, te mostramos como realizar las comunicaciones seguras en procesos complejos y evitar fugas de información.

Comunicaciones seguras en negociaciones y litigios complejos

En este artículo, te mostramos como realizar las comunicaciones seguras en procesos complejos y evitar fugas de información.

¿Es legal grabar una conversación? ¿Cómo debo hacerlo?

En este artículo, te damos algunos consejos clave para asegurar que tus grabaciones sean efectivas como prueba en un juicio.

Desmontando Audios Fakes: La Verdad Detrás de las Manipulaciones

Descubre cómo la era digital ha dado paso a un preocupante aumento en la manipulación de audios y cómo enfrentar el desafío de desmontar pruebas de audio falsas, especialmente para profesionales legales.

Graudio Forensics
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible.

La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Nunca almacenamos información personal.

Tienes toda la información sobre privacidad, derechos legales y cookies en nuestra página de Política de Cookies.