
El periodista Oliver Buckley publicó el pasado mes de julio un artículo sobre el aumento de las voces familiares clonadas con inteligencia artificial para realizar estafas telefónicas.
Uno de los casos más notorios fue en 2021, una persona robó 35 millones de dólares a un banco usando esta tecnología. Y los datos que hemos encontrados provienen de EEUU, donde la FTC, pone a este tipo de estafas en segundo lugar con 36.000 denuncias.
En otras ocasiones el discurso político de distintos partidos y administraciones públicas en redes sociales , medios de comunicación, etc, pueden contener audio falso sobre contenidos de interés para la sociedad, con el objetivo de influir o generar una nueva corriente de opinión.
Verificación de las grabaciones
La verificación de locutores se hace compleja desde el punto de vista de la acústica forense, cuando se añaden otros factores como el ruido ambiente, duración y calidad de la voz. Además, se requiere de un audio (indubitado) de la persona cuya voz ha sido clonada para realizar el análisis comparativo.
Actualmente, hay aplicaciones de IA que ya nos permiten clonar voces con tan solo 5 frases, y estas, la mayoría de las veces son extraídas de las redes sociales y fuentes abiertas en general, así lo han asegurado varios expertos en la materia.
Es importante saber, que dentro de un análisis forense comparativo de voz, y como procedimiento previo, es necesario autenticar el audio para que la prueba sea legítima en un procedimiento judicial.
Acreditar que la grabación de audio no presenta cortes, interrupciones u otras circunstancias electroacústicas vinculadas al registro de audio que no se corresponden con eventos normales generados en el proceso de grabación.
En Graudio, hemos participado en casos complejos aportando información relevante sobre las circunstancias que rodean un hecho delictivo, identificando a los hablantes, ubicándolos en el espacio y transcribiendo fragmentos casi inaudibles.
Y en algunos casos necesitando la colaboración de empresas tecnológicas y expertos en otras áreas forenses:
- Criminólogos
- Peritos informáticos
- Lingüistas forenses
- Ingenieros y desarrolladores de IA
¿Qué herramientas y capacitación se requiere para periciar un audio y en concreto los casos de falsificación?

En Graudio tratamos siempre de estar actualizados 360, adquiriendo la última licencia o ampliación de software, en constante contacto con las marcas y fabricantes de referencia, presentes en foros y ferias internacionales y lo más importante: Nuestros clientes y casos son el verdadero reto que nos “empuja” a evolucionar constantemente.
Los sistemas más avanzados de análisis automático comparativo de voz trabajan con diferentes algoritmos y redes neuronales entrenadas dependiendo del tipo de canal (microfónico, telefónico) y duración de las muestras de voz.
Un fragmento de voz de escasos segundos de duración es suficiente para cotejar una voz y el sistema entregará en su salida un coeficiente de verosimilitud o probabilidad (likelihood ratios) que indica cuanto de probable es que la voz cuestionada e indubitada correspondan al mismo hablante o locutor.
Los sistemas de reconocimiento actuales permiten comparar voces con independencia de la lengua y el texto, facilitan la separación de hablantes en grabaciones con diferentes locutores para crear los modelos comparativos (dubitado e indubitado), y permiten el análisis de formantes vocálicos dentro de cualquier contexto fonético.
Es importante además que la propia herramienta incorpore módulos de autenticación de audio para detectar fallas en la integridad del audio, habitual en técnicas de spoofing:
- Localización de puntos de edición por cambios en la respuesta en frecuencia y fase acústica
- Identificación de trazas de otros códecs de audio y resampling de la señal digital
- Identificación y localización de trazas con voz sintética
Otros análisis complementarios realizados por los lingüistas forenses aportan información relevante sobre las características suprasegmentales como es la entonación, acento, uso de coletillas o incluso errores lingüísticos. Parámetros que pueden ser compatibles o no con la emisión de voz natural y espontánea.
Sin olvidar otros parámetros acústicos obtenidos de la voz del sospechoso (amplitud vs frecuencia) y sus variaciones en el dominio del tiempo, que puedan ser compatibles o no con voz natural en el entorno acústico y resto de circunstancias electroacústicas en que fué realizada la grabación.
Todos estos rasgos de la voz quedan de manifiesto en la transcripción literal puesto que se transcribe a texto tal y como se escucha, 100% fiel y completa, para no perder los detalles que pueden ser clave en el esclarecimiento de la verdad.
¿En qué casos es más frecuente el análisis forense comparativo de voz?
Después de más de 15 años colaborando con abogados de diferentes áreas de práctica, hemos acumulado conocimiento especializado en todo tipo de casos en los que una grabación de audio aporta información de valor que permita conocer la verdad sobre los hechos denunciados.
Algunos ejemplos se detallan a continuación:
Ámbito Penal: Defensa a investigados. Estafas. Corrupción. Tráfico de Drogas. Enriquecimiento ilícito. Violencia familiar, Asesinato. Informes Contrapericiales
Laboral: Incumplimiento de pactos. Despidos. Acoso
Civil: Reclamaciones de cantidad y Herencias
Familia: Divorcios, guarda y custodia. Amenazas