El periodista Oliver Buckley publicó el pasado mes de julio un artículo sobre el aumento de las voces familiares clonadas con inteligencia artificial para realizar estafas telefónicas.

Uno de los casos más notorios fue en 2021, una persona robó 35 millones de dólares a un banco usando esta tecnología. Y los datos que hemos encontrados provienen de EEUU, donde la FTC, pone a este tipo de estafas en segundo lugar con 36.000 denuncias.

En otras ocasiones el discurso político de distintos partidos y administraciones públicas en redes sociales , medios de comunicación, etc, pueden contener audio falso sobre contenidos de interés para la sociedad, con el objetivo de influir o generar una nueva corriente de opinión.

Verificación de las grabaciones

La verificación de locutores se hace compleja desde el punto de vista de la acústica forense, cuando se añaden otros factores como el ruido ambiente, duración y calidad de la voz. Además, se requiere de un audio (indubitado) de la persona cuya voz ha sido clonada para realizar el análisis comparativo.

Actualmente, hay aplicaciones de IA que ya nos permiten clonar voces con tan solo 5 frases, y estas, la mayoría de las veces son extraídas de las redes sociales y fuentes abiertas en general, así lo han asegurado varios expertos en la materia.

Es importante saber, que dentro de un análisis forense comparativo de voz, y como procedimiento previo, es necesario autenticar el audio para que la prueba sea legítima en un procedimiento judicial.

Acreditar que la grabación de audio no presenta cortes, interrupciones u otras circunstancias electroacústicas vinculadas al registro de audio que no se corresponden con eventos normales generados en el proceso de grabación.

En Graudio, hemos participado en casos complejos aportando información relevante sobre las circunstancias que rodean un hecho delictivo, identificando a los hablantes, ubicándolos en el espacio y transcribiendo fragmentos casi inaudibles.

Y en algunos casos necesitando la colaboración de empresas tecnológicas y expertos en otras áreas forenses:

Criminólogos

Peritos informáticos
Lingüistas forenses
Ingenieros y desarrolladores de IA

¿Qué herramientas y capacitación se requiere para periciar un audio y en concreto los casos de falsificación?

En Graudio tratamos siempre de estar actualizados 360, adquiriendo la última licencia o ampliación de software, en constante contacto con las marcas y fabricantes de referencia, presentes en foros y ferias internacionales y lo más importante: Nuestros clientes y casos son el verdadero reto que nos “empuja” a evolucionar constantemente.

Los sistemas más avanzados de análisis automático comparativo de voz trabajan con diferentes algoritmos y redes neuronales entrenadas dependiendo del tipo de canal (microfónico, telefónico) y duración de las muestras de voz.

Un fragmento de voz de escasos segundos de duración es suficiente para cotejar una voz y el sistema entregará en su salida un coeficiente de verosimilitud o probabilidad (likelihood ratios) que indica cuanto de probable es que la voz cuestionada e indubitada correspondan al mismo hablante o locutor.

Los sistemas de reconocimiento actuales permiten comparar voces con independencia de la lengua y el texto, facilitan la separación de hablantes en grabaciones con diferentes locutores para crear los modelos comparativos (dubitado e indubitado), y permiten el análisis de formantes vocálicos dentro de cualquier contexto fonético.

Es importante además que la propia herramienta incorpore módulos de autenticación de audio para detectar fallas en la integridad del audio, habitual en técnicas de spoofing:

Localización de puntos de edición por cambios en la respuesta en frecuencia y fase acústica
Identificación de trazas de otros códecs de audio y resampling de la señal digital
Identificación y localización de trazas con voz sintética

Otros análisis complementarios realizados por los lingüistas forenses aportan información relevante sobre las características suprasegmentales como es la entonación, acento, uso de coletillas o incluso errores lingüísticos. Parámetros que pueden ser compatibles o no con la emisión de voz natural y espontánea.

Sin olvidar otros parámetros acústicos obtenidos de la voz del sospechoso (amplitud vs frecuencia) y sus variaciones en el dominio del tiempo, que puedan ser compatibles o no con voz natural en el entorno acústico y resto de circunstancias electroacústicas en que fué realizada la grabación.

Todos estos rasgos de la voz quedan de manifiesto en la transcripción literal puesto que se transcribe a texto tal y como se escucha, 100% fiel y completa, para no perder los detalles que pueden ser clave en el esclarecimiento de la verdad.

¿En qué casos es más frecuente el análisis forense comparativo de voz?

Después de más de 15 años colaborando con abogados de diferentes áreas de práctica, hemos acumulado conocimiento especializado en todo tipo de casos en los que una grabación de audio aporta información de valor que permita conocer la verdad sobre los hechos denunciados.

Algunos ejemplos se detallan a continuación:

Ámbito Penal: Defensa a investigados. Estafas. Corrupción. Tráfico de Drogas. Enriquecimiento ilícito. Violencia familiar, Asesinato. Informes Contrapericiales

Laboral: Incumplimiento de pactos. Despidos. Acoso

Civil: Reclamaciones de cantidad y Herencias

Familia: Divorcios, guarda y custodia. Amenazas

Consúltanos para más información

Más artículos en nuestro blog:

Protección de Voz Contra Escuchas No Autorizadas: La Solución Definitiva

Protege tus conversaciones de micrófonos ocultos y espionaje digital. Descubre cómo la tecnología SANTOR HARP ofrece un escudo impenetrable de grado militar para tu privacidad.

Precisión técnica, eficiencia extrema y nuevos retos probatorios

Analizamos el impacto de la IA en el audio forense en 2026: desde la clonación de voz local hasta los retos probatorios de la transcripción predictiva y los deepfakes

Inteligencia Artificial y Audio Forense (Parte 1)

Enero de 2026 marca un punto de inflexión donde la inteligencia artificial se ha integrado como infraestructura operativa. En el ámbito pericial, cada mejora en la síntesis de voz incrementa la necesidad de un análisis crítico y de trazabilidad técnica.

Qwen3-TTS y el Caso del Instituto de Madrid

Análisis forense del caso Qwen3-TTS en Madrid: cómo un menor burló el control escolar usando deepfakes de audio de WhatsApp. Descubre las implicaciones del spoofing de voz en el peritaje de audio, la vulnerabilidad de la biometría y las nuevas medidas de autenticación necesarias en 2026.

LIMPIEZA Y RESTAURACIÓN DE VOCES EN INVESTIGACIONES FORENSES

La limpieza y restauración de audio forense permite mejorar la inteligibilidad de las voces sin alterar la evidencia original. Un proceso técnico que exige metodología, trazabilidad y rigor pericial.

LA TRANSCRIPCIÓN LITERAL JUDICIAL: CIENCIA, MÉTODO Y GARANTÍA PROCESAL

La transcripción literal como garantía procesal: un proceso técnico y científico que preserva la oralidad real para asegurar la defensa jurídica.

DISCREPANCIAS TÉCNICAS ENTRE EL INFORME PERICIAL DE LA DEFENSA Y LOS INFORMES OFICIALES DE LA GUARDIA CIVIL

«Guerra de informes en el Caso Koldo: las contradicciones técnicas que buscan desmontar la tesis de la UCO. ¿Son sólidos los indicios oficiales? Lo analizamos.»

¿Es China la verdadera cuna del Deepfake?

Este artículo desmonta el mito de que China es el epicentro del deepfake y muestra, con datos de 2025, cómo la verdadera infraestructura de ataque se reparte entre Norteamérica, Europa, Rusia y Corea del Norte. Analizamos plataformas clandestinas como Xanthorox AI, el auge del vishing con voz sintética y el papel de la regulación china frente a la expansión global de modelos occidentales, así como la necesidad de un análisis forense avanzado para detectar audios manipulados.

INTEGRIDAD DE AUDIOS Y COMO DESMONTAR DEEPFAKES DE VOZ

En un contexto donde la inteligencia artificial puede clonar voces casi perfectas, la autenticidad de los audios como prueba judicial se ha vuelto crítica. El III Seminario de Análisis de Integridad de Audio, celebrado en Madrid, ofreció una formación práctica para peritos y profesionales tecnológicos sobre cómo verificar, analizar y desmontar manipulaciones y deepfakes de voz mediante técnicas forenses avanzadas.

Cómo funciona la clonación de voz por IA — y qué retos plantea en el análisis forense de audio

Descubre cómo funciona la clonación de voz con inteligencia artificial, qué riesgos plantea para la autenticidad del audio y cómo los peritos forenses pueden detectar y desmontar un deepfake de voz en pruebas judiciales.

Deep fake de Audio en Estafas y campañas de desinformación

Verificación de las grabaciones

¿Qué herramientas y capacitación se requiere para periciar un audio y en concreto los casos de falsificación?

¿En qué casos es más frecuente el análisis forense comparativo de voz?

Más artículos en nuestro blog:

Protección de Voz Contra Escuchas No Autorizadas: La Solución Definitiva

Precisión técnica, eficiencia extrema y nuevos retos probatorios

Inteligencia Artificial y Audio Forense (Parte 1)

Qwen3-TTS y el Caso del Instituto de Madrid

LIMPIEZA Y RESTAURACIÓN DE VOCES EN INVESTIGACIONES FORENSES

LA TRANSCRIPCIÓN LITERAL JUDICIAL: CIENCIA, MÉTODO Y GARANTÍA PROCESAL

DISCREPANCIAS TÉCNICAS ENTRE EL INFORME PERICIAL DE LA DEFENSA Y LOS INFORMES OFICIALES DE LA GUARDIA CIVIL

¿Es China la verdadera cuna del Deepfake?

INTEGRIDAD DE AUDIOS Y COMO DESMONTAR DEEPFAKES DE VOZ

Cómo funciona la clonación de voz por IA — y qué retos plantea en el análisis forense de audio

Entradas recientes