Tecnología
El detalle clave para saber si un audio fue hecho con inteligencia artificial y buscan engañarlo
Los delincuentes han comenzado a aprovechar las capacidades avanzadas de la IA para crear fraudes más sofisticados y difíciles de detectar.

La inteligencia artificial ha dejado de ser una tecnología futurista para consolidarse como una herramienta esencial en la vida diaria de millones de personas. Desde sus primeros usos en el procesamiento de datos hasta los avances más recientes en el aprendizaje automático y la automatización, la IA está revolucionando sectores clave, incrementando la productividad y modificando la manera en que las personas interactúan con el mundo.
Uno de los aspectos más evidentes de esta transformación es la automatización. En el pasado, tareas repetitivas y monótonas ocupaban gran parte del tiempo de las personas, pero con la llegada de la IA, muchas de estas actividades se realizan ahora de manera automática.
En los últimos años, la IA ha logrado avances significativos en el campo del procesamiento del lenguaje y la síntesis de voz, lo que ha dado lugar al desarrollo de tecnologías como el deepfake de voz. Esta herramienta permite replicar la voz de cualquier individuo a partir de un conjunto de datos de audio, lo que ha generado tanto avances como preocupaciones en torno a la ética, la privacidad y la seguridad.

¿Cómo funciona la suplantación de voz mediante IA?
El proceso de creación de un “doble digital” de la voz implica entrenar modelos utilizando grandes volúmenes de datos de audio. A través de este proceso, el sistema aprende a reproducir sonidos, tonos, inflexiones, ritmos y matices específicos de una voz determinada.
Lo más leído
Además, existen plataformas y aplicaciones accesibles que permiten a cualquier internauta generar audios falsificados de voces conocidas o incluso de personas de su entorno cercano.
Según el portal Computer Hoy, a pesar de la precisión con la que esta tecnología puede replicar voces, existen ciertos indicios que permiten detectar si un audio ha sido generado por IA. Uno de los aspectos más fácilmente identificables es la falta de variabilidad en la entonación o ritmo. Las voces suelen presentar una cadencia más monótona en comparación con las humanas, que son mucho más dinámicas y cambiantes.
Los expertos también señalan que la IA a menudo enfrenta dificultades para imitar ciertos matices en la pronunciación. Aunque las voces generadas pueden ser claras y precisas, a veces presentan errores con palabras complejas o nombres propios, los cuales pueden sonar inusuales o desubicados.
Otro aspecto relevante es la coherencia del mensaje. Aunque las tecnologías actuales son capaces de generar discursos convincentes, aún presentan dificultades para mantener la coherencia en una conversación fluida. La inteligencia artificial puede mostrar cambios abruptos en el tono o en el contexto.
“Actualmente no existe ningún sistema que pueda reproducir voces deepfake indistinguibles del habla humana, pero en los últimos meses han surgido cada vez más herramientas de este tipo. Hasta hace poco, los usuarios necesitaban conocimientos de programación para crear deepfakes, pero ahora el proceso es mucho más sencillo", afirman desde Kaspersky.

El uso de la tecnología en estafas
En muchos casos, los ciberdelincuentes aprovechan esta tecnología para crear audios urgentes o alarmantes con el objetivo de manipular a las víctimas. Si un mensaje solicita dinero rápidamente, incita a tomar decisiones inmediatas o induce a la presión para actuar sin pensar, es probable que se trate de una estafa.
Estos audios pueden sonar sumamente realistas, pero la urgencia o el tono excesivamente dramático son características comunes en los fraudes. Ante la recepción de una grabación de este tipo, es fundamental detenerse y verificar la fuente antes de tomar cualquier acción.