logo
← Volver al blogImagen de portada: La forma en que bajamos un 60 % el costo de las llamadas de IA con TinyML
Foto de Diego Avellaneda

Diego Avellaneda

La forma en que bajamos un 60 % el costo de las llamadas de IA con TinyML

Publicado el 6/30/2025

Cuando lanzamos Callbook AI, la meta era clara: llamadas con IA que se que sonaran como humanos. Sin embargo, muy pronto nos dimos cuenta de que un enemigo silencioso estaba disparando nuestros costos: el voicemail. En este artículo profundizaremos en la historia real detrás de nuestro problema, el desglose de costos de una llamada IA, por qué las soluciones convencionales fallaban en Latinoamérica y, finalmente, cómo implementamos tinyML para convertirnos en los más competitivos del mercado.

1. El choque con nuestro mayor desafío: el buzón de voz
A mediados de 2024, nuestros primeros clientes ya estaban haciendo decenas de llamadas diarias. En un escenario típico de llamadas en frío, apuntábamos a contactar al 30 % de los números marcados, pero descubrieron que el 70 % restante se perdía en colgadas o directamente en buzón de voz. Lo que más nos llamó la atención fue este dato:

Más de la mitad de esas llamadas “perdidas” —un 50 %— eran mensajes de voz.

Cada vez que esto pasaba, nuestra plataforma ejecutaba todo el flujo de IA (conexión telefónica, transcripción, análisis de texto y generación de voz), aunque al final no interactuara con una persona. El resultado fue que las facturas mensuales se disparaban y muchos clientes empezaban a preguntarse si realmente estaban obteniendo valor de sus campañas.

2. Desglose de costos de una llamada IA

Para entender el problema, veamos cada componente y su modelo de facturación:

  1. Telefonía (Twilio, Vonage, Zadarma)
    • Cobran por segundo o por minuto completo.
    • Si la llamada dura 2 s, se factura como 60 s en algunos planes.
  2. STT (Speech-to-Text)
    • Procesa y transcribe toda la señal de audio capturada.
    • Se paga por minuto de audio transcrito.
  3. LLM (Large Language Model)
    • Analiza el texto resultante y decide la acción siguiente.
    • El precio varía según el modelo (GPT-3.5 vs GPT-4, por ejemplo) y la latencia; más complejidad = más costo.
  4. TTS (Text-to-Speech)
    • Genera la respuesta de voz.
    • También se factura por segundo de audio sintetizado.

Caso típico de voicemail

Flujo de llamada por buzón de voz
Llamada entra → Twilio cobra por minuto completo → STT transcribe 10 s de… “Beep. Lo sentimos, no puede atender su llamada” → LLM detecta buzón → TTS dice “Adiós” → fin de llamada.

Cada uno de esos pasos consume tiempo facturable: cada voicemail cuesta casi lo mismo que una llamada exitosa.

3. ¿Por qué la AMD de Twilio no resolvía el problema?

Answering Machine Detection Twilio

Twilio ofrece AMD (Answering Machine Detection), pero:

La práctica común en otras plataformas de AI calls es poner un prompt tipo:

“Si detectas voicemail, por favor cuelga y di adiós”.

Pero, ¿qué ocurre?

El LLM sigue cargado:

El TTS genera el “Adiós”:

El cliente paga.

4. TinyML: procesamiento en el borde (edge)

Para recortar todos esos costos innecesarios, diseñamos una solución basada en tiny machine learning que corre localmente en el primer segundo de cada llamada:

Comparativa entre funcionalidad actual y modelo TinyML

5. Construcción de nuestro detector con tinyML usando EdgeImpulse (versión simplificada)

Para que sea más claro, dejamos de lado términos muy técnicos y nos centramos en lo esencial: cómo enseñamos a nuestra IA a distinguir un buzón de voz de una persona que contesta.

5.1. Recolección y organización de ejemplos

5.2. Señales de audio que usamos

En lugar de procesar todo el sonido completo, nos fijamos en detalles simples y fáciles de calcular en el momento:

5.3. Un modelo muy ligero

5.4. Entrenamiento y resultados

6. Resultados finales y métricas clave

Después de entrenar e integrar nuestro detector ligero, obtuvimos:

¿Por qué importan estos números?

Gracias a esa eficacia, en producción vimos:

–60 % en el gasto asociado a llamadas que terminan en buzón de voz.

En otras palabras, al cortar cada voicemail en el borde antes de pasar por STT, LLM o TTS, ahorramos más de la mitad de los costos que antes se iban en procesamientos innecesarios. Este ahorro se traduce directamente en facturas más ajustadas y clientes mucho más tranquilos con el retorno de inversión de sus campañas.

Foto de Diego Avellaneda

Diego Avellaneda

Cofundador de Callbook AI. Escribo sobre lo que vamos aprendiendo haciendo miles de llamadas con inteligencia artificial para ventas, cobranza y atención. Todo lo que comparto viene de experiencias reales y datos en campo.

logo

© 2024, Asinaria Corporation All Rights Reserved.