Para cargas de bajo volumen y sólo-frontier, las APIs hosteadas casi siempre ganan. Por encima de un umbral de volumen específico de la carga (típicamente cuando el gasto mensual de inferencia cruza cinco cifras y está dominado por llamadas repetitivas a modelos pequeños), la inferencia self-hosted frecuentemente aterriza en el 10-30% del coste equivalente de API hosteada. El punto de equilibrio es más predecible de lo que sugiere el discurso.
de tráfico