Optimización de costes de IA y reducción de gasto en inferencia LLM