Для low-volume и frontier-only нагрузок hosted API почти всегда выигрывает. Выше workload-specific порога объёма (обычно когда месячные расходы на инференс пересекают пятизначные и доминированы повторяющимися small-model вызовами), self-hosted инференс часто оседает на 10-30% эквивалентной hosted-API стоимости. Точка безубыточности предсказуемее, чем подсказывает дискурс.
решения