Сортировать:
- по релевантности
- по дате
- по зарплате
... с vLLM, TensorRT-LLM, TGI для serving моделей Опыт работы с квантизацией (AWQ, GPTQ, GGUF) для снижения требований к VRAM Знание оптимизаций Flash Attention и Paged Attention Навыки работы с PyTorch, JAX, ONNX для универсального развертывания Опыт отладки ...
23.12.2025; Источник: hh.ru