Сортировать:
- по релевантности
- по дате
- по зарплате
... с vLLM, TensorRT-LLM, TGI для serving моделей Опыт работы с квантизацией (AWQ, GPTQ, GGUF) для снижения требований к VRAM Знание оптимизаций Flash Attention и Paged Attention Навыки работы с PyTorch, JAX, ONNX для универсального развертывания Опыт отладки ...
19.01.2026; Источник: hh.ru