Сортировать:
- по релевантности
- по дате
- по зарплате
... с vLLM, TensorRT-LLM, TGI для serving моделей опыт работы с квантизацией (AWQ, GPTQ, GGUF) для снижения требований к VRAM знание оптимизаций Flash Attention и Paged Attention навыки работы с PyTorch, JAX, ONNX для универсального развертывания опыт отладки ...
22.01.2026; Источник: hh.ru