Сортировать:
- по релевантности
- по дате
- по зарплате
... с vLLM, TensorRT-LLM, TGI для serving моделей опыт работы с квантизацией (AWQ, GPTQ, GGUF) для снижения требований к VRAM знание оптимизаций Flash Attention и Paged Attention навыки работы с PyTorch, JAX, ONNX для универсального развертывания опыт отладки ...
26.12.2025; Источник: hh.ru