用vllm加速推理框架推理速度还是很慢 #161

zhuzhiwei88 · 2024-05-20T09:35:37Z

本地部署的deepseek-coder-33b，两块RTX A6000 48G的显卡
python -m vllm.entrypoints.openai.api_server --model /home/superadmin/coder33b --trust-remote-code --tensor-parallel-size=2 --served-model-name=deepseek-coder
启动后调用/v1/completions接口获取推理结果，但是效率极低，平均15tokens/s，如图

有人遇到过吗，如何解决有大佬指教吗

zhusq20 · 2024-08-16T09:29:33Z

+1

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

用vllm加速推理框架推理速度还是很慢 #161

用vllm加速推理框架推理速度还是很慢 #161

zhuzhiwei88 commented May 20, 2024

zhusq20 commented Aug 16, 2024

用vllm加速推理框架 推理速度还是很慢 #161

用vllm加速推理框架 推理速度还是很慢 #161

Comments

zhuzhiwei88 commented May 20, 2024

zhusq20 commented Aug 16, 2024

用vllm加速推理框架推理速度还是很慢 #161

用vllm加速推理框架推理速度还是很慢 #161