vllm部署internvl2.5 cpu占用率高影响推理速度的问题

环境：
vllm  0.9.1  torch 2.7.0+cu126   transformers 4.53.2
L4卡部署internvl2.5 1B模型
cpu  Intel(R) Xeon(R) Platinum 8358 CPU @ 2.60GHz  CPU max MHz: 3400

部署代码：
python -m vllm.entrypoints.openai.api_server --served-model-name  internvl2_5 --model internvl2_5_1B \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.9 \
    --port 9084 --trust-remote-code \
    --max_model_len 2432 \
    --max_num_seqs 2 \
    --max_num_batched_tokens 4864

cpu占用率超级高，限制cpu为4(1200ms)的时间是不限制cpu（400ms）时间的三倍，性能瓶颈严重，请问问题应该怎么解决？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

vllm部署internvl2.5 cpu占用率高影响推理速度的问题 #1227

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

vllm部署internvl2.5 cpu占用率高影响推理速度的问题 #1227

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions