File tree Expand file tree Collapse file tree 1 file changed +3
-2
lines changed Expand file tree Collapse file tree 1 file changed +3
-2
lines changed Original file line number Diff line number Diff line change @@ -1144,18 +1144,19 @@ print(response[0])# 打印生成的回答部分
1144
1144
> <b >此处,我们指的是 Fundation Model 的推理,包括但并不局限于 LLM(大语言模型)的推理</b >
1145
1145
1146
1146
- LLM 的加载和推理:即纯对话/问答式的大语言生成式模型。模型的输入和输出都是文本,不包含其他模态的数据。
1147
- - VLLM 的加载和推理:VLLM 视觉语言大模型。VLLM 是一种结合了视觉和语言信息的预训练模型,通过将视觉和语言信息相结合,使模型能够同时处理文本和图像数据。以 Qwen2.5s-VL 为例,我们来看看它具备什么能力。
1147
+ - VLM 的加载和推理:VLM 视觉语言大模型。VLM 是一种结合了视觉和语言信息的预训练模型,通过将视觉和语言信息相结合,使模型能够同时处理文本和图像数据。以 Qwen2.5s-VL 为例,我们来看看它具备什么能力。
1148
1148
- 视觉理解:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。
1149
1149
- Agent:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。
1150
1150
- 理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
1151
1151
- 视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。
1152
1152
- 结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。
1153
1153
1154
- > <b >Ollama & vLLM & Lmdeploy</b >
1154
+ > <b >Ollama & vLLM & Lmdeploy & SGLang </b >
1155
1155
1156
1156
- Ollama 适合个人用户,可以直接集成到 dify。
1157
1157
- vLLM 适合大规模高并发环境(速度比 Ollama 快 2~ 3 倍),可以直接集成到 dify。
1158
1158
- Lmdeploy 性能也很不错
1159
+ - SGLang 据说性能比 vLLM 强
1159
1160
1160
1161
## Ollama
1161
1162
You can’t perform that action at this time.
0 commit comments