Skip to content

Latest commit

 

History

History
44 lines (34 loc) · 3.12 KB

day04.md

File metadata and controls

44 lines (34 loc) · 3.12 KB

DAY4:【眼看喜】让你的LLM拥有眼睛

1. 玩上视觉模型的4种方法

在comfyui LLM party中,有4种使用视觉大模型(VLM)的方法:

2. 使用gpt-4o-mini来查看图片

这个是最简单的方法,你只需把这个工作流拖进comfyui,然后填入你的API key和base URL就行:GPT-4o

图片

3. 使用ollama中的VLM查看图片

  1. 首先你需要下载ollama
  2. 查看minicpm-v,将命令行复制到CMD中,下载模型到本地。参考DAY2中的内容。
  3. 然后你只需把这个工作流拖进comfyui:minicpm-v-ollama,然后就能看到如下画面。

图片

4. 使用GGUF格式的VLM模型查看图片

  1. 下面,我们以xtuner/llava-llama-3-8b-v1_1-gguf为例,你可以点击链接下载如下两个GGUF模型:

图片

  1. 将箭头所指的模型放到任意位置,但推荐放到comfyui_LLM_party\model\VLM-GGUF路径下,这样可以被简易加载器直接搜索到。
  2. 将这个工作流拖入comfyui:VLM-GGUF,然后你会看到如下画面:

图片

  1. 将你下载好的两个模型文件: llava-llama-3-8b-v1_1-int4.gguf 放到ckpt_path中, llava-llama-3-8b-v1_1-mmproj-f16.gguf 放到clip_path中.
  2. 点击Queue即可运行!

5. 使用分散格式的VLM模型查看图片

  1. 目前party还只支持了meta-llama/Llama-3.2-11B-Vision-Instruct 这个分散格式的VLM模型。你可以在huggingface或魔塔社区下载。可以放到任意位置,但推荐放comfyui_LLM_party\model\VLM路径下,这样可以被简易加载器直接搜索到。
  2. 将这个工作流拖入comfyui: start_with_VLM_local

图片

  1. 将你的模型文件夹的绝对路径复制到VLM本地加载器节点的model_path属性中。
  2. 点击Queue即可运行!

6. 今日成就

恭喜你达成成就:【获得大模型根器:眼看喜】