feature: support gemini multimodal output #2197

Laisky · 2025-03-17T01:56:06Z

功能

支持 gemini multi-modal 输出，简而言之就是可以输出文字和图片

顺手也更新了一下 groq 和 replicate 的模型列表和价格。

分歧越来越大，越来越难合并了，可以使用 https://github.com/Laisky/one-api

自测

closes songquanpeng#2024, closes songquanpeng#2145

…quest handling

… quota handling

… division for cost values

- Update pricing ratios and calculations for AI models in the billing system. - Introduce new constants and enhance error handling for audio token rates. - Comment out outdated pricing entries and include additional models in calculations.

…tors

…ate model ratios

…message content

… and improve streaming efficiency

…dling

ArcaneWhispers · 2025-03-20T10:15:50Z

流式输出方式有问题,无法返回图片，只返回文字。我使用的你的 https://github.com/Laisky/one-api 这里的源码。非流格式是正常的。

data: {"id":"chatcmpl-a3783a2bb1a44be5a833beeacbe51e22","object":"chat.completion.chunk","created":1742465564,"model":"gemini","choices":[{"index":0,"delta":{"role":"assistant","content":"好的"}}]}

data: {"id":"chatcmpl-b0c3b719fa5a41c1bf36f85447107d37","object":"chat.completion.chunk","created":1742465564,"model":"gemini","choices":[{"index":0,"delta":{"role":"assistant","content":"，请看这只站立在草地上的哈士奇：\n\n"}}]}

data: [DONE]

Laisky · 2025-03-20T10:31:26Z

@ArcaneWhispers 建议换用 https://github.com/Laisky/one-api 已经经过测试是可用的

两边代码差距越来越大了，这边几个月几年都合不进去，PR 难免会漏东西。

Laisky · 2025-03-20T10:44:41Z

刚才我把我那边 one-api 的最新代码全部合过来了。

ArcaneWhispers · 2025-03-20T10:47:32Z

@ArcaneWhispers 建议换用 https://github.com/Laisky/one-api 已经经过测试是可用的

两边代码差距越来越大了，这边几个月几年都合不进去，PR 难免会漏东西。

我用的就是你那边的代码，奇怪。

Laisky · 2025-03-20T10:50:20Z

@ArcaneWhispers 建议换用 https://github.com/Laisky/one-api 已经经过测试是可用的
两边代码差距越来越大了，这边几个月几年都合不进去，PR 难免会漏东西。

我用的就是你那边的代码，奇怪。

拉下最新镜像试试，你说的这个问题出现过，但是前几天就修了。

Laisky · 2025-03-20T11:19:48Z

@ArcaneWhispers 我盲猜是缓存不够导致的，返回的图片超过 1MB 就会这样。我刚把缓存改成 10MB 推了一版，镜像估计要等 3-5 分钟。晚上吃完饭我再测测。

这问题在我这不是必现，我画了 4-5 次才出现了一次。

ArcaneWhispers · 2025-03-20T11:31:03Z

@ArcaneWhispers 我盲猜是缓存不够导致的，返回的图片超过 1MB 就会这样。我刚把缓存改成 10MB 推了一版，镜像估计要等 3-5 分钟。晚上吃完饭我再测测。

这问题在我这不是必现，我画了 4-5 次才出现了一次。

感谢大佬，可以了 👍🏻。

可能我之前的提示词要求绘制3d效果图比较大，果然将buffer设置大点就可以。这里如果根据ContentLength大小动态设置大小是否更好一些。

Laisky · 2025-03-20T11:33:29Z

@ArcaneWhispers 我看了下，返回的 header 里貌似没有 content-length

closes #49

…itional models

… error handling closes #50

xuhua912 · 2025-04-01T03:21:11Z

@Laisky 使用gemini-2.0-flash-exp-image-generation编辑图片，接口格式好像不太匹配，参考Google官网的接口文档：

下面是我自己的请求，用的ppcelery/one-api:arm64-latest镜像

Laisky · 2025-04-01T03:23:34Z

@xuhua912 One-api 这个项目的意义，就在于对外提供统一的 OpenAI API 格式，所以你要使用 OpenAI 的 Completion API 格式来请求。

xuhua912 · 2025-04-01T03:29:13Z

@xuhua912 One-api 这个项目的意义，就在于对外提供统一的 OpenAI API 格式，所以你要使用 OpenAI 的 Completion API 格式来请求。

谢谢，我现在不知道编辑图片怎么请求，有OpenAI 的 Completion API 格式来编辑图片的请求参考吗，issue里面只看到了生成图片的

Laisky · 2025-04-01T04:22:16Z

@xuhua912 和 vision 一样，把图片放在历史消息里发送就行了，最好用 base64

https://platform.openai.com/docs/guides/images?api-mode=chat

xuhua912 · 2025-04-01T06:26:04Z

@xuhua912 和 vision 一样，把图片放在历史消息里发送就行了，最好用 base64

https://platform.openai.com/docs/guides/images?api-mode=chat

再次感谢，我使用OpenAI的格式，还有Gemeni官网格式，还有2者结合的格式，都失败的，需求很简单就是输入一张图片和一段文字，让接口按照文字要求修改图片，然后返回新的图片。

尝试的过程如下：
1、OpenAI格式

{
    "model":"gemini-2.0-flash-exp-image-generation",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "input_text",
                    "text": "鞋子中黑色改成灰色"
                },
                {
                    "type": "input_image",
                    "image_url": "https://img4.pconline.com.cn/pconline/images/product/20231114/15251789.jpg"
                }
            ]
        }
    ]
}

错误：

{
    "error": {
        "message": "* GenerateContentRequest.contents[0].parts: contents.parts must not be empty.\n (request id: 2025040114152143735520936330822)",
        "type": "",
        "param": "",
        "code": 400
    }
}

2、Gemini格式：

{
    "model":"gemini-2.0-flash-exp-image-generation",
    "contents": [
        {
            "parts": [
                {
                    "text": "鞋子中黑色改成灰色"
                },
                {
                    "inline_data": {
                        "mime_type": "image/png",
			            "data": "{IMG_BASE64}"
                    }
                }
            ]
        }
    ],
    "generationConfig": {"responseModalities": ["Text", "Image"]}
}

错误：

{
    "error": {
        "message": "field messages is required (request id: 2025040114195354154454362790594)",
        "type": "one_api_error",
        "param": "",
        "code": "invalid_text_request"
    }
}

3、二者结合的格式：

{
    "model":"gemini-2.0-flash-exp-image-generation",
    "messages": [
        {
            "role": "user",
		    "contents": [
		        {
		            "parts": [
		                {
		                    "text": "鞋子中黑色改成灰色"
		                },
		                {
		                    "inline_data": {
		                        "mime_type": "image/png",
			                    "data": "{IMG_BASE64}"
		                    }
		                }
		            ]
		        }
		    ],
		    "generationConfig": {"responseModalities": ["Text", "Image"]}
        }
    ]
}

错误：

{
    "error": {
        "message": "* GenerateContentRequest.contents[0].parts: contents.parts must not be empty.\n (request id: 2025040114210054259683843668900)",
        "type": "",
        "param": "",
        "code": 400
    }
}

4、另外还参考了其他issue把Gemini的版本修改为v1beta也不行：
参考链接：#1979

docker run --name laisky-one-api -d --restart always -p 4000:3000 -e TZ=Asia/Shanghai -e GEMINI_VERSION=v1beta -v /Users/xuhua/data/one-api:/data ppcelery/one-api:arm64-latest

Laisky · 2025-04-01T06:41:43Z

@xuhua912 one-api 仅提供 openai 格式，你不要加非 openai 的东西。

你去找找 gpt vision 的例子，我这会儿在外面不方便发代码

xuhua912 · 2025-04-01T07:20:00Z

@xuhua912 one-api 仅提供 openai 格式，你不要加非 openai 的东西。

你去找找 gpt vision 的例子，我这会儿在外面不方便发代码

我尝试的第一中就是OpenAI格式的（如我下面截图），能不能晚点提供一个完整的使用gemini-2.0-flash-exp-image-generation模型来编辑图片的例子，谢谢

Laisky · 2025-04-01T07:31:38Z

@xuhua912 你照着 openai vision 的格式去请求就行了，你这个肯定不是 openai 的格式，openai 哪有 input_image 这种 type，而且 image_url 是一个 object，不是 string。

这个接口功能肯定没问题，一大群人都用了快一个月了。你认认真真的照着 openai 的格式去请求，不要自己改字段。

https://platform.openai.com/docs/guides/images?api-mode=chat&format=base64-encoded

你可以拿 openai vision 去调试，vision 能通 gemini 的重绘肯定能通，有问题你再找我。

如果 vision 都调不通就别找我了

xuhua912 · 2025-04-01T08:39:27Z

@xuhua912 你照着 openai vision 的格式去请求就行了，你这个肯定不是 openai 的格式，openai 哪有 input_image 这种 type，而且 image_url 是一个 object，不是 string。

这个接口功能肯定没问题，一大群人都用了快一个月了。你认认真真的照着 openai 的格式去请求，不要自己改字段。

https://platform.openai.com/docs/guides/images?api-mode=chat&format=base64-encoded

你可以拿 openai vision 去调试，vision 能通 gemini 的重绘肯定能通，有问题你再找我。

如果 vision 都调不通就别找我了

大佬，首先表明态度，我是在认真提问题想解决问题，不是在找茬。
我现在用OpenAI的格式，同样格式使用gpt-4o-mini，能正常返回结果（完全参考你发的OpenAI官方的，只是图片地址和提示词换了），只是只能返回文字不能返回图片，在这个基础上只修改model字段为gemini-2.0-flash-exp-image-generation就又报错了，所以你说了其他人用了一个多月了，能否给一个实例，谢谢。
用gpt-4o-mini正常的

用gemini-2.0-flash-exp-image-generation报错的

在oneapi的渠道测试，2个都是连通的

Laisky · 2025-04-01T08:52:39Z

@xuhua912 这是你第一次提供正确的请求体，前面发的都是错误的。但是你请求 gemeni 的时候把图片换 base64 试试，我怀疑 one-api 里可能没自动帮你转成 b64。

我今天在外面，用手机没法给你发代码。

xuhua912 · 2025-04-01T09:23:58Z

@xuhua912 这是你第一次提供正确的请求体，前面发的都是错误的。但是你请求 gemeni 的时候把图片换 base64 试试，我怀疑 one-api 里可能没自动帮你转成 b64。

我今天在外面，用手机没法给你发代码。

用base64，看了下OpenAI官网，只有python和JS版本，curl版本还是给的url，但还是用base64丢进去试了下，报：

{
    "error": {
        "message": "token not found: record not found (request id: 2025040117191070800625941961797)",
        "type": "one_api_error"
    }
}

请求格式

{
    "model": "gemini-2.0-flash-exp-image-generation",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "鞋子中黑色改成灰色"
          },
          {
            "type": "image_url",
            "image_url": {
                "url": "data:image/png;base64,SOWUNVtf2bYuytoPOQsvohr4H...............",
            },
        ]
      }
    ]
}

Laisky · 2025-04-01T10:02:10Z

@xuhua912

我回家试了下，这请求没问题。

你报错 token not found 是因为 token 不存在，你 API KEY 肯定用错了。

{
    "model": "gemini-2.0-flash-exp-image-generation",
    "max_tokens": 2048,
    "stream": false,
    "top_p": 0.9,
    "temperature": 0.9,
    "messages": [
        {
            "role": "system",
            "content": "you are a AI assistant"
        },
        {
            "role": "user",
                "content": [
                    {
                        "type": "text",
                        "text": "add another fish"
                    },
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": "data:image/png;base64,xxxxxxx"
                        }
                    }
                ]
        }
    ]
}

Laisky · 2025-04-01T10:15:56Z

@xuhua912 顺带修了一个小 BUG。

你之前传 URL 不行是因为你这个图片的 content-type 不是 image/ 开头的，而是 application/ 开头的。我把这个限制去掉了。

3547d09

xuhua912 · 2025-04-02T06:27:48Z

@xuhua912 顺带修了一个小 BUG。

你之前传 URL 不行是因为你这个图片的 content-type 不是 image/ 开头的，而是 application/ 开头的。我把这个限制去掉了。

3547d09

没有太理解您的意思，我在http请求头Content-Type是application/json，在body的JSON里面是这样：

{
	"model": "gemini-2.0-flash-exp-image-generation",
	"messages": [{
		"role": "user",
		"content": [{
				"type": "text",
				"text": "鞋子中黑色改成灰色"
			},
			{
				"type": "image_url",
				"image_url": {
					"url": "data:image/png;base64,SOWUNVtf2bYuy...................."
				}
			}
		]
	}]
}

报错：

{
    "error": {
        "message": " (request id: 2025040214202898297088301997267)",
        "type": "upstream_error",
        "param": "400",
        "code": "bad_response_status_code"
    }
}

one-api的渠道配置截图：

Laisky · 2025-04-02T07:38:46Z

@xuhua912 现在没问题了吧

xuhua912 · 2025-04-03T01:48:16Z

@xuhua912 现在没问题了吧

还有问题，就是我昨天发的问题，这个接口有测试成功过吗，我是各种都试过了都不行

Laisky · 2025-04-03T02:29:05Z

@xuhua912 我没试过 gemini(openai) 的，你换 gemini 吧，如果还出错的话把 one-api 服务器日志发出来看看是什么问题。

这接口从发布到现在每天都有人用，还没出过问题。

xuhua912 · 2025-04-03T08:38:15Z

@xuhua912 我没试过 gemini(openai) 的，你换 gemini 吧，如果还出错的话把 one-api 服务器日志发出来看看是什么问题。

这接口从发布到现在每天都有人用，还没出过问题。

gemini的接口，我用了生成图片是OK的，但是传入图片重绘是不可用的，请问你说的每天都有人用，是用的生图还是重绘场景？
下面分别给了正常和报错的情况，请帮忙再看下

1、生图接口正常

2、重绘接口报错

Laisky · 2025-04-03T09:03:34Z

@xuhua912 绘图和重绘每天都有人用，从未出过问题。

从你提供的错误提示来看，你似乎提供了一个错误的 base64 编码。

这种问题你完全没必要找我，错误代码里很清晰地告诉你了，Base64 decoding failed，你找我有什么用呢？你又没给我提供完整的 base64 编码，我能知道你编码是对的还是错的吗？

目前为止你提供的代码都是有各种各样的错误，建议你多找找自己的问题，不要上来就质疑服务端有问题，我们讨论了这么多天，没任何一个问题是服务端导致的。

再次给你证明，重绘功能是没问题的，建议你认真审阅自己的代码，认真调试

Laisky added 21 commits February 19, 2025 01:20

feat: support OpenRouter reasoning

480f248

feat: enhance reasoning token handling in OpenAI adaptor

5ba6043

fix: improve reasoning token counting in OpenAI adaptor

1a68121

feat: add OpenrouterProviderSort configuration for provider sorting

7ec3379

feat: update model list and pricing for Claude 3.7 versions

95527d7

feat: add support for extended reasoning in Claude 3.7 model

3a8924d

fix: claude thinking for non-stream mode

c61d644

feat: add support for aws's cross region inferences

de10e10

closes songquanpeng#2024, closes songquanpeng#2145

fix: support thinking for aws claude

a0d7d5a

fix: update StreamHandler to support cross-region model IDs for AWS

6e634b8

feat: support openai websearch models

413fcde

fix: add support for OpenAI web search models in documentation and re…

76e8199

…quest handling

fix: update cost calculation to use QuotaPerUsd for search context sizes

ad63c9e

fix: refactor cost calculation logic for web-search tools and improve…

6708eed

… quota handling

fix: update model ratio calculations to use multiplication instead of…

969fdca

… division for cost values

fix: improve error handling in pricing model calculations

bbfaf1f

fix: update model lists to include new and revised models across adap…

c893672

…tors

feat: enhance Gemini API to support image response modalities and upd…

34c7523

…ate model ratios

fix: update text handling to ensure nil checks and pointer usage for …

d236477

…message content

feat: enhance Gemini response handling to support mixed content types…

eaef962

… and improve streaming efficiency

github-actions bot mentioned this pull request Mar 18, 2025

[Upstream] feature: support gemini multimodal output Sagit-chu/one-api#2

Open

Laisky added 2 commits March 19, 2025 00:41

fix: integrate Gemini v2 modalities support and refactor response han…

c426b64

…dling

fix: update chat completion choices to allow zero as a valid option

761ee32

feat: batch update with laisky's one-api

b2d6aa7

Laisky added 5 commits March 26, 2025 02:36

feat: support gemini-2.5-pro

4e2430e

fix: update default return value in GetModelRatio function

638a4fb

fix: update URL format in LogsTable component for self log retrieval

5f6b515

closes #49

fix: extend model check in GetModelModalities function to include add…

e6d70c8

…itional models

feat: add ForceEmailTLSVerify configuration and improve email sending…

be0f639

… error handling closes #50

CaiCandong and others added 3 commits April 1, 2025 10:16

fix

ecadb19

fix: improve error handling for image URL fetching and validation

747e848

fix: enhance image URL validation and error handling

16ddc0a

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feature: support gemini multimodal output #2197

feature: support gemini multimodal output #2197

Laisky commented Mar 17, 2025 •

edited

Loading

ArcaneWhispers commented Mar 20, 2025 •

edited

Loading

Laisky commented Mar 20, 2025 •

edited

Loading

Laisky commented Mar 20, 2025

ArcaneWhispers commented Mar 20, 2025

Laisky commented Mar 20, 2025

Laisky commented Mar 20, 2025 •

edited

Loading

ArcaneWhispers commented Mar 20, 2025

Laisky commented Mar 20, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025 •

edited

Loading

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025 •

edited

Loading

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 2, 2025

Laisky commented Apr 2, 2025

xuhua912 commented Apr 3, 2025

Laisky commented Apr 3, 2025 •

edited

Loading

xuhua912 commented Apr 3, 2025

Laisky commented Apr 3, 2025 •

edited

Loading

feature: support gemini multimodal output #2197

Are you sure you want to change the base?

feature: support gemini multimodal output #2197

Conversation

Laisky commented Mar 17, 2025 • edited Loading

功能

自测

ArcaneWhispers commented Mar 20, 2025 • edited Loading

Laisky commented Mar 20, 2025 • edited Loading

Laisky commented Mar 20, 2025

ArcaneWhispers commented Mar 20, 2025

Laisky commented Mar 20, 2025

Laisky commented Mar 20, 2025 • edited Loading

ArcaneWhispers commented Mar 20, 2025

Laisky commented Mar 20, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025 • edited Loading

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025 • edited Loading

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 1, 2025

Laisky commented Apr 1, 2025

Laisky commented Apr 1, 2025

xuhua912 commented Apr 2, 2025

Laisky commented Apr 2, 2025

xuhua912 commented Apr 3, 2025

Laisky commented Apr 3, 2025 • edited Loading

xuhua912 commented Apr 3, 2025

Laisky commented Apr 3, 2025 • edited Loading

Laisky commented Mar 17, 2025 •

edited

Loading

ArcaneWhispers commented Mar 20, 2025 •

edited

Loading

Laisky commented Mar 20, 2025 •

edited

Loading

Laisky commented Mar 20, 2025 •

edited

Loading

Laisky commented Apr 1, 2025 •

edited

Loading

Laisky commented Apr 1, 2025 •

edited

Loading

Laisky commented Apr 3, 2025 •

edited

Loading

Laisky commented Apr 3, 2025 •

edited

Loading