2.4 KiB
2.4 KiB
Google Gemini API: maxOutputTokens パラメータ仕様
Source: https://ai.google.dev/api/generate-content
Source (thinking): https://ai.google.dev/gemini-api/docs/thinking
Source (Gemini 2.5 Flash): https://ai.google.dev/gemini-api/docs/models/gemini-2.5-flash
Source (Gemini 2.5 Pro): https://ai.google.dev/gemini-api/docs/models/gemini-2.5-pro
Retrieved: 2026-04-28
1. パラメータ名と位置
generationConfig.maxOutputTokens
リクエストボディのトップレベルではなく、generationConfig オブジェクト内に配置する。
SDK では GenerateContentConfig(max_output_tokens=...) として渡す。
2. 必須 / 任意
任意 (optional)。省略時はモデルのデフォルト上限が適用される。
3. 型と範囲
- 型:
integer - モデル別の最大値:
gemini-2.5-flash: 最大 65,536 トークンgemini-2.5-pro: 最大 65,536 トークン
- 最小値の公式明記はないが、正の整数を指定する。
4. thinking トークンとの関係
maxOutputTokensが制限するのは最終レスポンスの出力トークン数のみ。thinking トークンはusageMetadata.thoughtsTokenCountとして別途計上され、maxOutputTokensのカウントには含まれない。- thinking トークンの制御には
generationConfig.thinkingConfig.thinkingBudgetを用いる。- Gemini 2.5 Flash / Pro:
128〜32768トークン、0で thinking 無効化(モデルによる)、-1で動的
- Gemini 2.5 Flash / Pro:
- 課金は「output tokens + thinking tokens」の合算。
maxOutputTokensとthinkingBudgetは独立したパラメータであり、両方を同時に指定できる。
注意: 2025年10月時点で
gemini-2.5-flashにおいてmax_output_tokensが無視されるバグが報告されており、Google 側が修正をロールアウトした経緯がある。最新モデルで想定通りに機能するか実測で確認することを推奨。
5. ドキュメント URL
- API リファレンス (GenerationConfig): https://ai.google.dev/api/generate-content#v1beta.GenerationConfig
- Thinking ガイド: https://ai.google.dev/gemini-api/docs/thinking
- Gemini 2.5 Flash モデル仕様: https://ai.google.dev/gemini-api/docs/models/gemini-2.5-flash
- Gemini 2.5 Pro モデル仕様: https://ai.google.dev/gemini-api/docs/models/gemini-2.5-pro