Thinking support for gemini and mapping/conversion for OpenAI's reasoning effort (configurable via a config file)

peterbanda · peterbanda · commit 2b4a9098c932 · 2025-11-23T00:22:24.000+01:00
diff --git a/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/JsonFormats.scala b/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/JsonFormats.scala
@@ -1,5 +1,6 @@
 package io.cequence.openaiscala.gemini
 
+import com.typesafe.scalalogging.Logger
 import io.cequence.openaiscala.OpenAIScalaClientException
 import io.cequence.openaiscala.gemini.domain.Expiration.{ExpireTime, TTL}
 import io.cequence.openaiscala.gemini.domain.response._
@@ -11,11 +12,14 @@ import io.cequence.wsclient.JsonUtil
 import io.cequence.wsclient.JsonUtil.enumFormat
 import play.api.libs.functional.syntax._
 import play.api.libs.json._
+import org.slf4j.LoggerFactory
 
 object JsonFormats extends JsonFormats
 
 trait JsonFormats {
 
+  private val logger: Logger = Logger(LoggerFactory.getLogger(this.getClass))
+
   // Content and Parts
   implicit val chatRoleFormat: Format[ChatRole] = enumFormat(ChatRole.values: _*)
 
@@ -60,19 +64,32 @@ trait JsonFormats {
   }
 
   implicit val partReads: Reads[Part] = { (json: JsValue) =>
-    json.validate[JsObject].map { (jsonObject: JsObject) =>
-      assert(jsonObject.fields.size == 1)
-      val (prefixFieldName, prefixJson) = jsonObject.fields.head
+    json.validate[JsObject].flatMap { (jsonObject: JsObject) =>
+      // Filter out the thoughtSignature field if present (used for thinking blocks)
+      val fields = jsonObject.fields.filterNot(_._1 == "thoughtSignature")
 
-      PartPrefix.of(prefixFieldName) match {
-        case PartPrefix.text                => json.as[Part.Text]
-        case PartPrefix.inlineData          => prefixJson.as[Part.InlineData]
-        case PartPrefix.functionCall        => prefixJson.as[Part.FunctionCall]
-        case PartPrefix.functionResponse    => prefixJson.as[Part.FunctionResponse]
-        case PartPrefix.fileData            => prefixJson.as[Part.FileData]
-        case PartPrefix.executableCode      => prefixJson.as[Part.ExecutableCode]
-        case PartPrefix.codeExecutionResult => prefixJson.as[Part.CodeExecutionResult]
-        case _ => throw new OpenAIScalaClientException(s"Unknown part type: $prefixFieldName")
+      if (fields.isEmpty) {
+        JsError("Part object has no fields after filtering thoughtSignature")
+      } else {
+        // Warn if there are multiple fields (unexpected structure)
+        if (fields.size > 1) {
+          logger.warn(
+            s"Part object has ${fields.size} fields (expected 1): ${fields.map(_._1).mkString(", ")}. Using first field."
+          )
+        }
+
+        val (prefixFieldName, prefixJson) = fields.head
+
+        PartPrefix.of(prefixFieldName) match {
+          case PartPrefix.text                => json.validate[Part.Text]
+          case PartPrefix.inlineData          => prefixJson.validate[Part.InlineData]
+          case PartPrefix.functionCall        => prefixJson.validate[Part.FunctionCall]
+          case PartPrefix.functionResponse    => prefixJson.validate[Part.FunctionResponse]
+          case PartPrefix.fileData            => prefixJson.validate[Part.FileData]
+          case PartPrefix.executableCode      => prefixJson.validate[Part.ExecutableCode]
+          case PartPrefix.codeExecutionResult => prefixJson.validate[Part.CodeExecutionResult]
+          case _ => JsError(s"Unknown part type: $prefixFieldName")
+        }
       }
     }
   }
@@ -219,6 +236,10 @@ trait JsonFormats {
     Format(speechConfigReads, speechConfigWrites)
 
   implicit val modalityFormat: Format[Modality] = enumFormat(Modality.values: _*)
+  implicit val thinkingLevelFormat: Format[ThinkingLevel] = enumFormat(
+    ThinkingLevel.values: _*
+  )
+  implicit val thinkingConfigFormat: Format[ThinkingConfig] = Json.format[ThinkingConfig]
   implicit val generationConfigFormat: Format[GenerationConfig] = Json.format[GenerationConfig]
 
   // Grounding Attribution and Metadata
diff --git a/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/domain/response/GenerateContentResponse.scala b/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/domain/response/GenerateContentResponse.scala
@@ -225,6 +225,8 @@ case class CitationSource(
  *   Total number of tokens across all the generated response candidates.
  * @param totalTokenCount
  *   Total token count for the generation request (prompt + response candidates).
+ * @param thoughtsTokenCount
+ *   Optional. Number of tokens used for thinking/reasoning when thinkingConfig is enabled.
  * @param promptTokensDetails
  *   Output only. List of modalities that were processed in the request input.
  * @param cacheTokensDetails
@@ -237,6 +239,7 @@ case class UsageMetadata(
   cachedContentTokenCount: Option[Int] = None,
   candidatesTokenCount: Option[Int] = None,
   totalTokenCount: Int,
+  thoughtsTokenCount: Option[Int] = None,
   promptTokensDetails: Seq[ModalityTokenCount] = Nil,
   cacheTokensDetails: Seq[ModalityTokenCount] = Nil,
   candidatesTokensDetails: Seq[ModalityTokenCount] = Nil
diff --git a/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/domain/settings/GenerationConfig.scala b/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/domain/settings/GenerationConfig.scala
@@ -1,6 +1,6 @@
 package io.cequence.openaiscala.gemini.domain.settings
 
-import io.cequence.openaiscala.gemini.domain.{Modality, Schema}
+import io.cequence.openaiscala.gemini.domain.{Modality, Schema, ThinkingLevel}
 
 case class GenerationConfig(
   stopSequences: Option[Seq[String]] = None,
@@ -18,7 +18,8 @@ case class GenerationConfig(
   responseLogprobs: Option[Boolean] = None,
   logprobs: Option[Int] = None,
   enableEnhancedCivicAnswers: Option[Boolean] = None,
-  speechConfig: Option[SpeechConfig] = None
+  speechConfig: Option[SpeechConfig] = None,
+  thinkingConfig: Option[ThinkingConfig] = None
 )
 
 sealed trait SpeechConfig
@@ -30,3 +31,22 @@ object SpeechConfig {
 }
 
 case class PrebuiltVoiceConfig(voiceName: String)
+
+/**
+ * Config for thinking features.
+ *
+ * @param includeThoughts
+ *   Indicates whether to include thoughts in the response. If true, thoughts are returned only
+ *   when available. Value between 128 and 32768.
+ * @param thinkingBudget
+ *   The number of thought tokens that the model should generate.
+ * @param thinkingLevel
+ *   Controls the maximum depth of the model's internal reasoning process before it produces a
+ *   response. If not specified, the default is HIGH. Recommended for Gemini 3 or later models.
+ *   Use with earlier models results in an error.
+ */
+case class ThinkingConfig(
+  includeThoughts: Option[Boolean] = None,
+  thinkingBudget: Option[Int] = None,
+  thinkingLevel: Option[ThinkingLevel] = None
+)
diff --git a/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/service/impl/OpenAIGeminiChatCompletionService.scala b/google-gemini-client/src/main/scala/io/cequence/openaiscala/gemini/service/impl/OpenAIGeminiChatCompletionService.scala
@@ -10,15 +10,18 @@ import io.cequence.openaiscala.domain.response.{
   ChatCompletionChunkResponse,
   ChatCompletionResponse,
   ChunkMessageSpec,
+  CompletionTokenDetails,
   PromptTokensDetails,
   UsageInfo => OpenAIUsageInfo
 }
-import io.cequence.openaiscala.domain.settings.CreateChatCompletionSettings
+import io.cequence.openaiscala.domain.settings.{CreateChatCompletionSettings, ReasoningEffort}
 import io.cequence.openaiscala.domain.{
   AssistantMessage,
   BaseMessage,
   DeveloperMessage,
   ImageURLContent,
+  JsonSchema,
+  NonOpenAIModelId,
   SystemMessage,
   TextContent,
   UserMessage,
@@ -31,18 +34,19 @@ import io.cequence.openaiscala.gemini.domain.response.{GenerateContentResponse,
 import io.cequence.openaiscala.gemini.domain.settings.CreateChatCompletionSettingsOps._
 import io.cequence.openaiscala.gemini.domain.settings.{
   GenerateContentSettings,
-  GenerationConfig
+  GenerationConfig,
+  ThinkingConfig
 }
 import io.cequence.openaiscala.gemini.domain.{CachedContent, ChatRole, Content, Part}
 import io.cequence.openaiscala.gemini.service.GeminiService
 import io.cequence.openaiscala.service.{
+  HasOpenAIConfig,
   OpenAIChatCompletionService,
   OpenAIChatCompletionStreamedServiceExtra
 }
 
 import scala.concurrent.{ExecutionContext, Future}
 import io.cequence.openaiscala.domain.settings.ChatCompletionResponseFormatType
-import io.cequence.openaiscala.domain.JsonSchema
 import io.cequence.openaiscala.gemini.domain.Schema
 import com.typesafe.scalalogging.Logger
 import io.cequence.openaiscala.gemini.domain.SchemaType
@@ -55,7 +59,8 @@ private[service] class OpenAIGeminiChatCompletionService(
 )(
   implicit executionContext: ExecutionContext
 ) extends OpenAIChatCompletionService
-    with OpenAIChatCompletionStreamedServiceExtra {
+    with OpenAIChatCompletionStreamedServiceExtra
+    with HasOpenAIConfig {
 
   protected val logger: Logger = Logger(LoggerFactory.getLogger(this.getClass))
 
@@ -266,7 +271,11 @@ private[service] class OpenAIGeminiChatCompletionService(
           responseLogprobs = settings.logprobs,
           logprobs = settings.top_logprobs,
           enableEnhancedCivicAnswers = None,
-          speechConfig = None
+          speechConfig = None,
+          thinkingConfig = toThinkingConfig(
+            settings.model,
+            settings.reasoning_effort
+          )
         )
       ),
       cachedContent = None
@@ -292,7 +301,7 @@ private[service] class OpenAIGeminiChatCompletionService(
         logger.warn(s"OpenAI param '$fieldName' is not yet supported by Gemini. Skipping...")
       }
 
-    notSupported(_.reasoning_effort, "reasoning_effort")
+    // reasoning_effort is now supported via thinkingConfig conversion
     notSupported(_.service_tier, "service_tier")
     notSupported(_.parallel_tool_calls, "parallel_tool_calls")
     notSupportedCollection(_.metadata, "metadata")
@@ -301,6 +310,64 @@ private[service] class OpenAIGeminiChatCompletionService(
     notSupported(_.store, "store")
   }
 
+  /**
+   * Converts OpenAI's reasoning_effort to Gemini's ThinkingConfig using the configured
+   * mapping.
+   *
+   * @param reasoningEffort
+   *   The reasoning effort level from OpenAI settings
+   * @return
+   *   ThinkingConfig with appropriate thinkingBudget, or None if reasoning_effort is None
+   */
+  private def toThinkingConfig(
+    model: String,
+    reasoningEffort: Option[ReasoningEffort]
+  ): Option[ThinkingConfig] = {
+    import io.cequence.wsclient.ConfigImplicits._
+
+    reasoningEffort.flatMap { effort =>
+      val effortKey = effort.toString.toLowerCase
+      val configPath =
+        s"$configPrefix.reasoning-effort-thinking-budget-mapping.$effortKey.gemini"
+
+      clientConfig
+        .optionalInt(configPath)
+        .flatMap { budget =>
+          logger.debug(
+            s"Converting reasoning effort '$effortKey' to thinking budget: $budget"
+          )
+
+          // budget = 0 has different meanings:
+          // - For 2.5 Pro: 0 is out of range (min is 128), so we cannot turn it off completely, therefore
+          // setting it the minimal budget of 128
+          val budgetFinal =
+            if (
+              budget == 0 && (
+                model.startsWith(NonOpenAIModelId.gemini_3_pro) ||
+                  model.startsWith(NonOpenAIModelId.gemini_2_5_pro)
+              )
+            )
+              128
+            else
+              budget
+
+          Some(
+            ThinkingConfig(
+              includeThoughts = Some(false), // typically don't include thoughts in response
+              thinkingBudget = Some(budgetFinal),
+              thinkingLevel = None // let budget control the thinking depth
+            )
+          )
+        }
+        .orElse {
+          logger.warn(
+            s"No thinking budget mapping found for reasoning effort '$effortKey' in config path: $configPath"
+          )
+          None
+        }
+    }
+  }
+
   private def toGeminiJSONSchema(
     jsonSchema: JsonSchema
   ): Schema = jsonSchema match {
@@ -454,7 +521,14 @@ private[service] class OpenAIGeminiChatCompletionService(
           cached_tokens = usageMetadata.cachedContentTokenCount.getOrElse(0),
           audio_tokens = None
         )
-      )
+      ),
+      completion_tokens_details = usageMetadata.thoughtsTokenCount.map { thinkingTokens =>
+        CompletionTokenDetails(
+          reasoning_tokens = thinkingTokens,
+          accepted_prediction_tokens = None,
+          rejected_prediction_tokens = None
+        )
+      }
     )
 
   /**
diff --git a/openai-client/src/main/resources/openai-scala-client.conf b/openai-client/src/main/resources/openai-scala-client.conf
@@ -66,7 +66,9 @@ openai-scala-client {
         # Moonshot AI
         "moonshotai/kimi-k2-instruct",
         "moonshotai/kimi-k2-instruct-0905",
-        # Gemini 2.5
+        # Gemini 2.5 / 3
+        "gemini-3-pro",
+        "gemini-3-pro-preview",
         "gemini-2.5-pro",
         "gemini-2.5-pro-preview-06-05",
         "gemini-2.5-pro-preview-05-06",
@@ -98,6 +100,14 @@ openai-scala-client {
         "gemini-1.5-pro-latest",
         "gemini-exp-1206",
         # Grok
+        "grok-4-1-fast-reasoning",
+        "grok-4-1-fast-non-reasoning",
+        "grok-4",
+        "grok-4-latest",
+        "grok-4-0709",
+        "grok-4-fast-reasoning",
+        "grok-4-fast-non-reasoning",
+        "grok-code-fast-1",
         "grok-2",
         "grok-2-1212",
         "grok-2-latest",
@@ -112,12 +122,45 @@ openai-scala-client {
         "grok-3-mini-latest",
         "grok-3-mini-fast",
         "grok-3-mini-fast-beta",
-        "grok-3-mini-fast-latest",
-        "grok-4",
-        "grok-4-latest",
-        "grok-4-0709",
-        "grok-4-fast-reasoning",
-        "grok-4-fast-non-reasoning",
-        "grok-code-fast-1"
+        "grok-3-mini-fast-latest"
     ]
+
+    reasoning-effort-thinking-budget-mapping {
+        # No explicit extended thinking
+        none {
+            # Gemini:
+            # - 2.5 Flash / Flash-Lite: 0 = disable thinking
+            # - 2.5 Pro: 0 is out of range (128–32768), so your code should clamp to 128 or skip setting thinking_budget.
+            gemini = 0
+
+            # Anthropic:
+            # 0 = sentinel meaning "don't enable extended thinking at all"
+            # (omit the `thinking` block instead of sending budget_tokens=0).
+            anthropic = 0
+        }
+
+        # Quick replies, simple Q&A, light code edits, low cost/latency
+        minimal {
+            gemini = 256          # above Pro's min of 128
+            anthropic = 1024      # Anthropic min is 1024
+        }
+
+        # Normal app usage, small multi-step reasoning, short RAG answers
+        low {
+            gemini = 1024
+            anthropic = 2048
+        }
+
+        # Heavier reasoning, multi-step analysis, non-trivial debugging, multi-page doc Q&A
+        medium {
+            gemini = 4096
+            anthropic = 4096
+        }
+
+        # Hard problems: complex codebases, intricate math, multi-doc reasoning
+        high {
+            gemini = 8192
+            anthropic = 8192
+        }
+    }
 }
diff --git a/openai-client/src/main/scala/io/cequence/openaiscala/service/OpenAIServiceFactoryHelper.scala b/openai-client/src/main/scala/io/cequence/openaiscala/service/OpenAIServiceFactoryHelper.scala
@@ -9,7 +9,7 @@ import io.cequence.wsclient.service.ws.Timeouts
 
 import scala.concurrent.ExecutionContext
 
-trait OpenAIServiceFactoryHelper[F] extends OpenAIServiceConsts {
+trait OpenAIServiceFactoryHelper[F] extends OpenAIServiceConsts with HasOpenAIConfig {
 
   def apply(
     apiKey: String,
@@ -33,7 +33,7 @@ trait OpenAIServiceFactoryHelper[F] extends OpenAIServiceConsts {
     implicit ec: ExecutionContext,
     materializer: Materializer
   ): F =
-    apply(loadDefaultConfig)
+    apply(clientConfig)
 
   def apply(
     config: Config