OpenAI - grader functions/endpoints added: runGrader, validateGrader with examples

peterbanda · peterbanda · commit fcd5f5b38968 · 2025-11-02T21:32:32.000+01:00
diff --git a/openai-client/src/main/scala/io/cequence/openaiscala/service/impl/EndPoint.scala b/openai-client/src/main/scala/io/cequence/openaiscala/service/impl/EndPoint.scala
@@ -26,6 +26,7 @@ object EndPoint {
   case object vector_stores extends EndPoint
   case object runs extends EndPoint
   case object responses extends EndPoint
+  case object graders extends EndPoint("fine_tuning/alpha/graders")
 }
 
 sealed abstract class Param(value: String = "") extends NamedEnumValue(value)
diff --git a/openai-client/src/main/scala/io/cequence/openaiscala/service/impl/OpenAIGraderServiceImpl.scala b/openai-client/src/main/scala/io/cequence/openaiscala/service/impl/OpenAIGraderServiceImpl.scala
@@ -0,0 +1,55 @@
+package io.cequence.openaiscala.service.impl
+
+import io.cequence.openaiscala.OpenAIScalaClientException
+import io.cequence.openaiscala.domain.graders.Grader
+import io.cequence.openaiscala.domain.graders.JsonFormats._
+import io.cequence.openaiscala.service.OpenAIGraderService
+import io.cequence.wsclient.JsonUtil.StringAnyMapFormat
+import io.cequence.wsclient.ResponseImplicits._
+import play.api.libs.json.{JsObject, Json}
+
+import scala.concurrent.Future
+
+trait OpenAIGraderServiceImpl extends OpenAIGraderService with OpenAIServiceWSBase {
+
+  override def runGrader(
+    grader: Grader,
+    modelSample: String,
+    item: Map[String, Any]
+  ): Future[String] = {
+    val body = Json.obj(
+      "grader" -> Json.toJson(grader),
+      "model_sample" -> modelSample,
+      "item" -> Json.toJson(item)(StringAnyMapFormat)
+    )
+
+    execPOSTBody(
+      EndPoint.graders,
+      endPointParam = Some("run"),
+      body = body
+    ).map(_.string)
+  }
+
+  override def validateGrader(
+    grader: Grader
+  ): Future[Grader] = {
+    val body = Json.obj(
+      "grader" -> Json.toJson(grader)
+    )
+
+    execPOSTBody(
+      EndPoint.graders,
+      endPointParam = Some("validate"),
+      body = body
+    ).map { response =>
+      val json = response.asSafeJson[JsObject]
+      (json \ "grader").asOpt[Grader] match {
+        case Some(validatedGrader) => validatedGrader
+        case None =>
+          throw new OpenAIScalaClientException(
+            s"Validated grader not found in response. The response JSON: ${json}"
+          )
+      }
+    }
+  }
+}
diff --git a/openai-client/src/main/scala/io/cequence/openaiscala/service/impl/OpenAIServiceImpl.scala b/openai-client/src/main/scala/io/cequence/openaiscala/service/impl/OpenAIServiceImpl.scala
@@ -30,6 +30,7 @@ import scala.util.{Failure, Success, Try}
 private[service] trait OpenAIServiceImpl
     extends OpenAICoreServiceImpl
     with OpenAIResponseServiceImpl
+    with OpenAIGraderServiceImpl
     with OpenAIService
     with HandleOpenAIErrorCodes { // TODO: should HandleOpenAIErrorCodes be here?
 
diff --git a/openai-core/src/main/scala/io/cequence/openaiscala/service/OpenAIGraderService.scala b/openai-core/src/main/scala/io/cequence/openaiscala/service/OpenAIGraderService.scala
@@ -0,0 +1,66 @@
+package io.cequence.openaiscala.service
+
+import io.cequence.openaiscala.domain.graders.Grader
+import scala.concurrent.Future
+
+/**
+ * Service interface for OpenAI Graders API endpoints.
+ *
+ * The Graders API provides a way to evaluate model outputs against specific criteria using
+ * graders.
+ *
+ *   - Available Functions:
+ *
+ * '''Run Grader'''
+ *   - [[runGrader]] - Runs a grader to evaluate a model sample against a dataset item
+ *   - [[https://platform.openai.com/docs/api-reference/graders/run API Doc]]
+ *
+ * '''Validate Grader'''
+ *   - [[validateGrader]] - Validates a grader
+ *   - [[https://platform.openai.com/docs/api-reference/graders/validate API Doc]]
+ *
+ * @see
+ *   <a href="https://platform.openai.com/docs/api-reference/graders">OpenAI Responses API
+ *   Doc</a>
+ */
+trait OpenAIGraderService extends OpenAIServiceConsts {
+
+  /**
+   * Runs a grader to evaluate a model sample against a dataset item.
+   *
+   * @param grader
+   *   The grader configuration used for evaluation
+   * @param modelSample
+   *   The model sample to be evaluated. This value will be used to populate the sample
+   *   namespace. The output_json variable will be populated if the model sample is a valid
+   *   JSON string
+   * @param item
+   *   The dataset item provided to the grader. This will be used to populate the item
+   *   namespace
+   * @return
+   *   The evaluation result as a string
+   *
+   * @see
+   *   <a href="https://platform.openai.com/docs/api-reference/graders/run">OpenAI Doc</a>
+   */
+  def runGrader(
+    grader: Grader,
+    modelSample: String,
+    item: Map[String, Any]
+  ): Future[String]
+
+  /**
+   * Validates a grader.
+   *
+   * @param grader
+   *   The grader used for the fine-tuning job.
+   * @return
+   *   The validated grader object.
+   *
+   * @see
+   *   <a href="https://platform.openai.com/docs/api-reference/graders/validate">OpenAI Doc</a>
+   */
+  def validateGrader(
+    grader: Grader
+  ): Future[Grader]
+}
diff --git a/openai-core/src/main/scala/io/cequence/openaiscala/service/OpenAIResponsesService.scala b/openai-core/src/main/scala/io/cequence/openaiscala/service/OpenAIResponsesService.scala
@@ -19,7 +19,7 @@ import scala.concurrent.Future
  * The Responses API provides a unified interface for creating and managing model responses
  * with support for various tools including file search, web search, and custom functions.
  *
- * ==Available Functions==
+ *   - Available Functions:
  *
  * '''Create Response'''
  *   - [[createModelResponse]] - Creates a new model response from inputs with support for
diff --git a/openai-core/src/main/scala/io/cequence/openaiscala/service/OpenAIService.scala b/openai-core/src/main/scala/io/cequence/openaiscala/service/OpenAIService.scala
@@ -43,12 +43,16 @@ import scala.concurrent.Future
  *     and deleteAssistant
  *   - '''Assistant Files''': createAssistantFile, listAssistantFiles, retrieveAssistantFile,
  *     and deleteAssistantFile
- *   - ''''Responses''' - createModelResponse, getModelResponse, deleteModelResponse,
+ *   - '''Responses''': createModelResponse, getModelResponse, deleteModelResponse,
  *     cancelModelResponse, getModelResponseInputTokenCounts, and listModelResponseInputItems
+ *   - '''Graders''': runGrader, and validateGrader
  * @since Sep
  *   2024
  */
-trait OpenAIService extends OpenAICoreService with OpenAIResponsesService {
+trait OpenAIService
+    extends OpenAICoreService
+    with OpenAIResponsesService
+    with OpenAIGraderService {
 
   /**
    * Retrieves a model instance, providing basic information about the model such as the owner
diff --git a/openai-examples/src/main/scala/io/cequence/openaiscala/examples/graders/RunGrader.scala b/openai-examples/src/main/scala/io/cequence/openaiscala/examples/graders/RunGrader.scala
@@ -0,0 +1,68 @@
+package io.cequence.openaiscala.examples.graders
+
+import io.cequence.openaiscala.domain.{ChatRole, ModelId}
+import io.cequence.openaiscala.domain.graders._
+import io.cequence.openaiscala.examples.Example
+
+import scala.concurrent.Future
+
+object RunGrader extends Example {
+
+  // Only the following models are allowed:
+  // - gpt-4o-2024-08-06, gpt-4o-mini-2024-07-18,
+  // - gpt-4.1-2025-04-14, gpt-4.1-mini-2025-04-14, gpt-4.1-nano-2025-04-14,
+  // - o1-2024-12-17, o3-mini-2025-01-31, o4-mini-2025-04-16, o3-2025-04-16
+
+  // Try gpt-4o-mini first as it may have fewer restrictions
+  val gradingModel = ModelId.gpt_4o_mini_2024_07_18
+
+  def run: Future[Unit] = {
+    // Define a ScoreModelGrader to evaluate the quality of a model's response
+    val grader = ScoreModelGrader(
+      input = Seq(
+        GraderModelInput(
+          content = GraderInputContent.TextString(
+            "Rate the helpfulness of the following response on a scale from 0 to 1:"
+          ),
+          role = ChatRole.System
+        ),
+        GraderModelInput(
+          content = GraderInputContent.InputText("{{item.question}}"),
+          role = ChatRole.User
+        ),
+        GraderModelInput(
+          content = GraderInputContent.OutputText("{{sample.output_json}}"),
+          role = ChatRole.Assistant
+        )
+      ),
+      model = gradingModel,
+      name = "helpfulness_scorer",
+      range = Seq(0.0, 1.0),
+      samplingParams = Some(
+        SamplingParams(
+//          temperature = Some(0.3),
+          maxCompletionsTokens = Some(100)
+        )
+      )
+    )
+
+    // Sample model output to be evaluated
+    val modelSample = """{"answer": "The capital of France is Paris."}"""
+
+    // Dataset item containing the question
+    val item = Map[String, Any](
+      "question" -> "What is the capital of France?"
+    )
+
+    // Run the grader
+    service
+      .runGrader(
+        grader = grader,
+        modelSample = modelSample,
+        item = item
+      )
+      .map { result =>
+        println(s"Grader evaluation result: $result")
+      }
+  }
+}
diff --git a/openai-examples/src/main/scala/io/cequence/openaiscala/examples/graders/ValidateGrader.scala b/openai-examples/src/main/scala/io/cequence/openaiscala/examples/graders/ValidateGrader.scala
@@ -0,0 +1,161 @@
+package io.cequence.openaiscala.examples.graders
+
+import io.cequence.openaiscala.domain.{ChatRole, ModelId}
+import io.cequence.openaiscala.domain.graders._
+import io.cequence.openaiscala.domain.settings.ReasoningEffort
+import io.cequence.openaiscala.examples.Example
+
+import scala.concurrent.Future
+
+object ValidateGrader extends Example {
+
+  private val graders = Seq(
+    StringGrader(
+      input = "{{sample.output_json}}",
+      name = "exact_match_validator",
+      operation = StringCheckOperation.eq,
+      reference = "{{item.expected_answer}}"
+    ),
+    ScoreModelGrader(
+      input = Seq(
+        GraderModelInput(
+          role = ChatRole.User,
+          content = GraderInputContent.TextString(
+            "Score how close the reference answer is to the model answer. Score 1.0 if they are the same and 0.0 if they are different." +
+              " Return just a floating point score\n\n" +
+              " Reference answer: {{item.label}}\n\n" +
+              " Model answer: {{sample.output_text}}"
+          )
+        )
+      ),
+      model = ModelId.o4_mini_2025_04_16,
+      name = "Example score model grader",
+      samplingParams = Some(
+        SamplingParams(
+          temperature = Some(1.0),
+          topP = Some(1.0),
+          seed = Some(42),
+          maxCompletionsTokens = Some(32768),
+          reasoningEffort = Some(ReasoningEffort.medium)
+        )
+      )
+    ),
+    LabelModelGrader(
+      input = Seq(
+        GraderModelInput(
+          role = ChatRole.System,
+          content = GraderInputContent.InputText(
+            "Classify the sentiment of the following statement as one of positive, neutral, or negative"
+          )
+        ),
+        GraderModelInput(
+          role = ChatRole.User,
+          content = GraderInputContent.InputText(
+            "Statement: {{item.response}}"
+          )
+        )
+      ),
+      labels = Seq("positive", "neutral", "negative"),
+      model = ModelId.gpt_4o_2024_08_06,
+      name = "First label grader",
+      passingLabels = Seq("positive")
+    ),
+    PythonGrader(
+      imageTag = "2025-05-08",
+      name = "Example python grader",
+      source = """
+def grade(sample: dict, item: dict) -> float:
+    \"\"\"
+    Returns 1.0 if `output_text` equals `label`, otherwise 0.0.
+    \"\"\"
+    output = sample.get("output_text")
+    label = item.get("label")
+    return 1.0 if output == label else 0.0
+"""
+    ),
+    MultiGrader(
+      name = "example multi grader",
+      graders = Seq(
+        TextSimilarityGrader(
+          input = "The graded text",
+          name = "example text similarity grader",
+          reference = "The reference text",
+          evaluationMetric = TextSimilarityEvaluationMetric.fuzzy_match
+        ),
+        StringGrader(
+          input = "{{sample.output_text}}",
+          name = "Example string check grader",
+          operation = StringCheckOperation.eq,
+          reference = "{{item.label}}"
+        )
+      ),
+      calculateOutput = "0.5 * text_similarity_score +  0.5 * string_check_score)"
+    )
+  )
+
+  def run: Future[Unit] = {
+    // Iterate through all graders and validate each one
+    val validationFutures = graders.zipWithIndex.map { case (grader, index) =>
+      println(
+        s"\n[${index + 1}/${graders.size}] Validating: ${grader.`type`} - ${grader match {
+            case sg: StringGrader      => sg.name
+            case smg: ScoreModelGrader => smg.name
+            case lmg: LabelModelGrader => lmg.name
+            case pg: PythonGrader      => pg.name
+            case mg: MultiGrader       => mg.name
+            case _                     => "Unknown"
+          }}"
+      )
+
+      service
+        .validateGrader(grader)
+        .map { validatedGrader =>
+          println(s"✓ Grader validated successfully:")
+          println(s"  Type: ${validatedGrader.`type`}")
+
+          validatedGrader match {
+            case sg: StringGrader =>
+              println(s"  Name: ${sg.name}")
+              println(s"  Operation: ${sg.operation}")
+              println(s"  Input: ${sg.input}")
+              println(s"  Reference: ${sg.reference}")
+
+            case smg: ScoreModelGrader =>
+              println(s"  Name: ${smg.name}")
+              println(s"  Model: ${smg.model}")
+              println(s"  Input messages: ${smg.input.size}")
+              println(s"  Range: ${smg.range}")
+
+            case lmg: LabelModelGrader =>
+              println(s"  Name: ${lmg.name}")
+              println(s"  Model: ${lmg.model}")
+              println(s"  Labels: ${lmg.labels.mkString(", ")}")
+              println(s"  Passing labels: ${lmg.passingLabels.mkString(", ")}")
+
+            case pg: PythonGrader =>
+              println(s"  Name: ${pg.name}")
+              println(s"  Image tag: ${pg.imageTag}")
+              println(s"  Source code length: ${pg.source.length} chars")
+
+            case mg: MultiGrader =>
+              println(s"  Name: ${mg.name}")
+              println(s"  Number of sub-graders: ${mg.graders.size}")
+              println(s"  Calculate output: ${mg.calculateOutput}")
+
+            case other =>
+              println(s"  Grader: $other")
+          }
+        }
+        .recover { case e: Exception =>
+          println(s"✗ Validation failed: ${e.getMessage}")
+        }
+    }
+
+    // Wait for all validations to complete
+    Future.sequence(validationFutures).map { _ =>
+      println("\n" + "=" * 60)
+      println(s"Validation complete: ${graders.size} grader(s) processed")
+      println("=" * 60)
+    }
+  }
+}

Original file line number	Diff line number	Diff line change
`@@ -26,6 +26,7 @@ object EndPoint {`
`26`	`26`	`case object vector_stores extends EndPoint`
`27`	`27`	`case object runs extends EndPoint`
`28`	`28`	`case object responses extends EndPoint`
	`29`	`+ case object graders extends EndPoint("fine_tuning/alpha/graders")`
`29`	`30`	`}`
`30`	`31`
`31`	`32`	`sealed abstract class Param(value: String = "") extends NamedEnumValue(value)`
Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@ import scala.concurrent.Future`
`19`	`19`	`* The Responses API provides a unified interface for creating and managing model responses`
`20`	`20`	`* with support for various tools including file search, web search, and custom functions.`
`21`	`21`	`*`
`22`		`- * ==Available Functions==`
	`22`	`+ * - Available Functions:`
`23`	`23`	`*`
`24`	`24`	`* '''Create Response'''`
`25`	`25`	`* - [[createModelResponse]] - Creates a new model response from inputs with support for`