rhesis-ai
diff --git a/‎apps/backend/src/rhesis/backend/metrics/evaluator.py‎
Lines changed: 10 additions & 0 deletions b/‎apps/backend/src/rhesis/backend/metrics/evaluator.py‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎apps/backend/src/rhesis/backend/tasks/execution/evaluation.py‎
Lines changed: 10 additions & 5 deletions b/‎apps/backend/src/rhesis/backend/tasks/execution/evaluation.py‎
Lines changed: 10 additions & 5 deletions
diff --git a/‎apps/frontend/src/app/(protected)/metrics/components/MetricsClient.tsx‎
Lines changed: 2 additions & 4 deletions b/‎apps/frontend/src/app/(protected)/metrics/components/MetricsClient.tsx‎
Lines changed: 2 additions & 4 deletions
@@ -19,6 +19,7 @@
 from rhesis.backend.metrics.score_evaluator import ScoreEvaluator
 from rhesis.backend.metrics.utils import diagnose_invalid_metric
 from rhesis.sdk.metrics import BaseMetric, MetricConfig, MetricResult
+from rhesis.sdk.metrics.conversational.types import ConversationHistory
 from rhesis.sdk.metrics.utils import backend_config_to_sdk_config
 
 # Use inline factory creation to avoid circular imports
@@ -63,6 +64,7 @@ def __init__(
         self.model = model  # Store default model for passing to metrics
         self.db = db  # Database session for fetching metric-specific models
         self.organization_id = organization_id  # For secure model lookups
+        self._conversation_history: Optional[ConversationHistory] = None
 
     @staticmethod
     def _get_config_value(
@@ -141,6 +143,7 @@ def evaluate(
         context: List[str],
         metrics: List[Union[Dict[str, Any], MetricConfig, MetricModel]],
         max_workers: int = 5,
+        conversation_history: Optional[ConversationHistory] = None,
     ) -> Dict[str, Any]:
         """
         Compute metrics using the configured backends in parallel.
@@ -176,6 +179,9 @@ def evaluate(
         Returns:
             Dictionary containing scores and details for each metric
         """
+        # Store conversation history for conversational metrics
+        self._conversation_history = conversation_history
+
         if not metrics:
             logger.warning("No metrics provided for evaluation")
             return {}
@@ -892,6 +898,10 @@ def _call_metric_with_introspection(
             kwargs["expected_output"] = expected_output
         if "context" in params:
             kwargs["context"] = context
+        if "conversation_history" in params and self._conversation_history is not None:
+            kwargs["conversation_history"] = self._conversation_history
+        if "goal" in params:
+            kwargs["goal"] = input_text
 
         logger.debug(f"Calling metric '{metric.name}' with parameters: {list(kwargs.keys())}")
 
 
@@ -19,6 +19,7 @@
 from rhesis.backend.metrics.evaluator import MetricEvaluator
 from rhesis.backend.tasks.execution.constants import MetricScope
 from rhesis.sdk.metrics import MetricConfig
+from rhesis.sdk.metrics.conversational.types import ConversationHistory
 
 from .response_extractor import extract_response_with_fallback
 
@@ -134,28 +135,32 @@ def evaluate_multi_turn_metrics(
         return {}
 
     # Evaluate each metric on the conversation using the MetricEvaluator
-    # For multi-turn, we reconstruct the conversation as a single prompt/response
-    # pair and evaluate with the standard evaluator pipeline.
-    # This approach reuses the existing evaluator infrastructure.
     metrics_evaluator = MetricEvaluator(model=model, db=db, organization_id=organization_id)
 
-    # Build a prompt/response pair from the conversation for evaluation
+    # Build ConversationHistory from conversation_summary for conversational metrics
+    conversation_summary = stored_output.get("conversation_summary", [])
+    messages = []
     conversation_text = ""
-    for turn in stored_output.get("conversation_summary", []):
+    for turn in conversation_summary:
         penelope_msg = turn.get("penelope_message", "")
         target_resp = turn.get("target_response", "")
         if penelope_msg:
+            messages.append({"role": "user", "content": penelope_msg})
             conversation_text += f"User: {penelope_msg}\n"
         if target_resp:
+            messages.append({"role": "assistant", "content": target_resp})
             conversation_text += f"Assistant: {target_resp}\n"
 
+    conversation_history = ConversationHistory.from_messages(messages) if messages else None
+
     try:
         results = metrics_evaluator.evaluate(
             input_text=goal,
             output_text=conversation_text.strip(),
             expected_output="",
             context=[],
             metrics=metric_configs,
+            conversation_history=conversation_history,
         )
     except Exception as e:
         logger.warning(f"Error evaluating multi-turn metrics: {str(e)}")
 
@@ -136,9 +136,7 @@ export default function MetricsClientComponent({
             sort_by: 'created_at',
             sort_order: 'desc',
           }),
-          metricsClient.getMetrics({
-            skip: 0,
-            limit: 100,
+          metricsClient.getAllMetrics({
             sort_by: 'created_at',
             sort_order: 'desc',
           }),
@@ -148,7 +146,7 @@ export default function MetricsClientComponent({
         const behaviorsData = behaviorsWithMetricsData;
 
         // Use all metrics from the dedicated metrics endpoint
-        const metricsData = allMetricsData.data || [];
+        const metricsData = allMetricsData;
 
         // Add behavior IDs to each metric for compatibility
         const metricsWithBehaviors = metricsData.map(metric => {