Evalúa tus Agentes LLM con inteligencia

Plataforma LLM-as-a-Judge para evaluar la calidad de tus agentes de IA. Obtén métricas objetivas de faithfulness, relevancia y más.

🚀 Probar ahora Crear cuenta gratis

🤔 El Problema

Los agentes LLM pueden alucinar, ser inconsistentes o desviarse del contexto. Sin un sistema de evaluación objetivo, es imposible medir su calidad real y detectar regresiones.

70%

de agentes LLM tienen problemas de hallucination

más propensos a fallar sin evaluación continua

85%

de los equipos no miden la calidad de sus agentes

💡 Nuestra Solución

Evaluación objetiva con LLM-as-a-Judge

Métricas Avanzadas

G-Eval, Faithfulness, Answer Relevancy, Hallucination Detection y más. Evalúa cada aspecto de tu agente.

Jueces IA

Usa DeepSeek, GPT-4 o modelos locales como jueces. Tú eliges el estándar de calidad.

Datasets Propios

Sube tus propios datasets en CSV o JSON. Evalúa con tus casos de uso reales.

Integración CI/CD

Automatiza evaluaciones en tu pipeline. Detecta regresiones antes de hacer deploy.

Multi-Tenant

Soporte multi-tenant con API keys. Ideal para equipos y organizaciones.

Playground Interactivo

Prueba el evaluador sin registro. Ingresa preguntas y ve los resultados al instante.

⚡ Cómo Funciona

Evalúa tu agente en 3 pasos simples

Conecta tu Agente

Proporciona el endpoint de tu agente. Nosotros lo llamamos con tus preguntas de prueba.

Configura la Evaluación

Selecciona las métricas que quieres evaluar y sube tu dataset de pruebas.

Obtén Resultados

Recibe scores detallados, detección de regresiones y recomendaciones de deploy.

CI/CD Nativo

⚡ Integración CI/CD

Agrega evaluación de IA a tu pipeline en 2 minutos. Compatible con GitHub Actions y GitLab CI.

En cada push o pull request:

Se ejecuta en push/PR

Cada commit a main o PR dispara la evaluación automáticamente.

Llama a tu agente

Envía tus preguntas de prueba al endpoint de tu agente y recolecta las respuestas.

El juez LLM califica

Un modelo juez puntúa cada respuesta con las métricas que elijas (G-Eval, Faithfulness...).

Pass ✅ o Fail ❌

Si el score baja de tu umbral, el pipeline falla y publica un comentario en el PR.

GitHub Actions

- name: AI Evaluator
  uses: aievaluator-dev/ai-evaluator-action@v1
  with:
    api-key: ${{ secrets.AI_EVALUATOR_API_KEY }}
    agent-url: ${{ vars.STAGING_AGENT_URL }}
    metrics: g_eval,faithfulness,answer_relevancy
    min-score: "0.80"

Ver en Marketplace

GitLab CI/CD

include:
  - component: gitlab.com/aievaluator-dev/ai-evaluator-action/evaluate@~latest
    inputs:
      api_key: $AI_EVALUATOR_API_KEY
      agent_url: $STAGING_AGENT_URL
      metrics: g_eval,faithfulness,answer_relevancy
      min_score: "0.80"

Ver en Catálogo

Obtené tu API key

Copiá el YAML

Deployá con confianza

Obtené tu API key gratis

Gratis para siempre. Sin tarjeta.

Playground

Prueba el evaluador sin crear una cuenta. Explora diferentes modos de conexión y descubre todas las capacidades del sistema.

Configuración

Agente a evaluar

✓ 🤖 Agente de Órdenes (demo)

Mi agente (tu agent ip)

Formato del request

Autenticación del agente

Preguntas de prueba0/5 preguntas

Juez (modelo evaluador)

✓ DeepSeek

GPT-4

Ensemble

Local

Evaluadores y umbrales

Selecciona los evaluadores y ajusta el threshold para cada uno

Threshold:0.70

Comando curl

bash — curl

$Completa la configuración para generar el comando curl...

Resultado

bash — respuesta

$Presiona "Probar curl" para ejecutar la solicitud...

¿Te gustó lo que viste? 🚀

Crea una cuenta gratuita y lleva la evaluación de tu agente al siguiente nivel.

50 evaluaciones por mes (el doble que gratis)
Sube datasets completos (CSV/JSON)
Historial de evaluaciones
Hasta 10 datasets
Hasta 3 API Keys

Crear cuenta gratuita Ver planes

💎 Planes

Desde gratis para siempre hasta enterprise. Elige el plan que mejor se adapte a ti.

Free

$0para siempre

Evaluaciones

5 eval/día

✅ Playground interactivo
✅ 2 métricas (G-Eval, Faithfulness)
✅ Agente demo incluido
❌ Sin datasets propios
❌ Sin historial

Probar ahora

Registered

$0para siempre

Evaluaciones

50 eval/mes

✅ Todo lo de Free
✅ Hasta 10 datasets
✅ Historial completo
✅ Hasta 3 API Keys
✅ 50 evaluaciones por mes

Crear cuenta gratis

Más popular

Enterprise

A medidapersonalizado

Evaluaciones

Ilimitado

✅ Todo lo de Pro
✅ Integración CI/CD
✅ SSO / SAML / OIDC
✅ Soporte prioritario 24/7
✅ On-premise disponible

Contactar ventas

¿Listo para evaluar tu agente?

Comienza gratis.

Crear cuenta gratuita