Físico · AI Developer · Data Scientist/ML

Eduardo Rdgz-Á

Los Modelos Compiten En Benchmarks. Los Productos Compiten En Producción.

Hago harness engineering — la infraestructura que opera al modelo. Cada output trazable. Cada costo auditado. La responsabilidad, humana.

// Ciudad de México

Retrato de Eduardo Rodríguez Ávila

open to work

habilidades blandas

  • Persuasion & Influence Comunico de forma que conecta ideas técnicas con decisiones humanas.
  • Relationship-Building Escucho primero para construir la confianza que los proyectos necesitan.
  • Sensemaking Identifico patrones en la complejidad para orientar decisiones de equipo.
  • Abductive Reasoning Genero hipótesis plausibles donde los datos aún no son suficientes.

01 / Sobre mí

Lo vivido gana a lo diseñado.

El discurso dominante de IA en 2026 sigue centrado en el modelo: qué tan grande, qué tan bien evaluado, qué tan rápido. Pero los productos de IA que entregan valor real comparten algo que no aparece en los benchmarks: detrás hay alguien que conoce el problema porque lo vivió, no porque lo investigó.

Esa convicción organiza mi trabajo. Vengo de tres lugares — la física, ocho años de aula, y la construcción y operación de una plataforma AI-native en producción — y los tres me dicen lo mismo: la ventaja sostenible está en la distancia entre quien diseña la solución y quien sufrió el problema. Cuanto más corta esa distancia, mejor el producto.

Lo que esto significa en concreto:

  • Modelo no operado no es producto. La gobernanza no vive en un documento: vive en runtime — en el log, en la cola, en el prompt versionado, en quién firma cada output.
  • La mayoría de lo que llamamos “problemas educativos” es burocracia que le roba tiempo a la gente para hacer su trabajo. Lo aprendí en aula; lo confirmé construyendo ILC, donde un usuario me dijo: “Tenemos coherencia global en las 250 páginas de planeación didáctica.” El sistema funciona porque resuelve un problema que yo viví, no uno que imaginé.
  • El harness es humano. Sostener cadenas largas de pensamiento durante horas — donde aparecen los avances reales — es trabajo humano. La responsabilidad por lo que el sistema genera no se delega al algoritmo.

Me interesan equipos que construyan productos reales en DS/ML con IA en producción — con la responsabilidad anclada en una persona, no en el algoritmo.

CV completo →

02 / Cómo trabajo

Cuatro capas de la práctica. Cuatro categorías de responsabilidad.

// instancias:

Cuatro capas de responsabilidad al construir con IA: 1. Vivencia: Inmersión, Usuarios, Restricciones, Métricas reales. 2. Harness: Contexto, Control, Orquestación, Validación. 3. Runtime: Observabilidad, Costos, Trazabilidad, Resiliencia. 4. Custodia: Locus, Trade-offs, Auditoría, Incidents.

VivenciaEl contexto del problemaHarnessLa infraestructura del sistemaRuntimeLa vida del sistema en producciónCustodiaLa responsabilidad humana sobre el outputInmersiónUsuariosRestriccionesMétricasrealesContextoControlOrquestaciónValidaciónObservabilidadCostosTrazabilidadResilienciaLocusTrade-offsAuditoríaIncidents
// donde el AI Index 2026 clasifica por principio, esta red clasifica por lugar.

Vivencia — Inmersión

Estar adentro del problema antes de modelar. La diferencia entre quien lo vivió y quien lo investigó.

Vivencia — Usuarios

Personas concretas con tareas concretas. La métrica que cuenta es lo que cambia en su día.

Vivencia — Restricciones

Las reales, no las cómodas. Tiempo, regulación, costo, fricción institucional.

Vivencia — Métricas reales

Outcome sobre accuracy. Lo que cuenta como éxito en el mundo, no en el paper.

Harness — Contexto

Lo que el modelo necesita saber para responder bien. Recuperación, memoria, embeddings.

Harness — Control

La superficie de invocación del modelo. Prompts versionados, herencia, snapshots.

Harness — Orquestación

Cómo se coordinan las llamadas. Colas, prioridades, dependencias.

Harness — Validación

El humano en el ciclo. Qué se conserva, qué se tira, qué se itera.

Runtime — Observabilidad

Qué ve el operador. Logs, trazas, dashboards.

Runtime — Costos

Lo que cuesta cada output. Auditado por API, optimizado en runtime.

Runtime — Trazabilidad

De cada output a su origen. Qué prompt, qué contexto, qué versión.

Runtime — Resiliencia

Qué pasa cuando algo falla. Fallback, degradación segura, recuperación.

Custodia — Locus

El humano que es dueño del output. No el algoritmo, no el proveedor.

Custodia — Trade-offs

Qué se sacrifica y a cambio de qué. Costo, latencia, riesgo: decisiones que el humano asume, no el modelo.

Custodia — Auditoría

Qué queda registrado para ser revisado. Audit trail accesible.

Custodia — Incidents

Qué pasa cuando el output hace daño. Quién responde, cómo se corrige, qué se aprende.

03 / Proyectos

Harness Engineering · Agentic-Native · EdTech

repo privado · IP protegida

ILC-HUB

Integrated Learning Core

Un wrapper resuelve la API. Un harness resuelve el problema. ILC-HUB es una plataforma AI-native para EdTech construida desde un problema vivido ocho años en aula: la planificación didáctica que toma dos a tres semanas por asignatura y termina con cuatro profesores enseñando el mismo concepto de cuatro formas distintas, sin sistema compartido. El harness reduce ese trabajo a treinta o cuarenta minutos y devuelve coherencia global a doscientas cincuenta páginas de planeación. En operación con usuarios reales desde principios de 2026, con la responsabilidad por cada output anclada en una persona, no en el algoritmo.

Versiones

  1. 09/2024

    v1

    El germen: primeras pruebas de generación asistida, aún en prototipo

  2. 01/2026

    v2

    Primer núcleo del harness: de prototipo a sistema con interfaz propia

  3. 04/2026

    v3

    En producción y a escala: multi-asignatura, cada output trazable y −30% de costos

  4. en curso

    v4

    Siguiente salto: evolución hacia una arquitectura agéntica

30–40 min

por asignatura (antes 2–3 semanas)

−30%

en costos de IA

250 pp.

de planeación coherente

2+ años

en producción real

  • Python
  • FastAPI
  • OpenAI API
  • MongoDB
  • React
  • TypeScript
  • Docker
  • Railway

Machine Learning · MLOps · Fintech

repo público

Fraud Detection scoring de fraude en tiempo real

Decir que se sabe es CV. Mostrar el código es evidencia. Fraud Detection es un sistema de scoring de fraude bancario en tiempo real, construido como proyecto público para demostrar el ciclo end-to-end fuera de EdTech. Entrenado sobre un dataset académico de referencia: un millón de transacciones reales con la dificultad que la literatura reconoce como más exigente — un desbalance de noventa a uno entre transacciones legítimas y fraudulentas. Cada predicción acompañada de su explicación; servido en producción, con repositorio abierto.

  • Python
  • FastAPI
  • Docker
  • Railway
  • XGBoost
  • Astro

Data Science · EDA · Educación

repo en preparación

MIT GTL ChiMIT · Sleep Clinic

Colaboración con el MIT Global Teaching Labs: co-diseño y liderazgo del Code Development Work Cell. EDA sobre ~180k registros de sueño con 25 estudiantes, guiado con notebooks parametrizados que explican el código línea a línea.

  • Python
  • pandas
  • Jupyter
  • matplotlib

04 / Contacto

¿Buscas a alguien que construya productos de IA de extremo a extremo? Escríbeme.

Ciudad de México

+ Más campos · empresa, país, teléfono, motivo