Supply Chain Intelligence
— Arquitectura de Producción
8 capas. 30+ componentes. Cada decisión tecnológica justificada con benchmarks de producción 2025-2026. Diseñada para escalar de Honduras a Centroamérica sin cambiar arquitectura.
FEFASA lleva 28 años siendo el aliado de la construcción en Honduras. Este sistema hace lo mismo para sus decisiones de inventario — estar ahí antes de que lo necesiten.
Stack Completo — 8 Capas
Fuentes de Datos
Todos los sistemas que generan señales para el motor de inteligencia.
8 sucursales · fuente primaria
estadísticas de importación · COMEX
precio de varilla / bobina de acero · en tiempo real
Gerdau · Ternium · IMSA · vía MCP
Ingesta y Pipeline
Extracción, validación y transporte de datos hacia el almacén central. Contratos de datos en cada punto de entrada — cualquier drift de esquema falla antes de llegar al modelo.
ETL nightly 02:00 AM · ya en el stack de FEFASA
event streaming · cambios de inventario · precios · POs
stream processing stateful · pre-cómputo de anomalías
transformaciones SQL + data contracts · schema validation
Almacenamiento
Una sola fuente de verdad. pgvector antes de Qdrant — los benchmarks de Supabase muestran paridad a <50M vectores al mismo costo. Neo4j para relaciones proveedor-producto donde vector search falla.
fuente de verdad relacional · SKUs · ventas · POs
embeddings semánticos · búsqueda híbrida · <10ms p99
session state · prompt cache · working memory del agente
grafo de proveedores · relaciones de dependencia · GraphRAG
cold storage · audit log append-only · model artifacts
RAG Pipeline
Naive RAG tiene 44% de éxito en enterprise. Este pipeline llega a 63%+ con búsqueda híbrida + reranking. GraphRAG para queries de relación multi-hop (¿qué proveedores comparten dependencia de acero chino?).
pgvector (dense) + BM25 (sparse) · RRF fusion · +15-30% accuracy
chunks 400 tokens para precisión · contexto 2K para generación
late interaction · 100x más rápido que cross-encoder · p99 <12ms
doc hipotético para bridging semántico · +20-35% en queries ambiguos
Neo4j · multi-hop · 87% vs 23% en queries relacionales
Capa de Agentes
LangGraph supervisor-worker. El supervisor mantiene el estado global del workflow. Los workers son stateless y especializados. MCP como registro de herramientas — el estándar ganador (97M descargas/mes, adoptado por OpenAI y Anthropic).
orquestación · state management · time travel (replay) · audit
Z-score rolling 30d · pattern matching · >3σ = alerta
orden óptima · lead time · safety stock · cost optimization
señales de mercado · competitive stockout · RAG sobre corpus
WhatsApp Business · routing por urgencia · aprobación humana
ERP · DB · proveedores · WA · todos los tools via protocolo estándar
Infraestructura LLM
Routing por costo/capacidad reduce el costo 85% sin sacrificar calidad. Prompt caching = 90% de ahorro en tokens de entrada. Mem0 vs full-context: 91% menos latencia, 90% menos tokens.
routing: Haiku → extracción · Sonnet → análisis · Opus → estrategia
sistema prompt estable → 60-90% cost reduction · cache hit >80%
3 scopes: user · session · agent · 26% mejor accuracy vs full-context
20-40% reducción de queries redundantes al vector DB
Observabilidad y Seguridad
Prompt injection en 73% de sistemas AI auditados en 2025. Langfuse auto-alojado para soberanía de datos. Audit trail append-only — cada decisión del agente, herramienta llamada, documento recuperado.
trazas LLM · ClickHouse-backed · MIT license · data sovereignty
métricas de infraestructura · latencia · throughput · costos
prompt injection defense · input validation antes del LLM
scan de outputs antes de log · datos de proveedores protegidos
S3 + Athena · cada decisión del agente · 7yr retention · RBAC
Interfaces
La IA trabaja en background. Las interfaces son salidas: el dashboard para análisis, WhatsApp para decisiones urgentes, REST API para integraciones futuras.
streaming LLM chat · tiempo real · mobile-first
alertas push · aprobación en 1 tap · n8n routing
endpoints para ERP de FEFASA · futura expansión CA
Topología de Agentes — LangGraph Supervisor-Worker
El supervisor mantiene estado global del workflow y hace time travel para replay de decisiones. Los workers son stateless y especializados — más fáciles de auditar, escalar y depurar.
Supervisor
OrchestratorAgent
Recibe señales, descompone tareas, coordina workers, mantiene estado global del workflow en LangGraph. Time travel para replay de decisiones.
Worker A
AnomalyAgent
Corre Z-score rolling sobre series temporales de ventas por SKU. Clasifica: variación estacional vs. señal de desabastecimiento competidor.
Worker B
ReplenishmentAgent
Calcula pedido óptimo: target_stock = lead_time × avg_demand × 1.3. Considera restricciones de presupuesto, capacidad de almacén, historial de proveedores.
Worker C
IntelligenceAgent
RAG sobre corpus: noticias de mercado, historial de stockouts, datos BCH/INE. GraphRAG para queries de cadena de proveedores. Sintetiza el por qué.
Worker D
CommunicationAgent
Routing por urgencia: CRÍTICO → WhatsApp inmediato. ALTO_RIESGO → dashboard. Gestiona el loop de aprobación humana antes de confirmar órdenes.
MCP Tool Registry — Todos los workers acceden a herramientas (ERP, DB, WhatsApp, proveedores) vía Model Context Protocol. Standard de facto 2025: 97M descargas/mes, adoptado por OpenAI y Anthropic. Cualquier tool construido hoy funciona con cualquier framework del futuro.
Decisiones Tecnológicas — Por Qué Cada Una
Cada elección tiene benchmark o estudio de producción que la respalda. No hype — evidencia.
pgvector antes de Qdrant
Supabase benchmarks: paridad de performance a <50M vectores. Sin overhead operativo. Queries SQL + vector en una sola transacción atómica.
Supabase 2025 benchmarks
LangGraph sobre CrewAI
+18% overhead de tokens en CrewAI. LangGraph v1.0 estable, auditable, time travel nativo — crítico para supply chain donde cada decisión necesita trazabilidad.
Production comparison study 2025
Mem0 sobre full-context
26% mejor accuracy en LOCOMO benchmark. 91% menos latencia p95. 90% reducción de tokens. El agente recuerda el historial de FEFASA sin enviar todo al modelo.
arXiv:2504.19413, 2025
Prompt caching desde día 1
60-90% reducción de costo en llamadas con system prompt estable. Cache hit >80% en producción. Zero-downside. No es optimización — es table stakes.
ProjectDiscovery: 59% reduction case study
Hybrid search (no solo vectores)
Naive vector RAG: 44% success en enterprise. Hybrid (dense + BM25 + RRF): 63%+. La diferencia entre un sistema útil y uno que falla 56% de las veces.
ARAGOG benchmark 2025
Langfuse sobre LangSmith
Open-source MIT. Data sovereignty — datos de FEFASA no salen del ambiente controlado. ClickHouse-backed: queries analíticas rápidas. Self-hostable en la misma infra.
LLMOps platform comparison 2025
MCP como registro de tools
Standard de facto: 97M descargas/mes, adoptado por OpenAI en marzo 2025. Cualquier tool construido hoy funciona con cualquier agente framework del futuro.
Anthropic MCP 2024, Linux Foundation AAIF 2025
GraphRAG solo para queries relacionales
87% vs 23% en multi-hop — pero 6+ meses de implementación. Solo se justifica para '¿qué productos comparten dependencia de acero brasileño?'. No para queries simples.
Microsoft GraphRAG 2025
Fases de Implementación — 7 Semanas
Fase 1 · Semanas 1-3
Foundation
Una sola fuente de verdad. Pipeline nightly corriendo.
Fase 2 · Semanas 4-5
Intelligence
Primera alerta real. Sistema observable desde día 1.
Fase 3 · Semana 6
Interfaces
Sistema en vivo. Nidal recibe alertas en WhatsApp.
Fase 4 · Semana 7
Hardening
Sistema seguro, auditable, autónomo. Handoff completo.
Infraestructura mensual estimada
Sin GPU. Sin Kubernetes. Arquitectura serverless-first — escala a El Salvador y Nicaragua sin cambio estructural.
Un solo riesgo técnico
La calidad y centralización de los datos en el ERP/POS de FEFASA. Si existe historial digital de 12+ meses por SKU, el sistema es viable tal como está diseñado.
El diagnóstico técnico — ya contratado — lo confirma en los primeros 30 minutos.
Con datos digitales 12+ meses, Fase 1 comienza en 48 horas tras la firma.