
Foto: Sergio F Cara (NotiPress/Composición)
Investigadores y empresas de Silicon Valley concentran nuevos trabajos en el desarrollo de entornos de aprendizaje por refuerzo (RL) que permitan a la inteligencia artificial (IA) realizar tareas complejas de forma autónoma. Estos espacios de entrenamiento buscan superar las limitaciones de agentes actuales como ChatGPT Agent de OpenAI o Comet de Perplexity, considerados aún poco sólidos para usos prácticos amplios.
Durante los últimos meses, startups especializadas y grandes compañías de datos orientaron inversiones hacia entornos de RL. Empresas como Mechanize y Prime Intellect encabezan esta tendencia, mientras que Scale AI, Surge y Mercor ajustan sus estrategias para ofrecer simulaciones interactivas en lugar de solo conjuntos de datos estáticos.
Jennifer Li, socia general de Andreessen Horowitz, declaró a Techcrunch: "Todos los grandes laboratorios de IA están desarrollando entornos de aprendizaje automático internamente. Crear estos conjuntos de datos es muy complejo, por lo que los laboratorios de IA también están considerando proveedores externos que puedan crear entornos y evaluaciones de alta calidad. Todos están interesados en este sector".
Los entornos de aprendizaje automático permiten que un agente de IA simule acciones como comprar en línea o utilizar aplicaciones empresariales, recibiendo recompensas o correcciones según su desempeño. Un fundador describió este proceso como "crear un videojuego muy aburrido". Estos espacios, más flexibles que los conjuntos de datos tradicionales, representan una herramienta clave para entrenar sistemas con modelos de transformadores y tareas de varios pasos.
El interés financiero fue significativo. De acuerdo con The Information, Anthropic consideró destinar más de mil millones de dólares en un año a entornos de RL. Surge, que generó 1200 millones de dólares en ingresos el último año con clientes como OpenAI, Google y Meta, anunció la creación de una división exclusiva para entornos de RL.
Mercor, valorada en 10 mil millones de dólares, también presentó a sus inversionistas planes para desarrollar entornos aplicados a programación, salud y derecho. Su director ejecutivo, Brendan Foody, indicó: "Pocos comprenden cuán grande es realmente la oportunidad en torno a los entornos de aprendizaje automático".
Además, diversos actores emergentes como Mechanize buscan diferenciarse ofreciendo salarios elevados a ingenieros para diseñar entornos de RL robustos. Prime Intellect, respaldada por Andrej Karpathy y fondos de inversión, abrió un centro de acceso a simulaciones con la intención de facilitar recursos a desarrolladores independientes y proyectos de código abierto.
El investigador Will Brown señaló: "Los entornos de aprendizaje automático serán demasiado grandes para que una sola empresa los domine. Parte de lo que estamos haciendo es simplemente intentar construir una buena infraestructura de código abierto en torno a ellos".
La evolución de estos entornos responde al interés de la industria en perfeccionar el aprendizaje por refuerzo, técnica que ya había sido clave en hitos como el sistema AlphaGo de Google DeepMind en 2016. Sin embargo, expertos advierten sobre desafíos como el "hackeo de recompensas", en el cual los modelos obtienen resultados sin cumplir realmente con la tarea asignada.
DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS