ai 8 min • advanced

Gráficos de tareas escasos y conscientes de precondiciones reducen la latencia de planificación y mejoran el éxito a largo plazo en RLBench, ALFRED y WebArena

Un análisis a nivel de arquitectura sobre el descubrimiento causal, extracción de gráficos neuronales y RL/IL jerárquico bajo diversas modalidades de demostraciones humanas

Por AI Research Team
Gráficos de tareas escasos y conscientes de precondiciones reducen la latencia de planificación y mejoran el éxito a largo plazo en RLBench, ALFRED y WebArena

Grafos de Tareas Escasos y Conscientes de la Precondición Reducen la Latencia en la Planificación y Aumentan el Éxito a Largo Plazo en RLBench, ALFRED y WebArena

Análisis a nivel de arquitectura del descubrimiento causal, extracción de grafos neuronales y RL/IL jerárquico bajo diversas modalidades de demostración humana

Los agentes de largo plazo no suelen fallar porque no pueden mover un agarrador o hacer clic en un botón; fallan porque no pueden planificar de manera fiable a gran escala. A través de suites de manipulación como RLBench y ManiSkill, seguidores de instrucciones en ALFRED y TEACh, y agentes web en WebArena y MiniWoB++, la diferencia entre una secuencia de pasos frágil y una política robusta a menudo se reduce a una cosa: el grafo de tareas aprendido. Cuando ese grafo es escaso, consciente de las precondiciones y está estrechamente alineado con las señales presentes en las demostraciones humanas, la latencia de planificación disminuye y las tasas de éxito aumentan, especialmente a medida que se extienden los horizontes.

Este artículo muestra cómo llegar allí. El hilo conductor es arquitectónico: un pipeline que convierte la supervisión humana heterogénea en grafos de tareas compactos y ejecutables; tres familias de modelos que aprenden el grafo bajo diferentes sesgos inductivos; y un conjunto de prácticas de ingeniería que preservan la escasez y la exactitud bajo el ruido y el cambio de distribución. Los lectores verán cómo las modalidades—teleoperación vs. kinestésica, lenguaje y mirada, registros de pantalla/DOM—imparten un sesgo concreto en la topología, y cómo las precondiciones, efectos y clasificadores de guardia mantienen la ejecución de largo horizonte segura y eficiente. El resultado es un esquema práctico para sistemas que planifican más rápido y fallan menos en robots e interfaces web.

Detalles de Arquitectura/Implementación

Los aprendices de grafos de tareas convierten las demostraciones en bruto en una estructura compacta donde los nodos codifican subobjetivos o predicados abstractos y los bordes representan transiciones factibles sujetas a precondiciones y efectos. El pipeline tiene cuatro etapas:

  1. Captura sincronizada en el tiempo a través de modalidades
  • Manipulación: posiciones/fuerzas/torques del robot, estado del agarrador, video RGB-D, máscaras de segmentación.
  • Seguimiento de instrucciones: video egocéntrico, instrucciones o diálogo en lenguaje, trazas de acciones.
  • Web/UI: capturas de pantalla y snapshots de DOM, registros de cursor/teclado; opcionalmente tareas de lenguaje.
  • Intención auxiliar: mirada y gestos cuando se dispone de instrumentación.
  1. Segmentación, alineación y abstracción
  • Segmentar las trazas en trozos alineados con subobjetivos; los límites claros son más fáciles con teleoperación cordial o kinestésica cuidadosa donde las transiciones de contacto están bien sincronizadas.
  • Alinear a través de modalidades usando alineación suave o deformación temporal dinámica para colapsar las dudas y desvíos.
  • Extraer predicados o estados abstractos: banderas de éxito, atributos de DOM o subobjetivos programáticos donde estén disponibles.
  • Producir trazas de predicados, etiquetas de acciones y evidencia multimodal para fundamentar clasificadores posteriores.
  1. Inducción de topología y guardias
  • Aprender un inventario de nodos (subobjetivos/predicados) y conjunto de bordes (transiciones válidas).
  • Entrenar clasificadores de precondición y efecto; los guardias específicos de borde desambiguan estados superficialmente similares (e.g., “cerca del agarrador” vs. “agarre establecido”).
  • Controlar la escasez mediante penalizaciones de aciclicidad/escasez, límites de factor de ramificación, o restricciones de búsqueda con presupuesto.
  1. Compilación para ejecución
  • Renderizar el grafo aprendido en un planificador que supervise los controladores de bajo nivel.
  • Compilar planes con verificaciones de pre/post-condiciones y tiempos de espera; memorizar macro-planes para subgrafos frecuentes.

Por qué la modalidad importa

  • La teleoperación kinestésica o de alta fidelidad produce transiciones de contacto precisas y segmentación más limpia; los grafos tienden a ser más escasos con precisión de borde más alta, pero pueden tener ramas de recuperación limitadas si los datos son estrechos.
  • El lenguaje emparejado con la percepción expone la estructura jerárquica y las restricciones centradas en objetos; cuando la base es confiable, el descubrimiento de subobjetivos mejora y las ramas irrelevantes se reducen.
  • Los registros de pantalla/DOM revelan directamente la topología de la interfaz, pero los clics exploratorios inflan la ramificación; la inducción a nivel de esquema y la deduplicación de caminos de DOM semánticamente equivalentes son esenciales.
  • Las señales de mirada/gesto agudizan la intención y ayudan a desambiguar entidades o límites de subobjetivos, podando ramas incorrectas y mejorando los detectores de predicados.

Precondiciones, efectos y escasez—qué modelar y cómo

  • Fundación del predicado: Detectores precisos para la obtención de subobjetivos y precondiciones (e.g., “campo de formulario poblado”) prevenien transiciones ilegales y acciones inseguras.
  • Regulación de bordes: Aprender guardias específicos de borde para que las transiciones se inicien sólo cuando existan restricciones causales; esto separa estados casi acertados de un progreso válido.
  • Control de escasez: Penalizar bordes de larga distancia no soportados; limitar factores de ramificación; desplegar presupuestos de búsqueda que mantengan una inferencia rápida.

Detalles de entrenamiento que marcan la diferencia

  • Muestreo negativo explícito para fallos de precondición.
  • Planes de currículo que ajusten predicados antes de bordes para estabilizar la topología.
  • Regularizadores de topología para suprimir bordes no soportados por evidencia intervencional.
  • Dominios condicionados por lenguaje: alinear fragmentos textuales con eventos de predicados para desambiguar instrucciones casi sinónimas.
  • Web/UI: deduplicar caminos de DOM con la misma intención semántica para mejorar la reutilización cruz por diseño.

Tres Familias de Modelos y Sus Sesgos Inductivos

Tres familias cubren la mayoría de la práctica: descubrimiento causal/estructural sobre predicados, extracción de grafos neuronales a partir de trazas multimodales y RL/IL jerárquico con grafos de habilidades explícitos. Cada una aporta un sesgo distinto que se refleja en escasez, calidad de guardias y generalización.

Descubrimiento causal/estructural sobre predicados

  • Cuando existe una abstracción simbólica (banderas de éxito, atributos de DOM, subobjetivos programáticos), tratar la inducción de grafos como una optimización restringida.
  • Hacer cumplir la aciclicidad y la escasez mientras se ajustan precondiciones/efectos; resulta en una matriz de adyacencia compacta y clasificadores a nivel de predicado calibrados que se pueden verificar en tiempo de ejecución.
  • Bien adaptado a tareas de interfaz web y suites de instrucciones con subobjetivos canónicos, y a configuraciones de robótica que exponen verificaciones de éxito programáticas.

Extracción de grafos neuronales a partir de trazas multimodales

  • Codificar video, propiocepción y acciones—opcionalmente con lenguaje—y decodificar conjuntos de nodos/bordes además de guardias.
  • Decodificadores basados en atención descubren jerarquía cuando el lenguaje insinúa subobjetivos; objetivos contrastivos alinean predicados a la percepción.
  • Generalización flexible (e.g., nuevos diseños de objetos) pero riesgo de sobre-conexión de estados cuando los registros son ruidosos; requiere regularización fuerte y alineación.

RL/IL jerárquico con grafos de habilidades explícitos

  • Políticas de bajo nivel (basadas en difusión o transformadores) implementan primitivas robustas; una política de nivel superior selecciona entre estas a través de una estructura de transición aprendida.
  • Descubrimiento de opciones o propuestas de subobjetivos definen nodos candidatos; detectores de éxito regulan las transiciones.
  • Gran competencia de bajo nivel con barandillas estructurales que limitan el error acumulado en tareas largas; se combina bien con planificadores de lenguaje/VLA cuando se incitan con subobjetivos.

Comparación lado a lado

MétodoSuposiciones de entradaFortalezasRiesgosDonde destacaGuardias y verificacionesCosto de inferencia
Descubrimiento Causal/EstructuralPredicados simbólicos (banderas de éxito, atributos DOM, subobjetivos programáticos)Alta precisión de borde, escasez y aciclicidad explícitas, grafos interpretablesRequiere buenas abstracciones; frágil si los predicados son ruidososFlujos de trabajo web/UI; suites de instrucciones con subobjetivos canónicos; robótica con verificaciones programáticasClasificadores de precondiciones/efectos por predicado; pre-verificaciones simbólicasMuy bajo en tiempo de ejecución; grafos son compactos
Extracción de Grafos NeuronalesTrazas en bruto (video, propiocepción/acciones), lenguaje opcionalDescubre jerarquía; generaliza a nuevos diseños y composicionesSobre-conexión bajo registros ruidosos; entrenamiento/inferencia más pesadaTareas incorporadas con señales de percepción-lenguaje ricasGuardias aprendidos a partir de evidencia multimodal; predicados alineados con el lenguajeModerado; se amortiza precomputando por familia de tareas
RL/IL Jerárquico + Grafos de HabilidadesBiblioteca de habilidades/políticas de bajo nivel; detectores de éxitoEjecución robusta; limita el error acumulado; fácil de compilarLa calidad de la estructura de transición depende de los detectores de éxito; el descubrimiento de opciones puede sobre/infra-segmentarManipulación de largo horizonte; flujos de trabajo de UI con macros reutilizablesDetectores de éxito como guardias; códigos de fallo impulsan la recuperaciónBajo en tiempo de ejecución; los planificadores eligen entre habilidades

Robustez bajo ruido y heterogeneidad

  • La teleoperación y los registros de pantalla introducen dudas y desvíos que inflan los grafos. Las contramedidas incluyen alineación suave para colapsar segmentos redundantes, poda causal para eliminar bordes no soportados por intervenciones, y ensamblaje cruzado de operadores para mantener solo las transiciones corroboradas.
  • Las correcciones on-policy refinan los bordes alrededor de estados de fallo y reducen las violaciones de seguridad en comparación con el aprendizaje sólo offline. Las intervenciones se activan por riesgo o incertidumbre para centrarse en el tiempo humano donde importa.
  • Controlar la compensación entre recuperación y precisión: la poda agresiva acelera la planificación pero puede eliminar rutas de recuperación; los grafos conservadores mantienen alternativas a costa de la latencia. Trate el factor de ramificación como un presupuesto ajustable: asigne más ramificación cerca de subobjetivos frágiles (oclusiones, elementos ambiguos de UI) y apriete en otros lugares.

Planificación y Tiempo de Ejecución: Búsqueda, Compilación y Amortización

Una vez aprendido el grafo, la planificación se convierte en una búsqueda guiada sobre una topología escasa con verificaciones de predicado. El objetivo es trasladar la complejidad fuera del tiempo de ejecución y hacia el aprendizaje y la compilación.

Técnicas que mantienen baja la latencia

  • Pre-verificaciones simbólicas: Validar precondiciones para podar bordes ilegales antes de la expansión. Esto previene expansiones desperdiciadas y acciones inseguras.
  • Sesgo heurístico: Usar indicaciones de lenguaje o estimaciones de valor aprendidas para guiar la búsqueda hacia subgrafos prometedores.
  • Caché de subgrafos: Memorizar flujos de trabajo frecuentes (e.g., “buscar → filtrar → agregar al carrito → finalizar compra”) como macro-planes para reutilizar a lo largo de instancias y lugares.
  • Compilación de plan: Traducir planes de alto nivel en cronogramas de invocaciones del controlador con guardias de pre/post-condición y tiempos de espera. Las políticas de bajo nivel manejan el matiz de percepción y actuación mientras el grafo restringe la estructura de largo horizonte.

Patrones de ejecución específicos de dominio

  • Manipulación (RLBench, ManiSkill): Los grafos desbloquean planes de alto nivel de un solo disparo que llaman a controladores de bajo nivel robustos (difusión o IL con transformador). Las precondiciones explícitas reducen los contactos inseguros y acortan la longitud promedio del plan. Métricos específicos no disponibles, pero surgen ganancias consistentes a medida que los horizontes crecen y aumentan los distractores.
  • Seguimiento de instrucciones domésticas (ALFRED/TEACh): La estructura de subobjetivos guiada por lenguaje mejora el éxito en composiciones de objetivos novedosos. El diálogo ayuda a desambiguar referencias, ajustando la base de predicados y reduciendo las ramas irrelevantes.
  • Automatización web (WebArena, MiniWoB++, Mind2Web): La inducción a nivel de esquema produce subgrafos reutilizables para autenticación, búsqueda y llenado de formularios que frena acciones no permitidas y reduce el ensayo y error. Los predicados conscientes del DOM alineados con intenciones semánticas amplifican la generalización cruzada de sitios.

Amortización del costo neuronal

  • La extracción neuronal agrega costo en la inferencia si los grafos se reconstruyen en vivo. Amortizar precomputando por familia de tareas y refrescando solo guardias que dependen de la percepción en vivo.
  • Medir “tiempo al primer acción” separadamente de “muro-reloj por paso” para aislar costo de planificación de la latencia del controlador y diagnosticar cuellos de botella.

Métricas que reflejan estructura y velocidad

  • Estructura: precisión/recuperación/F1 de adyacencia, distancias Hamming estructurales o de edición a grafos de referencia donde estén disponibles, F1 a nivel de predicados para precondiciones/efectos, proporciones de borde a nodo, factor de ramificación y longitud del plan relativa al óptimo.
  • Descendente: tasas de éxito, pasos al éxito, frecuencia de replanificación y latencia (por paso y al primer acción). La seguridad y la robustez requieren métricas de violación específicas de dominio (colisiones, caídas, eventos restringidos de UI). Los presupuestos de cálculo/hardware deben ser informados para revelar compensaciones de rendimiento/latencia/costo.

Mejores Prácticas para Construir Grafos Escasos, Correctos y Transferibles

El titular: diseñar para la escasez y calidad de guardia desde el principio, luego ingeniar los datos para preservarlos bajo el ruido del mundo real.

Recolección de datos y emparejamiento de modalidades

  • Para tareas de precisión con mucho contacto, favorecer la teleoperación kinestésica o de alta fidelidad para obtener precondiciones y efectos limpios; superponer detectores de predicados y alineación para evitar grafos sobre densos.
  • Para tareas semánticas de largo horizonte, emparejar demostraciones con lenguaje para exponer jerarquía y restricciones centradas en objetos; considerar mirada/gesto para desambiguación en escenas desordenadas cuando sea posible.
  • Para web/UI, registrar tanto pantalla como DOM con anotaciones semánticas; deduplicar caminos de DOM equivalentes para preservar la reutilización cruz por diseño.

Aprendizaje y regularización

  • Comenzar con la fundamentación del predicado; solo entonces aprender bordes. Usar muestreo negativo explícito para fallos de precondición y penalizar bordes de largo alcance no respaldados por evidencia causal.
  • Alinear fragmentos textuales con eventos de predicados para desambiguar instrucciones casi sinónimas y agudizar guardias en dominios condicionados por lenguaje.
  • Ensamblar a través de operadores; retener solo transiciones corroboradas por trayectorias diversas para resistir idiosincrasias de estilo.

Correcciones on-policy y seguridad

  • Preferir correcciones on-policy donde la seguridad o el cambio de distribución es una preocupación; activar intervenciones a través de riesgo o incertidumbre para reducir el costo humano.
  • Registrar consejos correctivos que actualicen rápidamente bordes y guardias específicos; esto concentra datos cerca de estados raros o frágiles sin aumentar el volumen.
  • Implementar un contrato en tiempo de ejecución: cada borde especifica precondiciones requeridas; cada nodo expone detectores de éxito; los controladores dan a conocer confianza y códigos de fallo. Esto habilita la ejecución protegida, recuperación rápida a través de bordes alternativos y parada segura después de fallos repetidos.

Transferencia y generalización

  • Para la transferencia sim a real, mantener el grafo y guardias estables mientras se intercambian o afinan controladores de bajo nivel; las políticas robustas a la percepción (e.g., difusión o IL con transformador, sugerencias estilo VLA) prosperan bajo la gobernanza del grafo.
  • En la web, alinear predicados con intenciones semánticas de UI como “resultados de búsqueda visibles” en lugar de caminos CSS frágiles; esto es esencial para la generalización cruz por sitio.

Ingeniería de experimentos y reproducibilidad

  • Estandarizar semillas, divisiones de tareas, escalas/datos de ruido y condiciones on-policy vs. offline a través de métodos.
  • Publicar artefactos de grafos, clasificadores de guardias y trazas de planes para inspección independiente; adoptar esquemas para trazas de sensor/acción sincronizadas en el tiempo, snapshots de DOM y alineaciones de lenguaje/mirada.
  • Tratar el cálculo y el hardware como factores variables; publicar curvas de escalabilidad y fronteras de Pareto sobre éxito, latencia y costo.
  • Medir equidad con análisis de subgrupos a través de operadores, variedades lingüísticas, tareas y encarnaciones; documentar consentimiento de datos, privacidad y licencias. ⚖️

Qué comparar en 2026

  • Descubrimiento causal/estructural (e.g., aprendices con restricciones de aciclicidad y escasez) operando sobre predicados.
  • Extracción de grafos neuronales entrenados en demostraciones, videos y lenguaje.
  • RL/IL jerárquico con descubrimiento de opciones y controladores de IL contemporáneos; opcionalmente planificadores de lenguaje/VLA integrados con grafos de habilidades.
  • Evaluar en: manipulación en simulación con subconjuntos sim a real; seguimiento de instrucciones incorporado; y automatización web/GUI con generalización cruz por sitio.

Conclusión Los grafos de tareas escasos y conscientes de la precondición son el núcleo estructural que permite a los agentes planificar rápidamente y actuar de manera fiable en tareas largas. El pipeline que produce esos grafos es tan importante como los modelos: captura cuidadosa de modalidades, segmentación y alineación, fundamentación del predicado y control riguros de escasez. El descubrimiento causal/estructural produce grafos compactos e interpretables cuando los predicados están disponibles; la extracción neuronal descubre jerarquía de percepción y lenguaje en bruto; y el RL/IL jerárquico compila controladores fuertes bajo barandillas estructurales. Combinar estos con correcciones on-policy, inducción a nivel de esquema de UI y contratos de tiempo de ejecución explícitos, y la latencia de planificación cae mientras las tasas de éxito aumentan en RLBench, ALFRED y WebArena.

Puntos clave

  • Tratar el factor de ramificación como un presupuesto; imponer escasez y guardias de bordes desde el principio.
  • Ajustar predicados primero, luego bordes; usar muestreo negativo y poda causal.
  • Emparejar lenguaje con percepción para exponer jerarquía; agregar mirada/gesto para desambiguación donde sea factible.
  • Preferir correcciones on-policy para afinar bordes cerca de estados raros y mejorar la seguridad.
  • Compilar planes en cronogramas protegidos y amortizar extracción neuronal a través de familias de tareas.

Próximos pasos accionables

  • Auditar sus modalidades de demostración; agregar lenguaje o mirada donde aclaren jerarquía e intención.
  • Implementar detectores de éxito y precondición a nivel de predicado antes de aprender bordes.
  • Introducir límites de factor de ramificación y penalizaciones de topología; registrar y revisar bordes podados.
  • Agregar correcciones on-policy activadas por riesgo y registrar códigos de fallo para refinar guardias.
  • Estandarizar semillas/divisiones y publicar artefactos de grafos para hacer resultados comparables.

Mirando hacia adelante, la frontera no se trata tanto de modelos más grandes sino de mejor estructura: grafos que codifican dependencias causales, regulan cada transición y permanecen escasos bajo ruido y diversidad. Construir esos bien, y los agentes de largo horizonte se vuelven no solo competentes, sino también consistentemente rápidos y seguros.

Fuentes y Referencias

arxiv.org
RLBench: The Robot Learning Benchmark & Learning Environment Provides standardized manipulation tasks with programmatic success checks and subgoal structures that benefit from precondition-aware task graphs.
arxiv.org
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills Offers diverse manipulation tasks and evaluation settings where sparse graphs reduce unsafe contacts and planning latency.
arxiv.org
ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks Demonstrates language-grounded, multi-step instruction following where subgoal graphs and predicate grounding improve long-horizon success.
arxiv.org
TEACh: Task-driven Embodied Agents that Chat Shows dialog-driven disambiguation for instruction-following agents, supporting claims about language-conditioned subgoal discovery and guard quality.
arxiv.org
WebArena: A Realistic Web Environment for Building Autonomous Agents Provides realistic multi-site web tasks and logs that map to workflow graphs, illustrating schema induction and branching control.
miniwob.farama.org
MiniWoB++ (Farama) Offers compact UI tasks with well-defined state/action semantics and reference structures to evaluate graph recovery and planning efficiency.
arxiv.org
robomimic: A Framework and Benchmark for Robot Learning from Demonstration Quantifies sensitivity to demonstration quality and heterogeneity, supporting the discussion of noise, sparsity control, and pruning.
arxiv.org
RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation Shows teleoperation at scale with heterogeneous operators, motivating alignment, pruning, and ensembling to counter inflated graphs.
arxiv.org
Open X-Embodiment: Robotic Learning Datasets and RT-X Models Evidence that diversity and scale improve generalization; task-graph learners layered above such policies benefit from broader predicate coverage.
arxiv.org
RT-1: Robotics Transformer for Real-World Control at Scale Represents high-capacity controllers that thrive under graph governance, relevant to compilation and execution contracts.
arxiv.org
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Shows language-conditioned control that pairs well with explicit task graphs to constrain long-horizon behavior.
arxiv.org
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Provides robust low-level control primitives that benefit from high-level graph planning and guard checks.
arxiv.org
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation Demonstrates multi-task IL controllers suited for compilation under task graphs to manage long horizons.
arxiv.org
NOTEARS: Nonlinear Optimization for Causal Structure Learning Canonical method for learning sparse, acyclic structures with explicit penalties—central to predicate-level graph induction.
arxiv.org
GOLEM: Scalable Interpretable Learning of Causal DAGs Strengthens the case for scalable sparse structure learning with acyclicity for compact, interpretable task graphs.
arxiv.org
DAG-GNN: DAG Structure Learning with Graph Neural Networks Shows neural approaches to DAG learning, bridging predicate-level causal discovery with neural extraction.
arxiv.org
Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration Foundational neural approach to induce executable graphs from demonstrations, supporting claims about multimodal extraction and hierarchy.
arxiv.org
DAgger: A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning Establishes on-policy corrections that reduce covariate shift, refining edges near failure states.
arxiv.org
DART: Noise Injection for Robust Imitation Learning Provides mechanisms to improve robustness under noise, aligning with strategies to prevent graph inflation.
arxiv.org
SafeDAgger: Safe Imitation Learning for Autonomous Driving Introduces safety-aware on-policy corrections, relevant to guarded execution and reduced violations.
arxiv.org
Ego4D: Around the World in 3,000 Hours of Egocentric Video Supports the role of egocentric modalities and gaze for intent disambiguation and predicate grounding.
arxiv.org
Mind2Web: Towards a Generalist Agent for the Web Demonstrates cross-site generalization in web tasks, where semantic predicates and reusable subgraphs are essential.
arxiv.org
SayCan: Grounding Language in Robotic Affordances Exemplifies language-conditioned planning guided by affordances, aligning with language-informed subgoal discovery and guards.
arxiv.org
VIMA: General Robot Manipulation with Multimodal Prompts Shows multimodal prompts organizing behaviors that integrate well with explicit task graphs for long-horizon control.
www.jmlr.org
The Options Framework: An Approach for Abstraction in Reinforcement Learning Provides the theoretical basis for skill-based hierarchies used in explicit skill graphs.
arxiv.org
HIRO: Data-Efficient Hierarchical Reinforcement Learning Demonstrates hierarchical RL techniques that form the high-level layer in skill graphs with learned transitions.
arxiv.org
Datasheets for Datasets Guides transparent documentation of datasets, supporting fairness and reproducibility recommendations.

Advertisement