¿Cuáles son algunas tendencias de investigación actuales en el aprendizaje por refuerzo?

En mi opinión, aquí hay algunos campos candentes en Reinforcement Learning en este momento:

  • Eficiencia de datos

Las personas no necesitan aprender miles de veces para realizar una tarea. Las personas tampoco necesitan volver a aprender cada vez que realizan una tarea similar. Pero eso es lo que están haciendo las máquinas ahora, y debería haber una mejor manera.

Algunas buenas palabras clave para descubrir más: aprendizaje de tareas múltiples, aprendizaje de transferencia, adaptación de dominio, aprendizaje de imitación, aprendizaje de refuerzo jerárquico.

  • Aprendizaje de refuerzo en robótica

Las máquinas ahora son extremadamente buenas en los juegos, desde Atari hasta Ajedrez, Go, … Algunos incluso pueden jugar Dota. Es hora de enseñar a los robots a aprender.

Actualmente, que yo sepa, los robots ni siquiera pueden aprender totalmente de RL para realizar algunas tareas básicas como agarrar, caminar o correr.

  • Seguridad en el aprendizaje por refuerzo

Cómo evitar comportamientos no deseados y recompensar la piratería en RL. Este problema se vuelve muy importante si queremos aplicar RL con éxito a los robots. No tenemos 1000 robots para romper en el entrenamiento.

  • Aprendizaje competitivo y cooperativo de refuerzo multiagente

La competencia ayuda a reducir el diseño manual cuando se entrena a los agentes. (AlphaGo Zero aprende totalmente del juego propio)

La cooperación ayuda a realizar una tarea más grande que ningún agente individual puede lograr.

Algunos buenos laboratorios en aprendizaje por refuerzo:

  • Google DeepMind
  • Blog de OpenAI
  • Archivo de investigación de inteligencia artificial de Berkeley

Puedo responder pero quizás más desde el lado de la robótica …

Aprendiendo del aprendizaje de demostración / imitación

Aprendizaje de refuerzo inverso

Transferir aprendizaje

Un disparo de aprendizaje

Formas de aprender eficientemente políticas con muchos parámetros

RL jerárquico

RL multiagente

Funciones de recompensa

Mucho de lo que impulsa la investigación de RL en robótica es tratar de obtener buenas políticas con experiencia limitada para robots / tareas complejas.

Se avecina una nueva tendencia: las distribuciones de aprendizaje sobre las recompensas conducen a lo último en RL. Este enfoque muestra resultados sorprendentes con poco esfuerzo.