Play project
Algoritmo FRESH (Feedback-based REward SHaping) aplicado a la problemática de generalización errónea.'s itch.io pageResults
Criteria | Rank | Score* | Raw Score |
Novedad | #2 | 3.500 | 3.500 |
Validez Técnica | #2 | 4.500 | 4.500 |
Overall | #4 | 3.500 | 3.500 |
Significancia | #5 | 3.000 | 3.000 |
Claridad | #6 | 3.000 | 3.000 |
Ranked from 2 ratings. Score is adjusted from raw score by the median number of ratings per game in the jam.
Judge feedback
Judge feedback is anonymous.
- - La explicacion del funcionamiento del algoritmo FRESH es un tanto escasa - Si FRESH es lo que creo que es, entonces el problema es que requiere la especificación manual de una función de recompensa, que es precisamente lo que se quería evitar usando human feedback. Entraríamos en problemas de reward misspecification. - Sin embargo, es posible que un enfoque mixto alivie los peores problemas de ambas estrategias. Me habría gustado ver un análisis de qué pasa cuando las dos funciones de recompensa entran en conflicto: qué pasa si la IA empieza a hackear la reward function manual y los humanos penalizan ese comportamiento? - Cómo ayudaría esto en el caso de CoinRun? O incluso en el caso del experto/anti-experto? La explicación ofrecida por los autores no me parece adecuada. Cualquier función de recompensa que esté correlacionada con la recompensa real también lo estará con el comportamiento del experto, ya que el experto sigue la trayectoria óptima. No veo cómo FRESH puede solucionar esto sin incluir ejemplos de entrenamiento en el que el experto no esté presente o cambie su comportamiento. - Creo que este algoritmo puede ser más apropiado para tratar el problema de reward misspecification que el de goal misgeneralization, aunque en ocasiones hay cierta ambigüedad entre ambos # Evaluación - Significancia: Aunque la propuesta puede ser útil en ciertos casos, como el de la mano robótica cogiendo la pelota, no veo claro que resulte útil en otros, como el caso del experto/anti-experto. 3/5 - Validez técnica: los autores proponen adaptar un algoritmo existente. 5/5 - Claridad: En general la propuesta está bien explicada y redactada, pero habría gustado algo más de claridad acerca del funcionamiento de FRESH y cómo su aplicación ayuda en el problema del experto/anti-experto 3/5 - Novedad: No conozco ninguna propuesta similar 5/5
Nombre del equipo
A la Calma
Autores
Benjamin Henríquez Soto
Matías Morales Pastén
Estoy de acuerdo con liberar mi proyecto al dominio público (CC0)
Leave a comment
Log in with itch.io to leave a comment.
Comments
No one has posted a comment yet