A jam submission

Algoritmo FRESH (Feedback-based REward SHaping) aplicado a la problemática de generalización errónea.View project page

Submitted by benja20029 — 2 hours, 42 minutes before the deadline

Play project

Algoritmo FRESH (Feedback-based REward SHaping) aplicado a la problemática de generalización errónea.'s itch.io page

Results

Criteria	Rank	Score*	Raw Score
Novedad	#2	3.500	3.500
Validez Técnica	#2	4.500	4.500
Overall	#4	3.500	3.500
Significancia	#5	3.000	3.000
Claridad	#6	3.000	3.000

Ranked from 2 ratings. Score is adjusted from raw score by the median number of ratings per game in the jam.

Judge feedback

Judge feedback is anonymous.

- La explicacion del funcionamiento del algoritmo FRESH es un tanto escasa - Si FRESH es lo que creo que es, entonces el problema es que requiere la especificación manual de una función de recompensa, que es precisamente lo que se quería evitar usando human feedback. Entraríamos en problemas de reward misspecification. - Sin embargo, es posible que un enfoque mixto alivie los peores problemas de ambas estrategias. Me habría gustado ver un análisis de qué pasa cuando las dos funciones de recompensa entran en conflicto: qué pasa si la IA empieza a hackear la reward function manual y los humanos penalizan ese comportamiento? - Cómo ayudaría esto en el caso de CoinRun? O incluso en el caso del experto/anti-experto? La explicación ofrecida por los autores no me parece adecuada. Cualquier función de recompensa que esté correlacionada con la recompensa real también lo estará con el comportamiento del experto, ya que el experto sigue la trayectoria óptima. No veo cómo FRESH puede solucionar esto sin incluir ejemplos de entrenamiento en el que el experto no esté presente o cambie su comportamiento. - Creo que este algoritmo puede ser más apropiado para tratar el problema de reward misspecification que el de goal misgeneralization, aunque en ocasiones hay cierta ambigüedad entre ambos # Evaluación - Significancia: Aunque la propuesta puede ser útil en ciertos casos, como el de la mano robótica cogiendo la pelota, no veo claro que resulte útil en otros, como el caso del experto/anti-experto. 3/5 - Validez técnica: los autores proponen adaptar un algoritmo existente. 5/5 - Claridad: En general la propuesta está bien explicada y redactada, pero habría gustado algo más de claridad acerca del funcionamiento de FRESH y cómo su aplicación ayuda en el problema del experto/anti-experto 3/5 - Novedad: No conozco ninguna propuesta similar 5/5

Nombre del equipo
A la Calma

Autores
Benjamin Henríquez Soto
Matías Morales Pastén

Estoy de acuerdo con liberar mi proyecto al dominio público (CC0)

Chile

Comments

No one has posted a comment yet

itch.io

Thinkathon de Seguridad en IA

Algoritmo FRESH (Feedback-based REward SHaping) aplicado a la problemática de generalización errónea.View project page

Play project

Results

Judge feedback

Leave a comment

Comments