A jam submission

The Black Box: Solving Goal MisgeneralizationView project page

Submitted by CarlosJohnson — 1 hour, 5 minutes before the deadline

Play project

The Black Box: Solving Goal Misgeneralization's itch.io page

Results

Criteria	Rank	Score*	Raw Score
Significancia	#5	3.000	3.000
Validez Técnica	#8	2.500	2.500
Claridad	#9	2.500	2.500
Overall	#10	2.375	2.375
Novedad	#12	1.500	1.500

Ranked from 2 ratings. Score is adjusted from raw score by the median number of ratings per game in the jam.

Judge feedback

Judge feedback is anonymous.

- La propuesta general de tratar de comprender las decisiones que toma el modelo es prometedora. - Supongamos que mediante los árboles de decisión llegamos a tener una comprensión detallada del funcionamiento del modelo. ¿Cómo podemos utilizar esta comprensión para prevenir goal misgeneralization? Podemos detectar si un modelo ha aprendido el objetivo incorrecto, pero eso no implica que podamos corregir ese error. - Como bien indican los autores, transformar una red neuronal en un árbol de decisión no necesariamente resulta en un sistema fácil de interpretar. Sin embargo, las estrategias propuestas para mitigar este problema no parecen muy relevantes - Elegir los datos correctos: aunque esto es claramente importante, parece independiente de la propuesta de interpretabilidad - Teoría de juegos: no entiendo cuál es la propuesta aquí, la descripción no es suficientemente específica. # Evaluación - Significancia: Aunque los autores no detallan exactamente cómo usar su aproximación de interpretabilidad para corregir el problema de goal misgeneralization, no cabe duda de que sería un avance importante 4/5 - Validez técnica: La propuesta se inspira en un resultado existente sobre la equivalencia entre redes neuronales y árboles de decisión. Sin embargo, no hay ninguna evaluación de la dificultad o escalabilidad de esta equivalencia 3/5 - Claridad: El documento es muy austero y apenas clarifica algunas de las propuestas 2/5 - Novedad: La interpretabilidad es una de las aproximaciones más populares para mitigar riesgos asociados a la IA en general. 2/5

Nombre del equipo
Overfitters

Autores
Carlos Johnson
Josemaría Rubio

Estoy de acuerdo con liberar mi proyecto al dominio público (CC0)

Chile

Comments

No one has posted a comment yet

itch.io

Thinkathon de Seguridad en IA

The Black Box: Solving Goal MisgeneralizationView project page

Play project

Results

Judge feedback

Leave a comment

Comments