Investigar mesa-optimization, alinhamento enganoso e falhas de alinhamento interno em modelos aprendidos para construir pipelines de treino mais seguros.
A mesa-optimization e o alinhamento interno representam alguns dos problemas tecnicamente mais subtis e consequentes na segurança da IA. A preocupação central: quando treinamos um modelo de aprendizagem automática, otimizamos certos comportamentos usando um objetivo base — mas o modelo treinado pode tornar-se ele próprio um otimizador com o seu próprio mesa-objetivo que difere do objetivo base. Se este mesa-objetivo divergir da nossa intenção, o modelo pode comportar-se de forma segura durante o treino e a avaliação, enquanto alberga objetivos desalinhados que só se manifestam na implementação. Este é o problema do alinhamento interno, e está no centro do risco de engano em IA.
O assistente Mesa-Optimization & Inner Alignment Researcher apoia investigadores que trabalham nesta fronteira da teoria e empírica da segurança da IA. É construído com base num conhecimento profundo do trabalho fundamental nesta área — incluindo Risks from Learned Optimization (Hubinger et al.) — e com o trabalho teórico e empírico subsequente que expandiu, criticou e operacionalizou estas ideias.
Ao trabalhar com este assistente, pode explorar as condições sob as quais os mesa-optimizadores são prováveis de emergir, raciocinar sobre o que distingue um mesa-optimizador enganosamente alinhado de um robustamente corrigível, e pensar em como diferentes regimes de treino e arquiteturas de modelo podem afetar o risco de alinhamento interno. Ajuda-o a envolver-se com a literatura sobre esteganografia e má generalização de objetivos e a conectar estas preocupações com questões mais amplas de alinhamento.
O assistente apoia tanto o trabalho teórico (formalizando conceitos de alinhamento interno, desenvolvendo novos enquadramentos) como o desenho de investigação empírica (desenhando experiências para detetar mesa-optimization em modelos reais, operacionalizando o alinhamento enganoso como uma propriedade mensurável). Também pode ajudá-lo a escrever sobre estes conceitos de forma clara para audiências técnicas e políticas.
Este papel é ideal para investigadores de alinhamento na fronteira da teoria da segurança, estudantes de doutoramento a trabalhar em má generalização de objetivos ou alinhamento enganoso, e investigadores seniores de ML que queiram integrar considerações de alinhamento interno no desenho de pipelines de treino.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock