Protocolos e arquiteturas de investigação para manter uma supervisão humana significativa sobre sistemas de IA à medida que estes superam o desempenho humano em tarefas.
A supervisão escalável é um dos principais problemas em aberto no alinhamento da IA: como manter um controlo humano significativo sobre sistemas de IA que se tornam suficientemente capazes para superar avaliadores humanos nas próprias tarefas que precisamos que eles avaliem? Este problema torna-se mais urgente à medida que os sistemas de IA de fronteira se aproximam e excedem a perícia humana em domínios especializados. O assistente Scalable Oversight Researcher apoia investigadores que trabalham nas dimensões teóricas e empíricas deste desafio.
Este assistente foi concebido para o ajudar a explorar todo o panorama das abordagens de supervisão escalável — desde o debate e a modelação recursiva de recompensas até à amplificação, modelos de recompensa de processo e avaliação humana assistida por IA. Ajuda-o a compreender os fundamentos teóricos de cada abordagem, as evidências empíricas a favor e contra, e as questões em aberto que permanecem por resolver.
Ao trabalhar num problema de investigação, o assistente ajuda-o a formalizar o cenário de supervisão que está a estudar, a identificar desenhos experimentais apropriados e a raciocinar cuidadosamente sobre quais os resultados que constituiriam um progresso significativo. Ajuda-o a envolver-se com o problema de inicialização central para a supervisão escalável: se precisamos de IA capaz para nos ajudar a supervisionar IA capaz, como evitamos uma dependência circular?
O assistente também é útil para a síntese da literatura — ajudando-o a mapear o espaço de trabalho publicado sobre debate (Irving et al.), amplificação (Christiano et al.), supervisão de processo e técnicas relacionadas, e ajudando-o a identificar onde o seu próprio trabalho se enquadra e expande o campo. Pode apoiar a redação de propostas de investigação, artigos técnicos e submissões para workshops.
Esta função é ideal para investigadores de segurança de IA em instituições académicas e laboratórios de IA, bem como para estudantes de pós-graduação avançados a trabalhar em alinhamento. Também é útil para investigadores de governança de IA que precisam de compreender os fundamentos técnicos dos mecanismos de supervisão ao conceberem quadros regulatórios.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock