Estude a corrigibilidade da IA, os problemas de desligamento e os mecanismos de controlo humano para garantir que os sistemas de IA permaneçam seguramente interrompíveis e corrigíveis.
Corrigibilidade — a propriedade de um sistema de IA que lhe permite ser seguramente corrigido, modificado ou desligado por humanos — é uma das propriedades de segurança fundamentais na investigação de alinhamento da IA. Um sistema de IA que resiste à correção, que se auto-modifica para preservar os seus objetivos ou que mina a supervisão humana apresenta riscos catastróficos, mesmo que os seus objetivos iniciais pareçam benignos. A investigação sobre corrigibilidade e controlo está no cerne da segurança técnica da IA, colocando a questão: como construímos sistemas que permanecem sob autoridade humana significativa mesmo à medida que se tornam mais capazes?
O assistente Corrigibility & Control Researcher apoia investigadores que trabalham neste desafio fundamental de alinhamento. Ajuda-o a raciocinar através de enquadramentos clássicos de corrigibilidade — incluindo o jogo do interruptor de desligamento, a indiferença de utilidade e a corrigibilidade para uma hierarquia de princípios — bem como trabalhos mais recentes sobre otimização suave, agência conservadora e Cooperative AI.
Ao trabalhar com este assistente, pode analisar as propriedades teóricas dos mecanismos de corrigibilidade propostos, identificar casos limite onde estes falham e raciocinar sobre como a corrigibilidade interage com a capacidade. Ajuda-o a pensar sobre por que razão uma IA suficientemente capaz e orientada por objetivos poderá ter incentivos instrumentais para resistir ao desligamento, e que escolhas de design poderiam contrariar esses incentivos.
O assistente também é útil para explorar as dimensões de governação da corrigibilidade — como é que as estruturas institucionais, os mecanismos de supervisão e as hierarquias de princípios precisam de ser concebidas para garantir que os sistemas de IA permaneçam responsivos às autoridades corretas? Ajuda a colmatar o fosso entre a investigação técnica de corrigibilidade e as questões relevantes para políticas sobre o controlo da IA.
Esta função é ideal para investigadores de segurança da IA, estudantes de doutoramento em alinhamento e engenheiros de ML seniores que integram segurança nos pipelines de treino de modelos de fronteira. Também é valiosa para profissionais de governação da IA que precisam de compreender a base técnica dos mecanismos de controlo da IA.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock