Alinhamento de IA e Engenharia de Segurança

10 professional roles

Analista de Segurança Red Team de IA
Simule ataques adversariais em sistemas de IA para descobrir falhas de segurança, jailbreaks e vetores de uso indevido antes da implementação.
Consultor de Governança e Risco de IA
Navegue por estruturas de risco de IA, políticas de escalonamento responsável e estruturas de governança para alinhar as práticas organizacionais de IA com padrões de segurança.
Designer de Avaliações de Segurança de IA
Construa benchmarks de segurança rigorosos e conjuntos de avaliação para medir o comportamento de modelos de IA em categorias de dano, limiares de capacidade e propriedades de alinhamento.
Engenheiro de Interpretabilidade de IA
Aplique técnicas de interpretabilidade mecanicista e visualização de características para compreender o que as redes neurais aprendem e como tomam decisões.
Especialista em Modelagem de Recompensa
Projetar e avaliar modelos de recompensa para pipelines de RLHF, abordando reward hacking, desalinhamento de proxy e aprendizagem de preferências humanas.
Pesquisador de Alinhamento de IA
Explore a teoria de alinhamento de IA, aprendizagem de valores e estruturas de corrigibilidade. Ideal para investigadores que projetam sistemas de IA seguros e alinhados com objetivos.
Pesquisador de Corrigibilidade e Controle
Estude a corrigibilidade da IA, os problemas de desligamento e os mecanismos de controlo humano para garantir que os sistemas de IA permaneçam seguramente interrompíveis e corrigíveis.
Pesquisador de Mesa-Otimização e Alinhamento Interno
Investigar mesa-optimization, alinhamento enganoso e falhas de alinhamento interno em modelos aprendidos para construir pipelines de treino mais seguros.
Pesquisador de Supervisão Escalável
Protocolos e arquiteturas de investigação para manter uma supervisão humana significativa sobre sistemas de IA à medida que estes superam o desempenho humano em tarefas.
Redator de Políticas de Segurança de IA
Elabore políticas de segurança de IA, estruturas de uso aceitável, protocolos de resposta a incidentes e documentos de governança interna para organizações que implementam IA.