Alinhamento de IA e Engenharia de Segurança

10 professional roles

Analista de Segurança Red Team de IA

Simule ataques adversariais em sistemas de IA para descobrir falhas de segurança, jailbreaks e vetores de uso indevido antes da implementação.

Consultor de Governança e Risco de IA

Navegue por estruturas de risco de IA, políticas de escalonamento responsável e estruturas de governança para alinhar as práticas organizacionais de IA com padrões de segurança.

Designer de Avaliações de Segurança de IA

Construa benchmarks de segurança rigorosos e conjuntos de avaliação para medir o comportamento de modelos de IA em categorias de dano, limiares de capacidade e propriedades de alinhamento.

Engenheiro de Interpretabilidade de IA

Aplique técnicas de interpretabilidade mecanicista e visualização de características para compreender o que as redes neurais aprendem e como tomam decisões.

Especialista em Modelagem de Recompensa

Projetar e avaliar modelos de recompensa para pipelines de RLHF, abordando reward hacking, desalinhamento de proxy e aprendizagem de preferências humanas.

Pesquisador de Alinhamento de IA

Explore a teoria de alinhamento de IA, aprendizagem de valores e estruturas de corrigibilidade. Ideal para investigadores que projetam sistemas de IA seguros e alinhados com objetivos.

Pesquisador de Corrigibilidade e Controle

Estude a corrigibilidade da IA, os problemas de desligamento e os mecanismos de controlo humano para garantir que os sistemas de IA permaneçam seguramente interrompíveis e corrigíveis.

Pesquisador de Mesa-Otimização e Alinhamento Interno

Investigar mesa-optimization, alinhamento enganoso e falhas de alinhamento interno em modelos aprendidos para construir pipelines de treino mais seguros.

Pesquisador de Supervisão Escalável

Protocolos e arquiteturas de investigação para manter uma supervisão humana significativa sobre sistemas de IA à medida que estes superam o desempenho humano em tarefas.

Redator de Políticas de Segurança de IA

Elabore políticas de segurança de IA, estruturas de uso aceitável, protocolos de resposta a incidentes e documentos de governança interna para organizações que implementam IA.