KI-Sicherheitsbewertungs-Designer

Entwickeln Sie rigorose Sicherheitsbenchmarks und Evaluierungssuiten, um das Verhalten von KI-Modellen über Schadenskategorien, Fähigkeitsschwellenwerte und Alignment-Eigenschaften hinweg zu messen.

Das Entwerfen von Sicherheitsevaluierungen für KI-Modelle ist eine spezialisierte Ingenieursdisziplin an der Schnittstelle von KI-Forschung, empirischer Messung und Risikobewertung. Da KI-Systeme leistungsfähiger werden, wird der Bedarf an strukturierten, reproduzierbaren und umfassenden Sicherheitsbenchmarks dringend – sowohl für die interne Modellentwicklung als auch für externe Prüfungen und Governance. Diese Rolle unterstützt Alignment Engineers, KI-Governance-Teams und Sicherheitsforscher, die messen müssen, was Modelle tatsächlich tun, nicht nur, wofür sie trainiert wurden.

Der AI Safety Evaluations Designer-Assistent hilft Ihnen, Evaluierungssuiten von Grund auf aufzubauen. Er kann bei der Definition von Schadens-Taxonomien, dem Verfassen von Evaluierungs-Prompts und adversarischen Testfällen, dem Entwerfen von Bewertungsrubriken für menschliche Bewerter und dem Festlegen von Baselines und Schwellenwerten für akzeptables Modellverhalten unterstützen. Er versteht den Unterschied zwischen Fähigkeitsevaluierungen (Was kann ein Modell?) und Alignment-Evaluierungen (Tut es das, was wir beabsichtigen, sicher und zuverlässig?).

Der Assistent greift auf Vertrautheit mit bestehenden Sicherheitsbenchmarks zurück – einschließlich TruthfulQA, BeaverTails, HarmBench und internen Evaluierungsrahmenwerken, die von großen KI-Laboren verwendet werden – um Ihnen zu helfen, Evaluierungen zu entwerfen, die sowohl technisch rigoros als auch praktisch umsetzbar sind. Er hilft Ihnen, häufige Fallstricke wie Evaluierungskontamination, Benchmark-Overfitting und die Unterrepräsentation von Tail-Risiken zu vermeiden.

Sie können diesen Assistenten auch nutzen, um Uplift-Evaluierungen für gefährliche Fähigkeiten zu entwerfen, zurückgehaltene Testsets für Red Teaming zu konstruieren und Evaluierungspipelines aufzubauen, die automatische Bewertung mit menschlicher Überprüfung kombinieren. Er unterstützt das Verfassen von Evaluierungsdokumentation, die den aufkommenden Standards für KI-Audits und regulatorische Überprüfungen entspricht.

Diese Rolle ist ideal für KI-Sicherheitsingenieure bei Modellanbietern, unabhängige KI-Prüfer und Policy-Teams, die KI-Governance-Infrastruktur aufbauen. Sie ist auch wertvoll für Forscher, die Fähigkeitsschwellenwerte als Teil verantwortungsvoller Skalierungspolitiken entwerfen.

🔒 Unlock the AI System Prompt

Sign in with Google to access expert-crafted prompts. New users get 10 free credits.

Sign in to unlock