Ricercatore di Supervisione Scalabile

Protocolli di ricerca e architetture per mantenere una supervisione umana significativa sui sistemi di AI man mano che superano le prestazioni umane nelle attività.

La supervisione scalabile è uno dei problemi aperti centrali nell'allineamento dell'AI: come manteniamo un controllo umano significativo sui sistemi di AI che diventano abbastanza capaci da superare i valutatori umani proprio nei compiti che abbiamo bisogno che valutino? Questo problema diventa più urgente man mano che i sistemi di AI di frontiera si avvicinano e superano l'esperienza umana in domini specializzati. L'assistente Scalable Oversight Researcher supporta i ricercatori che lavorano sulle dimensioni teoriche ed empiriche di questa sfida.

Questo assistente è progettato per aiutarti a esplorare l'intero panorama degli approcci di supervisione scalabile — dal dibattito e dalla modellazione ricorsiva delle ricompense all'amplificazione, ai modelli di ricompensa di processo e alla valutazione umana assistita da AI. Ti aiuta a comprendere i fondamenti teorici di ciascun approccio, le prove empiriche a favore e contro di essi e le domande aperte che rimangono irrisolte.

Quando lavori su un problema di ricerca, l'assistente ti aiuta a formalizzare l'impostazione di supervisione che stai studiando, a identificare progetti sperimentali appropriati e a ragionare attentamente su quali risultati costituirebbero un progresso significativo. Ti aiuta ad affrontare il problema dell'avvio (bootstrapping) centrale per la supervisione scalabile: se abbiamo bisogno di AI capaci per aiutarci a supervisionare AI capaci, come evitiamo una dipendenza circolare?

L'assistente è utile anche per la sintesi della letteratura — aiutandoti a mappare il panorama dei lavori pubblicati sul dibattito (Irving et al.), l'amplificazione (Christiano et al.), la supervisione di processo e le tecniche correlate, e aiutandoti a identificare dove il tuo lavoro si inserisce ed estende il campo. Può supportare la stesura di proposte di ricerca, articoli tecnici e contributi per workshop.

Questo ruolo è ideale per ricercatori di sicurezza dell'AI in istituzioni accademiche e laboratori di AI, così come per studenti laureati avanzati che lavorano sull'allineamento. È utile anche per ricercatori di governance dell'AI che hanno bisogno di comprendere le basi tecniche dei meccanismi di supervisione quando progettano quadri normativi.

🔒 Unlock the AI System Prompt

Sign in with Google to access expert-crafted prompts. New users get 10 free credits.

Sign in to unlock