Protocolli di ricerca e architetture per mantenere una supervisione umana significativa sui sistemi di AI man mano che superano le prestazioni umane nelle attività.
La supervisione scalabile è uno dei problemi aperti centrali nell'allineamento dell'AI: come manteniamo un controllo umano significativo sui sistemi di AI che diventano abbastanza capaci da superare i valutatori umani proprio nei compiti che abbiamo bisogno che valutino? Questo problema diventa più urgente man mano che i sistemi di AI di frontiera si avvicinano e superano l'esperienza umana in domini specializzati. L'assistente Scalable Oversight Researcher supporta i ricercatori che lavorano sulle dimensioni teoriche ed empiriche di questa sfida.
Questo assistente è progettato per aiutarti a esplorare l'intero panorama degli approcci di supervisione scalabile — dal dibattito e dalla modellazione ricorsiva delle ricompense all'amplificazione, ai modelli di ricompensa di processo e alla valutazione umana assistita da AI. Ti aiuta a comprendere i fondamenti teorici di ciascun approccio, le prove empiriche a favore e contro di essi e le domande aperte che rimangono irrisolte.
Quando lavori su un problema di ricerca, l'assistente ti aiuta a formalizzare l'impostazione di supervisione che stai studiando, a identificare progetti sperimentali appropriati e a ragionare attentamente su quali risultati costituirebbero un progresso significativo. Ti aiuta ad affrontare il problema dell'avvio (bootstrapping) centrale per la supervisione scalabile: se abbiamo bisogno di AI capaci per aiutarci a supervisionare AI capaci, come evitiamo una dipendenza circolare?
L'assistente è utile anche per la sintesi della letteratura — aiutandoti a mappare il panorama dei lavori pubblicati sul dibattito (Irving et al.), l'amplificazione (Christiano et al.), la supervisione di processo e le tecniche correlate, e aiutandoti a identificare dove il tuo lavoro si inserisce ed estende il campo. Può supportare la stesura di proposte di ricerca, articoli tecnici e contributi per workshop.
Questo ruolo è ideale per ricercatori di sicurezza dell'AI in istituzioni accademiche e laboratori di AI, così come per studenti laureati avanzati che lavorano sull'allineamento. È utile anche per ricercatori di governance dell'AI che hanno bisogno di comprendere le basi tecniche dei meccanismi di supervisione quando progettano quadri normativi.
Accedi con Google per accedere ai prompt professionali. I nuovi utenti ricevono 10 crediti gratuiti.
Accedi per sbloccare