OpenAI已經(jīng)進(jìn)行了大量內(nèi)部安全測試,并正在推進(jìn)外部安全測試,。從即日起,想要參與測試的研究人員可以申請(qǐng)測試o3-mini,,而o3的測試則需要等待,。申請(qǐng)地址已在OpenAI網(wǎng)站上開放,,并將于2025年1月10日關(guān)閉,。申請(qǐng)者需填寫在線表格,,提供相關(guān)信息,包括之前發(fā)表的論文鏈接及其在Github上的代碼庫,,并選擇希望測試的模型及使用目的,。
OpenAI還介紹了一種新的安全評(píng)估方法:審議式對(duì)齊(deliberative alignment)。這種方法直接教授模型安全規(guī)范,,并訓(xùn)練模型在回答前明確回憶規(guī)范并準(zhǔn)確執(zhí)行推理,。他們使用這種方法對(duì)齊o系列模型,,實(shí)現(xiàn)了高度精確的安全政策遵守。