6月12日,夸克發(fā)布了國內(nèi)首個(gè)針對(duì)高考志愿填報(bào)場景開發(fā)的高考志愿大模型,,并推出了“高考深度搜索”,、“志愿報(bào)告”和“智能選志愿”三大核心功能。這款模型能夠提供精準(zhǔn),、個(gè)性化的志愿填報(bào)服務(wù),。
夸克“志愿報(bào)告”以Agent方式運(yùn)行,采用“任務(wù)規(guī)劃—執(zhí)行—檢查—反思”的鏈?zhǔn)酵评砹鞒?,自?dòng)輸出包含沖穩(wěn)保策略,、志愿表及院校專業(yè)推薦等內(nèi)容的完整報(bào)告,。每輪執(zhí)行結(jié)果會(huì)經(jīng)過自動(dòng)檢查,,判斷是否存在邏輯沖突,、數(shù)據(jù)缺漏或排序異常等問題,,并將結(jié)果反饋至“反思”模塊進(jìn)行優(yōu)化。
該模型基于通義千問為基座,,利用領(lǐng)域數(shù)據(jù)優(yōu)勢(shì)進(jìn)行了專項(xiàng)訓(xùn)練,,具備對(duì)復(fù)雜規(guī)則與用戶需求的理解與推理能力。例如,,當(dāng)考生傾向于選擇省內(nèi)且要求985院校時(shí),,如果省內(nèi)符合條件的學(xué)校較少,模型會(huì)嘗試推薦適合的外省985高校,。
在構(gòu)建過程中,,夸克高考志愿大模型融合了自監(jiān)督語義建模、監(jiān)督式對(duì)齊調(diào)優(yōu)以及由專家判別價(jià)值引導(dǎo)的策略精化機(jī)制,。指令微調(diào)階段,,通過結(jié)構(gòu)化數(shù)百名資深高考志愿規(guī)劃師的溝通決策過程,提取出完整的分析路徑與語言風(fēng)格,,從而讓模型深入學(xué)習(xí)人類專家的分析方法,。
此外,夸克高考志愿大模型還生成了中間可驗(yàn)證結(jié)構(gòu),,在復(fù)雜推理任務(wù)中降低了幻覺率,,增強(qiáng)了跨模態(tài)演繹能力和分布外泛化魯棒性,有助于解決需要專業(yè)知識(shí)的復(fù)雜問題,。
為了進(jìn)一步提高模型的專業(yè)度與匹配度,,夸克團(tuán)隊(duì)引入了基于人類偏好強(qiáng)化學(xué)習(xí)(RLHF)的方法來精化策略層,形成了一個(gè)閉環(huán)優(yōu)化機(jī)制,。模型根據(jù)模擬考生檔案生成志愿填報(bào)方案,,再提交給多位高考志愿專家評(píng)估。這些評(píng)估標(biāo)準(zhǔn)涵蓋專業(yè)建議準(zhǔn)確性,、排序邏輯合理性,、分?jǐn)?shù)與興趣平衡以及風(fēng)險(xiǎn)提示等方面,。通過“人類挑刺+模型修正”的方式,使模型輸出更加貼近專家的真實(shí)判斷標(biāo)準(zhǔn),。