近期,,上海人工智能實(shí)驗(yàn)室的官方微博分享了一則消息:司南評測體系OpenCompass啟動了首次針對大模型的“語數(shù)外”高考全科目能力測評,,使用的是全國新課標(biāo)I卷作為測試基準(zhǔn)。這次特別挑選了六個開源模型,,以及OpenAI的GPT-4o參與,,所有開源模型的公開時間均早于高考日期,,以保障測試環(huán)境的封閉性和公正性。評分工作則委托給具有實(shí)際高考閱卷經(jīng)驗(yàn)的教師執(zhí)行,,確保評估結(jié)果貼近真實(shí)的閱卷標(biāo)準(zhǔn),。測試結(jié)果揭曉,阿里通義千問Qwen2-72B,、OpenAI的GPT-4o以及書生·浦語2.0文曲星(InternLM2-20B-WQX)在眾多模型中脫穎而出,,分列前三名,它們的得分率分別是72.1%,、70.5%和70.4%,。從整體表現(xiàn)看,,這些模型在語言類科目上展現(xiàn)了較強(qiáng)的能力,語文科目的平均得分率達(dá)到67%,,英語更是高達(dá)81%,。相比之下,數(shù)學(xué)成為多數(shù)模型的弱項(xiàng),,平均得分率低至36%,。其中,InternLM2-20B-WQX在數(shù)學(xué)上獲得了最高分75分,,盡管如此,,這一成績?nèi)晕茨芸邕^及格線。
2024年,,新高考1卷將在多個省份實(shí)施,,涉及的地區(qū)包括浙江、江蘇,、河北,、山東,、廣東、福建,、湖北,、湖南、安徽,、江西等,。
2024-06-07 13:17:12沒有浙江卷了