91天堂国产在线-а√在线中文在线新版-国产成人精品一区二区三区在线-国产午夜精品久久久久久免费视-精品国产乱码久久久久久牛牛-久久久裸体视频

現(xiàn)代資訊現(xiàn)代實(shí)驗(yàn)室裝備網(wǎng)
全國(guó)服務(wù)熱線
400-100-9187、0731-84444840

2025年GDC|“以人為本”大模型評(píng)測(cè)體系正式發(fā)布

   2025-02-26 852
核心提示:大模型能力越來(lái)越強(qiáng),各類評(píng)測(cè)榜單層出不窮,模型分?jǐn)?shù)越刷越高,但大模型的能力對(duì)我們個(gè)人來(lái)說(shuō)究竟有什么用,我們并不知道。2月2
 “大模型能力越來(lái)越強(qiáng),各類評(píng)測(cè)榜單層出不窮,模型分?jǐn)?shù)越刷越高,但大模型的能力對(duì)我們個(gè)人來(lái)說(shuō)究竟有什么用,我們并不知道。”2月22日,在2025全球開發(fā)者先鋒大會(huì)(GDC)“浦江AI生態(tài)論壇”上,上海人工智能實(shí)驗(yàn)室雙聘研究員、上海交通大學(xué)教授翟廣濤表示,大模型終究要為人服務(wù),當(dāng)前以模型為中心的先出題、再做題、算分的評(píng)價(jià)模式面臨數(shù)據(jù)泄露和性能飽和兩大挑戰(zhàn),大模型出現(xiàn)“高分低能”。

為了應(yīng)對(duì)這種情況,上海人工智能實(shí)驗(yàn)室提出了“以人為本”的評(píng)測(cè)思路。上海人工智能實(shí)驗(yàn)室大模型開放評(píng)測(cè)平臺(tái)司南正式發(fā)布“以人為本”(Human-Centric eval)的大模型評(píng)測(cè)體系,系統(tǒng)評(píng)估大模型能力對(duì)人類社會(huì)的實(shí)際價(jià)值,為人工智能應(yīng)用更貼近人類需求提供可量化的人本評(píng)估標(biāo)注。

上海人工智能實(shí)驗(yàn)室提出“以人為本”的評(píng)測(cè)思路。

 

傳統(tǒng)大模型基準(zhǔn)測(cè)試普遍采用結(jié)果導(dǎo)向的評(píng)價(jià)標(biāo)準(zhǔn),這種評(píng)價(jià)方式雖然能夠直觀反映模型性能,卻忽略了人類實(shí)際需求。司南團(tuán)隊(duì)提出的評(píng)測(cè)方案根據(jù)人類需求設(shè)計(jì)實(shí)際問題,讓人與大模型協(xié)作解決,再由人類對(duì)模型的輔助能力進(jìn)行主觀評(píng)分,以此補(bǔ)充客觀評(píng)價(jià)的不足,使評(píng)估更貼合人類感知。

其中,“認(rèn)知科學(xué)驅(qū)動(dòng)”評(píng)估框架圍繞解決問題能力、信息質(zhì)量、交互體驗(yàn)三大核心維度,構(gòu)建覆蓋多場(chǎng)景、多領(lǐng)域的主觀評(píng)測(cè)體系。通過模擬學(xué)術(shù)研究、數(shù)據(jù)分析、決策支持等真實(shí)人類需求,由用戶與大模型協(xié)作完成任務(wù),并基于人類主觀反饋量化評(píng)估模型的實(shí)際應(yīng)用價(jià)值,為下一步技術(shù)研發(fā)與產(chǎn)業(yè)落地提供科學(xué)參考。

為了驗(yàn)證“以人為本”評(píng)估方式的有效性,同時(shí)評(píng)測(cè)大模型在研究生學(xué)術(shù)研究中的應(yīng)用價(jià)值,司南團(tuán)隊(duì)選取了當(dāng)前公認(rèn)的優(yōu)秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作為評(píng)測(cè)對(duì)象,組織有學(xué)術(shù)研究需求的研究生參與。團(tuán)隊(duì)根據(jù)文獻(xiàn)綜述、數(shù)據(jù)分析、可行性研究等學(xué)術(shù)研究中的常見需求,設(shè)計(jì)了人工智能、法律、金融等8個(gè)領(lǐng)域的相關(guān)問題,研究生與大模型協(xié)作解決。實(shí)驗(yàn)結(jié)果顯示,所有受測(cè)模型分析準(zhǔn)確性、思考全面性、協(xié)助高效性維度能力均勢(shì)。DeepSeek-R1在解決生物、教育學(xué)科問題上表現(xiàn)突出;Grok-3在金融、自然領(lǐng)域優(yōu)勢(shì)明顯;GPT-o3-mini則在社會(huì)領(lǐng)域表現(xiàn)良好。

 
反對(duì) 0舉報(bào) 0 收藏 0 打賞 0
 
更多>同類資訊
推薦圖文
推薦資訊
點(diǎn)擊排行
?