首批人工智能技術(shù)基準(zhǔn)評(píng)測(cè)榜單發(fā)布

發(fā)布日期:2024-11-20 11:49
隨著國(guó)內(nèi)大模型紛紛進(jìn)入到各領(lǐng)域的訓(xùn)練、服務(wù)和應(yīng)用,針對(duì)大模型對(duì)場(chǎng)景應(yīng)用的能力評(píng)測(cè)變得越來越有指導(dǎo)意義。在相關(guān)部門的支持下,鵬城實(shí)驗(yàn)室、廣東省人工智能產(chǎn)業(yè)協(xié)會(huì)、廣州數(shù)據(jù)交易所、廣東聯(lián)通、數(shù)據(jù)堂(北京)科技股份有限公司聯(lián)合發(fā)起了大模型應(yīng)用評(píng)測(cè)的戰(zhàn)略合作,并邀請(qǐng)聯(lián)通(廣東)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司、廣電運(yùn)通集團(tuán)股份有限公司、廣州云從人工智能技術(shù)有限公司、中科紫東太初(北京)科技有限公司 、開普云信息科技股份有限公司、北京北大英華科技有限公司、京華信息科技股份有限公司、廣州視源電子科技股份有限公司、摩訶脈動(dòng)、深圳市未來清研科技有限公司等10余家國(guó)內(nèi)各領(lǐng)域大模型公司參與場(chǎng)景應(yīng)用評(píng)測(cè)。


本次評(píng)測(cè)方式


1.客觀題:通過程序?qū)Ρ却竽P偷幕卮鸾Y(jié)果與標(biāo)準(zhǔn)答案,統(tǒng)計(jì)和分析兩者一致的比例,獲得大模型在不同領(lǐng)域回答的準(zhǔn)確性并給出評(píng)測(cè)結(jié)果。

2.主觀題:采用triple-check人工評(píng)測(cè)的方式,評(píng)測(cè)人員分為獨(dú)立三組,比對(duì)問題和模型回答,同時(shí)參考人工標(biāo)注的標(biāo)準(zhǔn)答案進(jìn)行評(píng)分,最終評(píng)測(cè)結(jié)果取三組的平均分。評(píng)分細(xì)則如下:


面向政務(wù)、教育和法律
三個(gè)重點(diǎn)應(yīng)用場(chǎng)景


政務(wù)場(chǎng)景例題

(1)主觀題:在經(jīng)濟(jì)全球化的大背景下,地方經(jīng)濟(jì)如何通過創(chuàng)新驅(qū)動(dòng)實(shí)現(xiàn)可持續(xù)發(fā)展,包括具體的策略、實(shí)施計(jì)劃、預(yù)期挑戰(zhàn)及解決方案,進(jìn)行深入分析和規(guī)劃。

(2)主觀題:我村黨員***從2023年5月20號(hào)開始違章建筑300平方左右鋼架房,我們已多次向**城建辦反應(yīng),給予反饋是勒令停工,反復(fù)反應(yīng),給予答復(fù)都是一樣的。至今鋼架棚已經(jīng)修建完工!2023年10月19日又開始切磚壘高墻,望領(lǐng)導(dǎo)明察,給我們普通老百姓主持公道。


法律專場(chǎng)例題

(1) 主觀題:未經(jīng)同意錄音錄像合法嗎?

(2) 多選題:《中華人民共和國(guó)監(jiān)察法》規(guī)定,監(jiān)察對(duì)象對(duì) (____) 進(jìn)行報(bào)復(fù)陷害的依法給予處理。
選項(xiàng):A.控告人 B.檢舉人 C.證人 D.監(jiān)察人員


教育專題例題

(1)選擇題:某公司有員工A、B、C、D、E,他們分別負(fù)責(zé)不同的工作。已知A負(fù)責(zé)市場(chǎng)部,B負(fù)責(zé)財(cái)務(wù)部,C負(fù)責(zé)人力資源部,D負(fù)責(zé)研發(fā)部,E負(fù)責(zé)生產(chǎn)部。如果市場(chǎng)部需要與研發(fā)部合作,那么最有可能需要與E合作的是()
選項(xiàng):A.A  B.B  C.C  D.D


廣東省人工智能產(chǎn)業(yè)協(xié)會(huì)聯(lián)合鵬城實(shí)驗(yàn)室、廣州數(shù)據(jù)交易所、廣東聯(lián)通、數(shù)據(jù)堂共同發(fā)布首批人工智能技術(shù)基準(zhǔn)評(píng)測(cè)榜單。



詳情請(qǐng)垂詢:
李先生
020-36660930