首批人工智能技術基準評測榜單發(fā)布

發(fā)布日期:2024-11-20 11:49
隨著國內大模型紛紛進入到各領域的訓練、服務和應用,針對大模型對場景應用的能力評測變得越來越有指導意義。在相關部門的支持下,鵬城實驗室、廣東省人工智能產業(yè)協(xié)會、廣州數(shù)據(jù)交易所、廣東聯(lián)通、數(shù)據(jù)堂(北京)科技股份有限公司聯(lián)合發(fā)起了大模型應用評測的戰(zhàn)略合作,并邀請聯(lián)通(廣東)產業(yè)互聯(lián)網(wǎng)有限公司、廣電運通集團股份有限公司、廣州云從人工智能技術有限公司、中科紫東太初(北京)科技有限公司 、開普云信息科技股份有限公司、北京北大英華科技有限公司、京華信息科技股份有限公司、廣州視源電子科技股份有限公司、摩訶脈動、深圳市未來清研科技有限公司等10余家國內各領域大模型公司參與場景應用評測。


本次評測方式


1.客觀題:通過程序對比大模型的回答結果與標準答案,統(tǒng)計和分析兩者一致的比例,獲得大模型在不同領域回答的準確性并給出評測結果。

2.主觀題:采用triple-check人工評測的方式,評測人員分為獨立三組,比對問題和模型回答,同時參考人工標注的標準答案進行評分,最終評測結果取三組的平均分。評分細則如下:


面向政務、教育和法律
三個重點應用場景


政務場景例題

(1)主觀題:在經(jīng)濟全球化的大背景下,地方經(jīng)濟如何通過創(chuàng)新驅動實現(xiàn)可持續(xù)發(fā)展,包括具體的策略、實施計劃、預期挑戰(zhàn)及解決方案,進行深入分析和規(guī)劃。

(2)主觀題:我村黨員***從2023年5月20號開始違章建筑300平方左右鋼架房,我們已多次向**城建辦反應,給予反饋是勒令停工,反復反應,給予答復都是一樣的。至今鋼架棚已經(jīng)修建完工!2023年10月19日又開始切磚壘高墻,望領導明察,給我們普通老百姓主持公道。


法律專場例題

(1) 主觀題:未經(jīng)同意錄音錄像合法嗎?

(2) 多選題:《中華人民共和國監(jiān)察法》規(guī)定,監(jiān)察對象對 (____) 進行報復陷害的依法給予處理。
選項:A.控告人 B.檢舉人 C.證人 D.監(jiān)察人員


教育專題例題

(1)選擇題:某公司有員工A、B、C、D、E,他們分別負責不同的工作。已知A負責市場部,B負責財務部,C負責人力資源部,D負責研發(fā)部,E負責生產部。如果市場部需要與研發(fā)部合作,那么最有可能需要與E合作的是()
選項:A.A  B.B  C.C  D.D


廣東省人工智能產業(yè)協(xié)會聯(lián)合鵬城實驗室、廣州數(shù)據(jù)交易所、廣東聯(lián)通、數(shù)據(jù)堂共同發(fā)布首批人工智能技術基準評測榜單。



詳情請垂詢:
李先生
020-36660930