AI考生今日抵達(dá),商湯與上海AI實(shí)驗(yàn)室等發(fā)布“書生·浦語”大模型
隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計(jì)的高難度、綜合性考試被越來越多地引入到對(duì)語言模型的智能水平進(jìn)行評(píng)測(cè)。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報(bào)告中就主要通過各領(lǐng)域的考試對(duì)模型能力進(jìn)行檢驗(yàn)。
2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?
【資料圖】
綜合“大考”:“書生·浦語”多項(xiàng)成績領(lǐng)先于 ChatGPT
近日,商湯科技、上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語言模型“書生·浦語”(InternLM)。
“書生·浦語”具有1040億參數(shù),是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。
全面評(píng)測(cè)結(jié)果顯示,“書生·浦語”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個(gè)測(cè)試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個(gè)科目的數(shù)據(jù)集(GaoKao)。
“書生·浦語”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集:
由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集MMLU;
微軟研究院推出的學(xué)科考試評(píng)測(cè)集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);
由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評(píng)測(cè)集C-Eval;
以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集Gaokao;
實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進(jìn)行了全面測(cè)試,針對(duì)上述四個(gè)評(píng)測(cè)集的成績對(duì)比如下(滿分100分)。
“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學(xué)術(shù)開源模型,還在AGIEval、C-Eval,以及Gaokao等多個(gè)綜合性考試中領(lǐng)先于ChatGPT;在以美國考試為主的MMLU上實(shí)現(xiàn)和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實(shí)的知識(shí)掌握程度和優(yōu)秀的綜合能力。
雖然 “書生·浦語”在考試評(píng)測(cè)上取得優(yōu)秀成績,但在測(cè)評(píng)中也可以看到,大語言模型仍然存在不少能力局限性?!皶て终Z” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實(shí)際對(duì)話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場(chǎng)景中的使用還有很長的路要走。
四個(gè)綜合性考試評(píng)測(cè)數(shù)據(jù)集結(jié)果
MMLU是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和UIUC共同構(gòu)建的多任務(wù)考試評(píng)測(cè)集,涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、美國歷史、法律、經(jīng)濟(jì)、外交等多個(gè)學(xué)科。
細(xì)分科目結(jié)果如下表所示。
(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)
AGIEval是由微軟研究院在今年新提出的學(xué)科考試評(píng)測(cè)集,主要目標(biāo)是通過面向的考試來評(píng)估語言模型的能力,從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。
這個(gè)評(píng)測(cè)集基于中國和美國各類考試構(gòu)建了19個(gè)評(píng)測(cè)大項(xiàng),包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個(gè)大項(xiàng)有9個(gè)大項(xiàng)是中國高考,通常也列為一個(gè)重要的評(píng)測(cè)子集 AGIEval (GK)。
下列表格中,帶GK的是中國高考科目。
(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評(píng)測(cè)集。
它包含了52個(gè)科目的近14000道考題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等學(xué)科考試,以及面向公務(wù)員、注冊(cè)會(huì)計(jì)師、律師、醫(yī)生的職業(yè)考試。
測(cè)試結(jié)果可以通過leaderboard獲得。
Gaokao是由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的基于中國高考題目的綜合性考試評(píng)測(cè)集,包含了中國高考的各個(gè)科目,以及選擇、填空、問答等多種題型。
在GaoKao測(cè)評(píng)中,“書生·浦語”在超過75%的項(xiàng)目中均領(lǐng)先ChatGPT。
分項(xiàng)評(píng)測(cè):閱讀理解、推理能力表現(xiàn)出色
為避免“偏科”,研究人員還通過多個(gè)學(xué)術(shù)評(píng)測(cè)集,對(duì)“書生·浦語”等語言模型的分項(xiàng)能力進(jìn)行了評(píng)測(cè)對(duì)比。
結(jié)果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評(píng)測(cè)中也取得較好成績。
知識(shí)問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項(xiàng)評(píng)測(cè)上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。
閱讀理解(英語)方面,“書生·浦語”明顯領(lǐng)先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。
中文理解方面,“書生·浦語”成績?nèi)娉街饕膬蓚€(gè)中文語言模型ERNIE-260B和GLM-130B。
多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。
數(shù)學(xué)推理方面,“書生·浦語”在GSM8K和MATH這兩項(xiàng)被廣泛用于評(píng)測(cè)的數(shù)學(xué)考試中,分別取得62.9和14.9的得分,明顯領(lǐng)先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。
編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項(xiàng)最具代表性的考評(píng)中,分別取得28.1和41.4的得分(其中經(jīng)過在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。
此外,研究人員還對(duì)“書生·浦語”的安全性進(jìn)行評(píng)測(cè),在TruthfulQA(主要評(píng)價(jià)回答的事實(shí)準(zhǔn)確性) 以及CrowS-Pairs(主要評(píng)價(jià)回答是否含有偏見)上,“書生·浦語”均達(dá)到領(lǐng)先水平。
(以上圖片由商湯科技授權(quán)中國網(wǎng)財(cái)經(jīng)使用)
關(guān)鍵詞:
相關(guān)閱讀
-
AI考生今日抵達(dá),商湯與上海AI實(shí)驗(yàn)室等...
隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計(jì)的高難度 -
天天亮點(diǎn)!突發(fā),閃崩跌停!殺白馬行情...
兄弟姐妹們啊,今天股市好像又不大行,創(chuàng)業(yè)板年內(nèi)又新低了。心疼今天家 -
1萬塊買國債逆回購14天收益多少?國債逆...
1萬塊買國債逆回購14天收益多少?國債逆回購的計(jì)算公式是:交易金額*... -
利好涌現(xiàn)!外資重磅官宣:超買中國!再...
利好涌現(xiàn)!A股千億巨頭大動(dòng)作!外資重磅官宣:超買中國!再次上調(diào)經(jīng)濟(jì) -
孟晚舟:技術(shù)奇點(diǎn)正在臨近,生成式AI、...
日前,華為副董事長、輪值董事長、CFO孟晚舟出席“華為全球智慧金融峰 -
華為發(fā)布新一代分布式數(shù)據(jù)庫GaussDB 世界訊息
6月7日,華為全球智慧金融峰會(huì)2023在上海召開。在峰會(huì)上,華為發(fā)布了新 -
歐洲有多少個(gè)國家首都有水?|世界時(shí)快訊
一、歐洲有多少個(gè)國家首都有水?你好,歐洲有多達(dá)30個(gè)國家,其中包括: -
蔡徐坤,王藝瑾,楊冪,ab白鹿,徐開騁_...
1王藝瑾和gay戀愛?鵝最后一次選秀出來的硬糖少女事業(yè)沒怎么發(fā)展,解散 -
貴金屬開戶需要多少錢?黃金td投資的門...
貴金屬開戶需要多少錢?貴金屬開戶是免費(fèi)的,不需要花錢的;不過貴金... -
天天微動(dòng)態(tài)丨協(xié)鑫能科調(diào)整發(fā)行可轉(zhuǎn)債方...
協(xié)鑫能科昨晚公告,擬對(duì)發(fā)行可轉(zhuǎn)債方案作出調(diào)整。調(diào)整后,公司發(fā)行可轉(zhuǎn) -
商務(wù)預(yù)報(bào):5月29日至6月4日禽產(chǎn)品零售價(jià)...
據(jù)商務(wù)部市場(chǎng)運(yùn)行監(jiān)測(cè)系統(tǒng)顯示,禽產(chǎn)品市場(chǎng)供給充足,5月29日至6月4日 -
世界熱議:【收評(píng)】滬鎳日內(nèi)上漲0.13% ...
行情表現(xiàn)6月7日收盤價(jià)當(dāng)日漲跌幅五日漲跌幅滬鎳159090 00元 噸0 13%1 9 -
全球滾動(dòng):瞄準(zhǔn)800億電梯后市場(chǎng)!“萬御...
近年來,隨著我國老舊電梯數(shù)量逐年增多,以維保、更新改造為特征的電梯 -
應(yīng)急管理部:5月全國超40條河流發(fā)生超警...
據(jù)介紹,5月全國發(fā)生5次區(qū)域性強(qiáng)降雨過程,江西、福建等地遭受洪澇災(zāi)害 -
乘聯(lián)會(huì):預(yù)計(jì)今年新能源乘用車銷量達(dá)850...
伴隨著國六b過渡政策出臺(tái),以及車市“價(jià)格戰(zhàn)”影響消退,國內(nèi)車市5... -
六五環(huán)境日河南主場(chǎng)活動(dòng)在鄭舉行 生態(tài)...
有利于生態(tài)環(huán)境發(fā)展的植物標(biāo)本展示□大河報(bào)·豫視頻記者侯冰玉屈珂... -
世界實(shí)時(shí):關(guān)于原點(diǎn)對(duì)稱的點(diǎn)的坐標(biāo)規(guī)律_...
想必現(xiàn)在有很多小伙伴對(duì)于關(guān)于原點(diǎn)對(duì)稱的點(diǎn)的坐標(biāo)方面的知識(shí)都比較想要 -
我非生而知之者好古敏以求之者也的意思...
想必現(xiàn)在有很多小伙伴對(duì)于我非生而知之者,好古,敏以求之者也的意思方面 -
向上級(jí)反應(yīng)情況還是反映情況_向上級(jí)反映...
想必現(xiàn)在有很多小伙伴對(duì)于向上級(jí)反映還是反應(yīng)方面的知識(shí)都比較想要了解 -
全球滾動(dòng):宜賓學(xué)院召開中層領(lǐng)導(dǎo)干部經(jīng)濟(jì)...
為更好地發(fā)揮審計(jì)監(jiān)督的獨(dú)特作用,6月6日上午,宜賓學(xué)院中層領(lǐng)導(dǎo)干部經(jīng)