AI考生今日抵達(dá),商湯與上海AI實驗室等發(fā)布“書生·浦語”大模型
隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進(jìn)行評測。OpenAI 在其關(guān)于 GPT-4 的技術(shù)報告中就主要通過各領(lǐng)域的考試對模型能力進(jìn)行檢驗。
2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?
【資料圖】
綜合“大考”:“書生·浦語”多項成績領(lǐng)先于 ChatGPT
近日,商湯科技、上海AI實驗室聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級參數(shù)大語言模型“書生·浦語”(InternLM)。
“書生·浦語”具有1040億參數(shù),是在包含1.6萬億token的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。
全面評測結(jié)果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個測試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個科目的數(shù)據(jù)集(GaoKao)。
“書生·浦語”聯(lián)合團隊選取了20余項評測對其進(jìn)行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:
由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評測集MMLU;
微軟研究院推出的學(xué)科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);
由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval;
以及由復(fù)旦大學(xué)研究團隊構(gòu)建的高考題目評測集Gaokao;
實驗室聯(lián)合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進(jìn)行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。
“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學(xué)術(shù)開源模型,還在AGIEval、C-Eval,以及Gaokao等多個綜合性考試中領(lǐng)先于ChatGPT;在以美國考試為主的MMLU上實現(xiàn)和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優(yōu)秀的綜合能力。
雖然 “書生·浦語”在考試評測上取得優(yōu)秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。
四個綜合性考試評測數(shù)據(jù)集結(jié)果
MMLU是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和UIUC共同構(gòu)建的多任務(wù)考試評測集,涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計算機科學(xué)、美國歷史、法律、經(jīng)濟、外交等多個學(xué)科。
細(xì)分科目結(jié)果如下表所示。
(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)
AGIEval是由微軟研究院在今年新提出的學(xué)科考試評測集,主要目標(biāo)是通過面向的考試來評估語言模型的能力,從而實現(xiàn)模型智能和人類智能的對比。
這個評測集基于中國和美國各類考試構(gòu)建了19個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項有9個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。
下列表格中,帶GK的是中國高考科目。
(圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二)
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集。
它包含了52個科目的近14000道考題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計算機等學(xué)科考試,以及面向公務(wù)員、注冊會計師、律師、醫(yī)生的職業(yè)考試。
測試結(jié)果可以通過leaderboard獲得。
Gaokao是由復(fù)旦大學(xué)研究團隊構(gòu)建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。
在GaoKao測評中,“書生·浦語”在超過75%的項目中均領(lǐng)先ChatGPT。
分項評測:閱讀理解、推理能力表現(xiàn)出色
為避免“偏科”,研究人員還通過多個學(xué)術(shù)評測集,對“書生·浦語”等語言模型的分項能力進(jìn)行了評測對比。
結(jié)果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評測中也取得較好成績。
知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。
閱讀理解(英語)方面,“書生·浦語”明顯領(lǐng)先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。
中文理解方面,“書生·浦語”成績?nèi)娉街饕膬蓚€中文語言模型ERNIE-260B和GLM-130B。
多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。
數(shù)學(xué)推理方面,“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數(shù)學(xué)考試中,分別取得62.9和14.9的得分,明顯領(lǐng)先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。
編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中,分別取得28.1和41.4的得分(其中經(jīng)過在代碼領(lǐng)域的微調(diào)后,在HumanEval上的得分可以提升至45.7),明顯領(lǐng)先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。
此外,研究人員還對“書生·浦語”的安全性進(jìn)行評測,在TruthfulQA(主要評價回答的事實準(zhǔn)確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達(dá)到領(lǐng)先水平。
(以上圖片由商湯科技授權(quán)中國網(wǎng)財經(jīng)使用)
關(guān)鍵詞:
相關(guān)閱讀
-
AI考生今日抵達(dá),商湯與上海AI實驗室等...
隨著AI大語言模型越來越多地表現(xiàn)出接近人類智能,面向人類設(shè)計的高難度 -
天天亮點!突發(fā),閃崩跌停!殺白馬行情...
兄弟姐妹們啊,今天股市好像又不大行,創(chuàng)業(yè)板年內(nèi)又新低了。心疼今天家 -
1萬塊買國債逆回購14天收益多少?國債逆...
1萬塊買國債逆回購14天收益多少?國債逆回購的計算公式是:交易金額*... -
利好涌現(xiàn)!外資重磅官宣:超買中國!再...
利好涌現(xiàn)!A股千億巨頭大動作!外資重磅官宣:超買中國!再次上調(diào)經(jīng)濟 -
孟晚舟:技術(shù)奇點正在臨近,生成式AI、...
日前,華為副董事長、輪值董事長、CFO孟晚舟出席“華為全球智慧金融峰 -
華為發(fā)布新一代分布式數(shù)據(jù)庫GaussDB 世界訊息
6月7日,華為全球智慧金融峰會2023在上海召開。在峰會上,華為發(fā)布了新 -
歐洲有多少個國家首都有水?|世界時快訊
一、歐洲有多少個國家首都有水?你好,歐洲有多達(dá)30個國家,其中包括: -
蔡徐坤,王藝瑾,楊冪,ab白鹿,徐開騁_...
1王藝瑾和gay戀愛?鵝最后一次選秀出來的硬糖少女事業(yè)沒怎么發(fā)展,解散 -
貴金屬開戶需要多少錢?黃金td投資的門...
貴金屬開戶需要多少錢?貴金屬開戶是免費的,不需要花錢的;不過貴金... -
天天微動態(tài)丨協(xié)鑫能科調(diào)整發(fā)行可轉(zhuǎn)債方...
協(xié)鑫能科昨晚公告,擬對發(fā)行可轉(zhuǎn)債方案作出調(diào)整。調(diào)整后,公司發(fā)行可轉(zhuǎn) -
商務(wù)預(yù)報:5月29日至6月4日禽產(chǎn)品零售價...
據(jù)商務(wù)部市場運行監(jiān)測系統(tǒng)顯示,禽產(chǎn)品市場供給充足,5月29日至6月4日 -
世界熱議:【收評】滬鎳日內(nèi)上漲0.13% ...
行情表現(xiàn)6月7日收盤價當(dāng)日漲跌幅五日漲跌幅滬鎳159090 00元 噸0 13%1 9 -
全球滾動:瞄準(zhǔn)800億電梯后市場!“萬御...
近年來,隨著我國老舊電梯數(shù)量逐年增多,以維保、更新改造為特征的電梯 -
應(yīng)急管理部:5月全國超40條河流發(fā)生超警...
據(jù)介紹,5月全國發(fā)生5次區(qū)域性強降雨過程,江西、福建等地遭受洪澇災(zāi)害 -
乘聯(lián)會:預(yù)計今年新能源乘用車銷量達(dá)850...
伴隨著國六b過渡政策出臺,以及車市“價格戰(zhàn)”影響消退,國內(nèi)車市5... -
六五環(huán)境日河南主場活動在鄭舉行 生態(tài)...
有利于生態(tài)環(huán)境發(fā)展的植物標(biāo)本展示□大河報·豫視頻記者侯冰玉屈珂... -
世界實時:關(guān)于原點對稱的點的坐標(biāo)規(guī)律_...
想必現(xiàn)在有很多小伙伴對于關(guān)于原點對稱的點的坐標(biāo)方面的知識都比較想要 -
我非生而知之者好古敏以求之者也的意思...
想必現(xiàn)在有很多小伙伴對于我非生而知之者,好古,敏以求之者也的意思方面 -
向上級反應(yīng)情況還是反映情況_向上級反映...
想必現(xiàn)在有很多小伙伴對于向上級反映還是反應(yīng)方面的知識都比較想要了解 -
全球滾動:宜賓學(xué)院召開中層領(lǐng)導(dǎo)干部經(jīng)濟...
為更好地發(fā)揮審計監(jiān)督的獨特作用,6月6日上午,宜賓學(xué)院中層領(lǐng)導(dǎo)干部經(jīng)