日本一区二区三区久久久,午夜视频免费在线,喑交小拗女一区二区三区,91麻豆免费,77777日本少妇久7黄绝片,日b免费视频,国产精品去看片

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

174名北大學(xué)生能否考過(guò)AI?結(jié)果很意外

2025-12-28 09:08:14

北京大學(xué)化學(xué)與分子工程學(xué)院舉辦特殊期中考,174名學(xué)生與GPT等AI同場(chǎng)競(jìng)技,測(cè)試SUPERChem題庫(kù)。該題庫(kù)500題源自高難度試題和前沿文獻(xiàn)改編,旨在考察AI科學(xué)推理能力。結(jié)果顯示,AI成績(jī)僅與低年級(jí)本科生相當(dāng),處理視覺(jué)信息、高階任務(wù)時(shí)存在明顯短板。目前SUPERChem已開(kāi)源,團(tuán)隊(duì)希望它能成為公共財(cái)富,催化技術(shù)爆發(fā)。

每經(jīng)編輯|畢陸名    

據(jù)北京大學(xué)24日消息,在北京大學(xué)化學(xué)與分子工程學(xué)院,有機(jī)化學(xué)考試是許多同學(xué)痛并快樂(lè)著的挑戰(zhàn)。然而,期中考前突如其來(lái)的一條通知,卻讓這場(chǎng)考試的氣氛變得不同尋常:

“請(qǐng)注意,本次考試范圍不僅限于有機(jī)化學(xué)?!?/p>

但比起考試范圍的變化,考場(chǎng)里迎來(lái)的一批“特殊考生”,更讓人意想不到。

它們不需要落座,也無(wú)需紙筆。它們是GPT、Gemini、DeepSeek……這些當(dāng)下世界上最聰明的AI,正在云端與174位北大化學(xué)與分子工程學(xué)院的大二學(xué)生同場(chǎng)競(jìng)技。

這是一場(chǎng)精心設(shè)計(jì)的“圖靈測(cè)試”,也是北大科研團(tuán)隊(duì)為大語(yǔ)言模型投下的一塊“試金石”。

近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合北大計(jì)算中心、計(jì)算機(jī)學(xué)院、元培學(xué)院團(tuán)隊(duì),發(fā)布了最新成果SUPERChem。近期,他們以一套“北大試卷”為標(biāo)尺,冷靜丈量著AI在科學(xué)推理上的真實(shí)邊界。

一場(chǎng)特殊的期中考

打開(kāi)SUPERChem的題庫(kù),一種“壓迫感”撲面而來(lái)。

晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機(jī)理的深度推演、物化性質(zhì)的定量計(jì)算……這500道題目并非來(lái)自網(wǎng)絡(luò)上隨手可得的公開(kāi)題庫(kù),而是源于對(duì)高難度試題和前沿專業(yè)文獻(xiàn)的深度改編。

為什么要費(fèi)盡周折重新出題?

“因?yàn)榇竽P吞珪?huì)‘背書’了。”團(tuán)隊(duì)成員解釋道。互聯(lián)網(wǎng)可及的測(cè)試題大多已被博聞強(qiáng)識(shí)的AI在訓(xùn)練階段熟讀。而化學(xué),恰恰是一門不能只靠死記硬背的學(xué)科。它既有嚴(yán)密的邏輯推演,又充滿了對(duì)微觀世界的空間想象?!拔覀兎浅:闷?,大語(yǔ)言模型的一維next token prediction,能否解決二維、甚至三維空間中的復(fù)雜推理問(wèn)題?!?/p>

要設(shè)計(jì)一套讓AI“沒(méi)見(jiàn)過(guò)”、必須靠硬實(shí)力推理的題目,難度極高。然而,這正是北大化院的獨(dú)特優(yōu)勢(shì)所在。近百名師生——其中不乏奧賽金牌得主——集結(jié)起來(lái),決定給AI出一套高門檻、重推理、防作弊的試卷。

他們要考的,是AI是否真的“懂”化學(xué)。

一場(chǎng)游戲中的學(xué)術(shù)共創(chuàng)

設(shè)計(jì)題目往往是枯燥的,但這群年輕的北大人卻把它變成了一場(chǎng)“游戲”。

為了構(gòu)建這套高質(zhì)量評(píng)估集,團(tuán)隊(duì)搭建了一個(gè)專屬協(xié)作平臺(tái)。在這里,出題、審題、修題從單調(diào)的任務(wù),變成了一套循序漸進(jìn)的“通關(guān)”流程。成員們?cè)谄脚_(tái)上協(xié)作,互相審閱、彼此“找茬”,讓嚴(yán)謹(jǐn)?shù)目茖W(xué)探討與活躍的思維碰撞交織共融。

團(tuán)隊(duì)還引入了積分激勵(lì)系統(tǒng),讓出題過(guò)程就像在游戲中打怪升級(jí)。一道題目需歷經(jīng)編寫初稿、撰寫解析,再通過(guò)初審與終審的嚴(yán)格審核,每個(gè)環(huán)節(jié)均由不同的同學(xué)把關(guān),并發(fā)放相應(yīng)的積分。終審?fù)ㄟ^(guò)的題目,甚至最多迭代過(guò)15個(gè)版本。

當(dāng)最強(qiáng)大腦遇上“北大難度”

考試成績(jī)揭曉。

在這場(chǎng)精心設(shè)計(jì)的考試中,人類展現(xiàn)出了復(fù)雜的科學(xué)直覺(jué)。作為基線,參與測(cè)試的北大化院本科生取得了40.3%的平均準(zhǔn)確率。這個(gè)數(shù)字本身,就足以說(shuō)明這套題目的硬核程度。

而AI的表現(xiàn)如何?

即便是接受測(cè)試的頂尖模型,其成績(jī)也僅與低年級(jí)本科生的平均水平相當(dāng)。

 

讓團(tuán)隊(duì)感到意外的是視覺(jué)信息帶來(lái)的困惑?;瘜W(xué)的語(yǔ)言是圖形,分子結(jié)構(gòu)、反應(yīng)機(jī)理圖蘊(yùn)含著關(guān)鍵信息。然而對(duì)于部分模型而言,當(dāng)引入圖像信息時(shí),其準(zhǔn)確率不升反降。這說(shuō)明,當(dāng)前的AI在將視覺(jué)信息轉(zhuǎn)化為化學(xué)語(yǔ)義時(shí),仍存在明顯的感知瓶頸。

然而,即使選對(duì)了答案,解題步驟也可能經(jīng)不起推敲。因此,團(tuán)隊(duì)為每一道題目都標(biāo)注了詳細(xì)的評(píng)分規(guī)則。在SUPERChem這臺(tái)“顯微鏡”下,AI是真懂還是裝懂,一目了然。

團(tuán)隊(duì)發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別以及構(gòu)效關(guān)系分析等高階任務(wù)。當(dāng)前的頂尖模型雖然擁有海量的知識(shí)儲(chǔ)備,但在處理需要嚴(yán)密邏輯和深刻理解的硬核化學(xué)問(wèn)題時(shí),仍顯得力不從心。

通向AGI的一小步

SUPERChem的誕生,填補(bǔ)了化學(xué)領(lǐng)域多模態(tài)深度推理評(píng)測(cè)的空白。

團(tuán)隊(duì)發(fā)布這項(xiàng)成果,并非為了證明AI的短板,而是為了推動(dòng)它走得更遠(yuǎn)。SUPERChem就像一個(gè)路標(biāo)。它提醒我們:從通用的聊天機(jī)器人,到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機(jī)理的專業(yè)科學(xué)助手,中間還有很長(zhǎng)的一段路要走。那是從“記住知識(shí)”到“理解物理世界”的跨越。

目前,SUPERChem項(xiàng)目已全面開(kāi)源。團(tuán)隊(duì)希望這套源自北大的“試卷”,能成為全球科學(xué)與人工智能領(lǐng)域的公共財(cái)富,去催化下一次技術(shù)的爆發(fā)?;蛟S在不久的將來(lái),當(dāng)我們?cè)俅未蜷_(kāi)這張?jiān)嚲頃r(shí),AI能交出一份滿分的答卷。那將是化學(xué)與人工智能共同的驚喜。

挑戰(zhàn)一下?

我們選取了一道未能進(jìn)入SUPERChem題庫(kù)的“簡(jiǎn)單”題目,邀請(qǐng)你來(lái)體驗(yàn)這場(chǎng)考試。

為紀(jì)念門捷列夫發(fā)現(xiàn)元素周期律150周年,國(guó)際純粹和應(yīng)用化學(xué)聯(lián)合會(huì)將2019年設(shè)為“國(guó)際化學(xué)元素周期表年”。門捷列夫預(yù)言了多種當(dāng)時(shí)未知的元素,M即為其中之一。

M是一種銀白色金屬,質(zhì)軟,能溶于濃硫酸、硝酸、鹽酸和稀堿溶液。M與氧氣加熱至250°C反應(yīng),可得到淡黃色固體A,A經(jīng)SOCl2處理可得到亮黃色固體B,B也可由M與黃綠色氣體C直接加熱反應(yīng)得到;若將B與單質(zhì)氣體D加熱至200°C反應(yīng),則轉(zhuǎn)化為紅色固體E;將M直接溶于稀鹽酸,也可得到E的溶液;但若將鍍有M的鎂片溶于稀鹽酸,可以制得少量二元化合物F;F在常溫下為液體,不穩(wěn)定,其水溶液顯酸性;F能與金屬鉀反應(yīng),生成淡灰色固體G,并放出單質(zhì)氣體D。

根據(jù)上述信息,從以下選項(xiàng)選出正確的說(shuō)法:

A:物質(zhì)M的原子序數(shù)和族數(shù)的奇偶性不同

B:鍍有M的鎂片與稀鹽酸反應(yīng),產(chǎn)物中Mg的化合價(jià)與A中M的化合價(jià)一樣

C:G具有反螢石結(jié)構(gòu)

D:由于空氣氧化,E溶液久置會(huì)轉(zhuǎn)化成含B溶液

每日經(jīng)濟(jì)新聞綜合北京大學(xué)


如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

1

0