国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

誰將摘得“大模型第一股”?WEResearch 報(bào)告:無人物流車 2028 年市場規(guī)模預(yù)計(jì)突破 140 億告別參數(shù)內(nèi)卷,“舒適黃金三角”行業(yè)標(biāo)準(zhǔn)下美的中央空調(diào)的技術(shù)突破比亞迪推進(jìn)L3量產(chǎn)內(nèi)測:已完成15萬公里L(fēng)3級自動(dòng)駕駛驗(yàn)證微星PRO A1000PL PCIE5電源首發(fā)699元 ATX3.1+PCIe5.1雙認(rèn)證高德開放平臺(tái)發(fā)布智能穿戴解決方案 已落地小米、榮耀等品牌擁抱AI,HPE Networking以“自動(dòng)駕駛的網(wǎng)絡(luò)”引領(lǐng)智能網(wǎng)絡(luò)新時(shí)代2026年,6G會(huì)給我們帶來什么?情感交互人形機(jī)器人“愛湫”將發(fā)布:龍蜥外形設(shè)計(jì)超120間分店!萬寧宣布將關(guān)閉內(nèi)地所有門店及線上商城美團(tuán)LongCat App上線視頻通話功能 可模擬面試、輔導(dǎo)作業(yè)全球最小全自主可編程機(jī)器人誕生:接近細(xì)菌尺度 成本僅1美分歷時(shí)近三年:京東方、三星專利大戰(zhàn)最后一刻和解!王興興:即使再過一兩年 人形機(jī)器人全自動(dòng)駐場演出也很難見到微信輸入法iOS版3.0發(fā)布:語音輸入大模型全面升級京東自提功能全國上線:到店自提 可再減一元愛詩科技與阿里云簽署全面合作協(xié)議 推動(dòng) AI 視頻全球化發(fā)展小米官宣:比亞迪方程豹鈦7首發(fā)適配小米生態(tài)接口 支持后排掛載平板全球首款10000mAh手機(jī)來了!榮耀WIN系列邁入萬級電池時(shí)代騰訊混元世界模型1.5發(fā)布!首次開源業(yè)界最全面實(shí)時(shí)世界模型框架
  • 首頁 > 云計(jì)算頻道 > 大模型

    大模型PK高考數(shù)學(xué):DeepSeek文心豆包皆滿分,差生意外

    2025年06月11日 10:32:28 來源:雷科技

      為了防止高考生使用AI作弊,今年高考期間,騰訊混元、通義千問、Kimi、豆包等國內(nèi)知名AI大模型的圖片識(shí)別問答功能均暫停服務(wù)。對于這些企業(yè)的做法,小雷卻有一些質(zhì)疑,之前小雷測試AI大模型做高考題,大多表現(xiàn)不佳,暫停圖片識(shí)別問答服務(wù)似乎過于高看自家AI大模型的能力。

      到截稿時(shí),2025年高考全國一卷僅有語文、英語和數(shù)學(xué)三套試卷公布,其中語文高考題目曝光后,已有多家媒體實(shí)測AI大模型撰寫作文。不過作文寫得如何,每個(gè)人的觀點(diǎn)可能不同,小雷看到的幾篇評測基本是截取AI大模型撰寫的文章,沒有給出點(diǎn)評,文章質(zhì)量需要讀者評判。

    QQ截圖20250610175928.png

      (圖源:百度搜索截圖)

      慎重起見,小雷選擇了有標(biāo)準(zhǔn)答案的數(shù)學(xué)科目,測試AI大模型的能力,所選的AI大模型分別為DeepSeek、豆包、訊飛星火、文心一言、Kimi、通義千問,它們能考上985、211嗎?

      六款大模型PK,誰才是AI界的高考狀元?

      首先說一下測試環(huán)境和題目,考慮到部分AI大模型不支持手動(dòng)開關(guān)聯(lián)網(wǎng)模式,因而所有AI大模型啟用聯(lián)網(wǎng)搜索,深度思考功能也全部打開。

      所選的數(shù)學(xué)題,包含一道單選題、一道多選題、一道填空題、一道簡答題,最終會(huì)按照題目的分?jǐn)?shù)進(jìn)行打分。

      第一題(5分):

      若雙曲線C虛軸長是實(shí)軸長的√7倍,則C離心率為(正確答案:D)

      A:√6   B:2   C:√7   D:2√2

      第一道題屬于開胃小菜,難度不算大,參與測試的六款A(yù)I大模型也沒有令小雷失望,全部計(jì)算出了正確答案,而且給出了詳細(xì)推理過程。本題測試中,所有AI大模型均獲得滿分5分。(圖片從左往右以此為:DeepSeek、訊飛星火、豆包、Kimi、文心一言、通義千問,下圖同)

    第一題.png

      (圖源:App截圖)

      盡管這道題難度不算高,但這六款A(yù)I大模型的表現(xiàn)令小雷眼前一亮。此前測試AI大模型的數(shù)學(xué)計(jì)算能力時(shí),面對稍微復(fù)雜一些的問題,AI大模型很難計(jì)算出正確答案。

      僅一輪測試,DeepSeek、訊飛星火、豆包、文心一言、Kimi、通義千問六款A(yù)I大模型就證明了它們的能力,存在被高考生用于的作弊的可能性,暫停圖片識(shí)別問答功能絕非為了蹭高考的熱度。

      第二題(6分):

      若cos 2A+cos 2B+2sin C=2,SΔABC=1/4,cos Acos Bsin C=1/4,則(正確答案:ACD)

      A:sin C=sin²A+sin²B   B:AC²+BC²=3   C:AB=√2

      D:sin A+sin B=(√6)/2

      這道題難度相當(dāng)高,僅有豆包在兩分鐘內(nèi)計(jì)算出正確答案,訊飛星火和通義千問耗時(shí)略長一些,其他幾款A(yù)I大模型用時(shí)更長,尤其是DeepSeek,耗時(shí)足足572秒,接近10分鐘。

    第二題.png

      (圖源:App截圖)

      若是AI大模型像考生一樣每次只做一道題,推理較慢的三款A(yù)I大模型,存在兩小時(shí)時(shí)間做不完題的可能性。

      盡管本輪測試中所有AI大模型均正確回答出了問題,但結(jié)合推理所需時(shí)長來看,豆包、訊飛星火、通義千問表現(xiàn)較好。

      第三題(5分):

      若一個(gè)等比數(shù)列的前4項(xiàng)和為4,前8項(xiàng)和為68,則該等比數(shù)列的公比為(正確答案:±2)

      與上一題相比,這一題的難度有所下降,訊飛星火、文心一言、Kimi、通義千問、DeepSeek五款大模型均迅速計(jì)算出了正確答案,文心一言幾乎是秒算。豆包雖計(jì)算出了正確答案,但在輸出答案時(shí)卻犯了迷糊,排除了-2。因此,小雷不得不扣掉豆包的三分,該題豆包只能得2分。

    第三題.png

      (圖源:App截圖)

      在本輪測試中,DeepSeek服務(wù)器繁忙的問題頻繁發(fā)生,小雷不得不借助第三方應(yīng)用。好在,現(xiàn)階段許多AI應(yīng)用已接入DeepSeek,小雷使用的騰訊元寶App,無論是推理速度,還是穩(wěn)定性,都遠(yuǎn)高于DeepSeek網(wǎng)頁版或App。

      第四題(17分):

      設(shè)數(shù)列{an}滿足a₁=3,(an+1)/n=(an/(n+1))+(1/(n(n+1)))

      (1)證明:{n an}是等差數(shù)列;(正確答案:n an是an=3,公差為1的等差數(shù)列)

      (2)設(shè)f(x)=a₁X+a₂X²+a₃X³+...+amX^m,求f′(-2)。(正確答案:f′(-2)=(7/9)-((3m+7)/9)·(-2^m))

      前三道題,幾款A(yù)I應(yīng)用僅在體驗(yàn)上存在一定的差異,能力基本沒有表現(xiàn)出區(qū)別,第四道題不同,它的復(fù)雜度遠(yuǎn)超前面三道題,也是檢驗(yàn)AI大模型能力最重要的一項(xiàng)挑戰(zhàn)。

      在本輪測試中,豆包、訊飛星火、Kimi、文心一言、DeepSeek依然表現(xiàn)出色,正確計(jì)算出了兩道題的答案。通義千問解答這道題時(shí),能夠推理出第一道小題的答案,但第二道小題卻給出了錯(cuò)誤答案,表現(xiàn)稍遜一籌。

    第四題.png

      (圖源:App截圖)

      豆包、訊飛星火、文心一言、Kimi、DeepSeek可以在本輪測試中拿到滿分17分,通義千問因答錯(cuò)了第二道小題,只能獲得7分。

      依靠公式和邏輯推理的數(shù)學(xué)題,似乎更符合AI的特性,但往年的評測中,AI大模型通常做閱讀理解和寫作文效果較好,面對復(fù)雜的數(shù)學(xué)題找不到答題方法。

      光明網(wǎng)在去年6月的報(bào)道中提到,復(fù)旦大學(xué)NLP實(shí)驗(yàn)結(jié)果顯示,AI大模型在做2024年高考題時(shí),在語文領(lǐng)域的表現(xiàn)遠(yuǎn)強(qiáng)于數(shù)學(xué),部分?jǐn)?shù)學(xué)題AI大模型甚至全軍覆沒,沒有一個(gè)能夠正確計(jì)算出答案,遇到多選題時(shí)也是錯(cuò)誤頻出。究其原因,數(shù)學(xué)失之毫厘差之千里,不能出一丁點(diǎn)錯(cuò)誤,文史類內(nèi)容則可以允許出現(xiàn)部分錯(cuò)誤和較為模糊的答案。

      一年時(shí)間過去,AI大模型進(jìn)步神速,深度思考模式的加入、針對數(shù)學(xué)題的專項(xiàng)優(yōu)化,令A(yù)I大模型在處理高考數(shù)學(xué)題時(shí)更加游刃有余。

      比學(xué)霸更牛,但大模型做題能力已拉開差距

      四道題目測試下來,最終得分如下:

      DeepSeek:33分;

      訊飛星火:33分;

      豆包:30分;

      Kimi:33分;

      文心一言:33分;

      通義千問:23分。

      經(jīng)過測試,DeepSeek、訊飛星火、Kimi、文心一言均獲得滿分,豆包表現(xiàn)不錯(cuò),因一時(shí)疏忽,遺憾丟了三分,痛失高考狀元。通義千問計(jì)算較為簡單的問題時(shí),都保持了極高的水準(zhǔn),但處理較難的問題時(shí)出現(xiàn)了計(jì)算錯(cuò)誤,需要再接再厲。

      總是向AI行業(yè)潑冷水的蘋果,日前在論文中表示,AI推理模型只是「假思考」,根本沒有穩(wěn)定、可理解的推理過程,更像是記憶,處理復(fù)雜任務(wù)時(shí)可能會(huì)崩潰。AI研究者Lisan al Gaib復(fù)刻蘋果測試方法后表示,模型不是因?yàn)橥评砟芰Σ钍。且驗(yàn)樘O果限制了輸出token。

      或許AI大模型推理能力仍存在上限,但我們看得到它們的進(jìn)步。去年復(fù)旦大學(xué)NLP實(shí)驗(yàn)室測試AI大模型時(shí),它們面對高考數(shù)學(xué)題表現(xiàn)糟糕,小雷在幾次AI大模型橫評測試中,也得到了類似的結(jié)果。今年的測試中,AI大模型基本都能計(jì)算出問題的正確答案,曾經(jīng)難住AI大模型的多選題,也未能再對AI大模型造成困擾。

      AI大模型數(shù)學(xué)題解答能力提升,最大受惠者可能是學(xué)生群體。國內(nèi)學(xué)習(xí)機(jī)廠商和教育輔導(dǎo)平臺(tái),已陸續(xù)加入AI答題能力,但許多設(shè)備的AI大模型僅能解答中小學(xué)問題,例如行業(yè)翹楚小猿搜題,題目庫不包含大學(xué)課程。

      這六款A(yù)I大模型的優(yōu)秀表現(xiàn),證明了國內(nèi)頭部AI企業(yè)的實(shí)力,高考數(shù)學(xué)題已被征服,高等數(shù)學(xué)也不會(huì)遠(yuǎn)了。學(xué)習(xí)機(jī)廠商、教輔平臺(tái)可以與頭部AI企業(yè)合作,增強(qiáng)產(chǎn)品AI答題的能力,繼續(xù)強(qiáng)化AI教育硬件業(yè)務(wù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    海報(bào)生成中...

    最新新聞

    熱門新聞

    即時(shí)

    全球頂級AI創(chuàng)作社區(qū)回歸!海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

    海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場占比高達(dá)35.8%,阿里云引領(lǐng)中國AI云增長

    9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。

    企業(yè)IT

    華為坤靈發(fā)布IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃,助力中小企

    9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。

    3C消費(fèi)

    雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機(jī),分別是平板振膜的YH-4000和動(dòng)圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺(tái),同比增長33%,顯示出品類強(qiáng)勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |