国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

以科技守味非遺!卡薩帝冰箱冬至將全國啟幕「好好吃」餃子館字節(jié)TRAE,正悄悄“解放”600萬工程師酷開再獲國家級“信任牌照”:數(shù)據(jù)安全彰顯戰(zhàn)略定力ThinkPad 2025黑FUN禮——了不起的offer,企業(yè)采購專享狂歡來襲!拼多多宣布實(shí)行聯(lián)席董事長制度 下一個三年?duì)幦≡僭煲粋拼多多菜鳥將入股九識智能 無人車業(yè)務(wù)有望大整合抖音上線“長輩防走失模式”同程旅行發(fā)布2025年度旅行榜:長線出行北上廣至川藏航線熱度居首XR專利首案在歐洲落地,中國智造出海風(fēng)險與機(jī)遇并行超能小度,賦能生長,小度全屋智能舉辦年終核心服務(wù)商成長特訓(xùn)營破“內(nèi)卷”、立標(biāo)準(zhǔn)、向未來 光伏行業(yè)領(lǐng)袖共話行業(yè)生態(tài)重塑之道AI重構(gòu)2026年線上帶貨新生態(tài):零庫存爆單、小紅書月銷百萬,開啟AI小店副業(yè)新時代人形機(jī)器人租賃市場大幅降溫 行業(yè)商業(yè)化路徑仍待探索阿里云AI Landing Zone正式發(fā)布,助力企業(yè)從“上好云”到“用好AI”的戰(zhàn)略升級118家標(biāo)桿企業(yè)脫穎而出,定義AI時代的雇主標(biāo)桿!2025NFuture最佳雇主AI榜單重磅發(fā)布昇思人工智能框架峰會 | MindSpore Lite混合精度推理,實(shí)現(xiàn)內(nèi)存節(jié)省30%,助力鴻蒙翻譯模型輕量化部署為 AI + 量身定制,海辰儲能推出全球首款鋰鈉協(xié)同 AIDC 全時長儲能解決方案工業(yè)具身新標(biāo)桿:人形機(jī)器人“小墨”規(guī)模化入駐寧德時代產(chǎn)線騰訊元寶宣布支持微信一句話設(shè)置提醒vivo S50正式開售:性能、設(shè)計(jì)等八大升級
  • 首頁 > 云計(jì)算頻道 > 大模型

    大模型語料急速消耗,合合信息發(fā)布大模型加速器助力語料訓(xùn)練

    2024年09月11日 16:36:41 來源:CITNews中文科技資訊

      自CHATGPT問世以來,國內(nèi)大模型市場進(jìn)入高速發(fā)展期,截至2024年7月30日,全國范圍內(nèi)已有197個生成式人工智能服務(wù)通過網(wǎng)信辦備案。大模型產(chǎn)業(yè)發(fā)展如火如荼的同時,其訓(xùn)練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質(zhì)量參差不齊,尤其是高質(zhì)量中文語料短缺的問題日益凸顯,成為各方關(guān)注焦點(diǎn)。

      阿里研究院5月發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書》(以下簡稱《白皮書》)顯示,互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達(dá)59.8%,而中文僅占 1.3%。同樣,語料的質(zhì)量會顯著影響大模型的性能。在大模型領(lǐng)域,輸入低質(zhì)量數(shù)據(jù),必然會輸出低質(zhì)量結(jié)果。

      以中文語料為例。中國工程院院士高文指出,當(dāng)前全球通用的50億大模型數(shù)據(jù)訓(xùn)練集中,中文語料占比僅為1.3%,其數(shù)量和質(zhì)量上同英文等其他語言相比存在明顯不足。“沉睡”在報告、論文、報紙等文檔內(nèi)的大批高價值語料數(shù)據(jù),由于其復(fù)雜的版面結(jié)構(gòu),制約了大模型的訓(xùn)練語料處理能力,無法被輕易解析并提取。

      解決中文數(shù)據(jù)不足和質(zhì)量問題,處理多樣化數(shù)據(jù),仍是各廠商面臨的一大挑戰(zhàn)。為了幫助企業(yè)應(yīng)對數(shù)據(jù)局限問題,近日,合合信息在WAIC 2024上發(fā)布了用于大模型語料訓(xùn)練的“加速器”產(chǎn)品——TextIn智能文檔處理平臺。

      在訓(xùn)練前期階段,使用“加速器”文檔解析引擎,破解書籍、論文、研報等文檔中的版面解析障礙,為模型訓(xùn)練與應(yīng)用輸送純凈的“燃料”;同時,“加速器”搭載了文本向量化模型,以解決大模型“已讀亂回”的幻覺問題。

      合合信息的思路是,從“煉丹”源頭的燃料出發(fā),通過標(biāo)準(zhǔn)化平臺進(jìn)行語料結(jié)構(gòu)化,提高數(shù)據(jù)預(yù)訓(xùn)練效率,幫助大模型廠商達(dá)成有效的模型性能提升和迭代。合合信息此次發(fā)布的大模型“加速器TextIn智能文檔處理平臺,由TextIn文檔解析、TextIn Embedding(文本向量數(shù)據(jù)模型)以及OpenKIE三大工具組成。

      目前,無線表、跨頁表格、公式等復(fù)雜元素的處理,仍是大模型語料清晰的“攔路虎”。以銀行常見的基金對賬單托管業(yè)務(wù)為例,市面上基金公司眾多,各家企業(yè)的賬單樣式都不相同,加上復(fù)雜的表格呈現(xiàn)形式,要將數(shù)據(jù)從非結(jié)構(gòu)化圖文信息中抽取,并整理成模型訓(xùn)練需要的形式,往往十分耗費(fèi)人力和時間。

      TextIn文檔解析在文本、表格、圖像等非結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)上,最快1.5秒就能完成百頁長文檔的解析;不僅速度快,同時還具備理解能力,可以智能還原文檔的閱讀順序。

      另一方面,大模型或許在通用問答中生成表現(xiàn)很好,但就現(xiàn)階段來看,面對專業(yè)領(lǐng)域問題,大模型仍存在局限性,容易出現(xiàn)“一本正經(jīng)地胡說八道”的幻覺,稍不注意,便可能帶來嚴(yán)重的影響。經(jīng)測試,使用合合信息的TextIn Embedding模型(文本向量數(shù)據(jù)模型)后,能提高大模型信息搜索和問答的質(zhì)量、效率和準(zhǔn)確性。

      未來,合合信息將重點(diǎn)瞄準(zhǔn)金融、醫(yī)療等行業(yè)推出垂直領(lǐng)域產(chǎn)品,同時面向開發(fā)者推進(jìn)內(nèi)測計(jì)劃,吸納更多用戶參與到產(chǎn)品共創(chuàng)和優(yōu)化中去。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    海報生成中...

    [No.S013]

    最新新聞

    熱門新聞

    即時

    全球頂級AI創(chuàng)作社區(qū)回歸!海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

    海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個,涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場占比高達(dá)35.8%,阿里云引領(lǐng)中國AI云增長

    9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    3C消費(fèi)

    雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機(jī),分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |