自CHATGPT問世以來,國內(nèi)大模型市場進(jìn)入高速發(fā)展期,截至2024年7月30日,全國范圍內(nèi)已有197個生成式人工智能服務(wù)通過網(wǎng)信辦備案。大模型產(chǎn)業(yè)發(fā)展如火如荼的同時,其訓(xùn)練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質(zhì)量參差不齊,尤其是高質(zhì)量中文語料短缺的問題日益凸顯,成為各方關(guān)注焦點(diǎn)。
阿里研究院5月發(fā)布的《大模型訓(xùn)練數(shù)據(jù)白皮書》(以下簡稱《白皮書》)顯示,互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異:在全球網(wǎng)站中,英文占比高達(dá)59.8%,而中文僅占 1.3%。同樣,語料的質(zhì)量會顯著影響大模型的性能。在大模型領(lǐng)域,輸入低質(zhì)量數(shù)據(jù),必然會輸出低質(zhì)量結(jié)果。
以中文語料為例。中國工程院院士高文指出,當(dāng)前全球通用的50億大模型數(shù)據(jù)訓(xùn)練集中,中文語料占比僅為1.3%,其數(shù)量和質(zhì)量上同英文等其他語言相比存在明顯不足。“沉睡”在報告、論文、報紙等文檔內(nèi)的大批高價值語料數(shù)據(jù),由于其復(fù)雜的版面結(jié)構(gòu),制約了大模型的訓(xùn)練語料處理能力,無法被輕易解析并提取。
解決中文數(shù)據(jù)不足和質(zhì)量問題,處理多樣化數(shù)據(jù),仍是各廠商面臨的一大挑戰(zhàn)。為了幫助企業(yè)應(yīng)對數(shù)據(jù)局限問題,近日,合合信息在WAIC 2024上發(fā)布了用于大模型語料訓(xùn)練的“加速器”產(chǎn)品——TextIn智能文檔處理平臺。
在訓(xùn)練前期階段,使用“加速器”文檔解析引擎,破解書籍、論文、研報等文檔中的版面解析障礙,為模型訓(xùn)練與應(yīng)用輸送純凈的“燃料”;同時,“加速器”搭載了文本向量化模型,以解決大模型“已讀亂回”的幻覺問題。
合合信息的思路是,從“煉丹”源頭的燃料出發(fā),通過標(biāo)準(zhǔn)化平臺進(jìn)行語料結(jié)構(gòu)化,提高數(shù)據(jù)預(yù)訓(xùn)練效率,幫助大模型廠商達(dá)成有效的模型性能提升和迭代。合合信息此次發(fā)布的大模型“加速器TextIn智能文檔處理平臺,由TextIn文檔解析、TextIn Embedding(文本向量數(shù)據(jù)模型)以及OpenKIE三大工具組成。
目前,無線表、跨頁表格、公式等復(fù)雜元素的處理,仍是大模型語料清晰的“攔路虎”。以銀行常見的基金對賬單托管業(yè)務(wù)為例,市面上基金公司眾多,各家企業(yè)的賬單樣式都不相同,加上復(fù)雜的表格呈現(xiàn)形式,要將數(shù)據(jù)從非結(jié)構(gòu)化圖文信息中抽取,并整理成模型訓(xùn)練需要的形式,往往十分耗費(fèi)人力和時間。
TextIn文檔解析在文本、表格、圖像等非結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)上,最快1.5秒就能完成百頁長文檔的解析;不僅速度快,同時還具備理解能力,可以智能還原文檔的閱讀順序。
另一方面,大模型或許在通用問答中生成表現(xiàn)很好,但就現(xiàn)階段來看,面對專業(yè)領(lǐng)域問題,大模型仍存在局限性,容易出現(xiàn)“一本正經(jīng)地胡說八道”的幻覺,稍不注意,便可能帶來嚴(yán)重的影響。經(jīng)測試,使用合合信息的TextIn Embedding模型(文本向量數(shù)據(jù)模型)后,能提高大模型信息搜索和問答的質(zhì)量、效率和準(zhǔn)確性。
未來,合合信息將重點(diǎn)瞄準(zhǔn)金融、醫(yī)療等行業(yè)推出垂直領(lǐng)域產(chǎn)品,同時面向開發(fā)者推進(jìn)內(nèi)測計(jì)劃,吸納更多用戶參與到產(chǎn)品共創(chuàng)和優(yōu)化中去。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個,涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。