国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

誰將摘得“大模型第一股”?WEResearch 報(bào)告:無人物流車 2028 年市場規(guī)模預(yù)計(jì)突破 140 億告別參數(shù)內(nèi)卷,“舒適黃金三角”行業(yè)標(biāo)準(zhǔn)下美的中央空調(diào)的技術(shù)突破比亞迪推進(jìn)L3量產(chǎn)內(nèi)測:已完成15萬公里L(fēng)3級自動駕駛驗(yàn)證微星PRO A1000PL PCIE5電源首發(fā)699元 ATX3.1+PCIe5.1雙認(rèn)證高德開放平臺發(fā)布智能穿戴解決方案 已落地小米、榮耀等品牌擁抱AI,HPE Networking以“自動駕駛的網(wǎng)絡(luò)”引領(lǐng)智能網(wǎng)絡(luò)新時(shí)代2026年,6G會給我們帶來什么?情感交互人形機(jī)器人“愛湫”將發(fā)布:龍蜥外形設(shè)計(jì)超120間分店!萬寧宣布將關(guān)閉內(nèi)地所有門店及線上商城美團(tuán)LongCat App上線視頻通話功能 可模擬面試、輔導(dǎo)作業(yè)全球最小全自主可編程機(jī)器人誕生:接近細(xì)菌尺度 成本僅1美分歷時(shí)近三年:京東方、三星專利大戰(zhàn)最后一刻和解!王興興:即使再過一兩年 人形機(jī)器人全自動駐場演出也很難見到微信輸入法iOS版3.0發(fā)布:語音輸入大模型全面升級京東自提功能全國上線:到店自提 可再減一元愛詩科技與阿里云簽署全面合作協(xié)議 推動 AI 視頻全球化發(fā)展小米官宣:比亞迪方程豹鈦7首發(fā)適配小米生態(tài)接口 支持后排掛載平板全球首款10000mAh手機(jī)來了!榮耀WIN系列邁入萬級電池時(shí)代騰訊混元世界模型1.5發(fā)布!首次開源業(yè)界最全面實(shí)時(shí)世界模型框架
  • 首頁 > 企業(yè)IT頻道 > 大數(shù)據(jù)

    當(dāng)貨拉拉面臨 AI 轉(zhuǎn)型,該如何做大數(shù)據(jù)存儲?

    2025年07月10日 14:20:18 來源:光錐智能

      當(dāng)月活千萬的APP面臨AI轉(zhuǎn)型,該怎么做數(shù)據(jù)存儲?

      2013年成立于大灣區(qū)的貨運(yùn)物流App貨拉拉,目前所積累的數(shù)據(jù)量已達(dá)40PB+,在整個(gè)行業(yè)中屬于中等規(guī)模,“我們現(xiàn)在數(shù)據(jù)量增速也非?,每一年還會增加幾PB。”貨拉拉大數(shù)據(jù)專家章嘯說道。

      如此龐大數(shù)據(jù)量,需要一個(gè)既能夠穩(wěn)定、安全,又能夠提高讀寫能力的數(shù)據(jù)存儲設(shè)施。

      “自建的穩(wěn)定性跟云的穩(wěn)定性相比,還是差一些。”章嘯說道,“所以我們現(xiàn)在基本99%的數(shù)據(jù)都存儲在云上,不過也保留了一些自建的基礎(chǔ)設(shè)施,屬于自建+云服務(wù)的混合架構(gòu)體系。”

      混合架構(gòu)增加了管理難度,所以找到一朵適合自己業(yè)務(wù)的云,更加關(guān)鍵。

      一年多前,貨拉拉將40PB+數(shù)據(jù),進(jìn)行了一次大規(guī)模云上遷移,最終遷移目的地,是騰訊云。

      用章嘯的話說,這次遷移可謂是“開著飛機(jī)換引擎”,但最終結(jié)果是好的,0故障完成了40PB+的大數(shù)據(jù)基建搬遷。

      數(shù)據(jù)遷移一年后,依托騰訊云Data Platform數(shù)據(jù)平臺解決方案,貨拉拉實(shí)現(xiàn)貨運(yùn)報(bào)表產(chǎn)出提前40分鐘,讓任務(wù)提速10%。

      而這離不開騰訊云Data Platform數(shù)據(jù)平臺解決方案旗下的兩個(gè)拳頭產(chǎn)品:對象存儲 COS、元數(shù)據(jù)加速器Metadata Accelerator。

      隨著AI大模型時(shí)代的到來,貨拉拉也在積極擁抱AI,但又面臨著新的難題——AI大模型所需要的海量數(shù)據(jù)頻繁訪問,拉低了整個(gè)數(shù)據(jù)訪問的速度。

      那么,AI大模型時(shí)代,貨拉拉該如何面對海量數(shù)據(jù)爆炸式增長的挑戰(zhàn)?這也是所有面臨AI轉(zhuǎn)型的公司們,共同的難題。

      40PB+數(shù)據(jù)的云上遷移,開著飛機(jī)換引擎

      12年時(shí)間積攢的數(shù)據(jù)量,貨拉拉將其一次全部遷移到了騰訊云存儲系統(tǒng)架構(gòu)中,如此大規(guī)模的數(shù)據(jù)遷移,挑戰(zhàn)相當(dāng)大。

      業(yè)內(nèi)皆知,企業(yè)積累的海量數(shù)據(jù),就是一座尚未被挖掘的“金礦”,數(shù)據(jù)不光要存起來,更重要的還要能用,才能夠真正發(fā)揮數(shù)據(jù)的價(jià)值。

      但往往在使用數(shù)據(jù)的過程中,一方面存在著數(shù)據(jù)誤刪、數(shù)據(jù)勒索、機(jī)房災(zāi)難等導(dǎo)致核心數(shù)據(jù)丟失的情況,另一方面,海量且持續(xù)增長的視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù),也面臨著存儲成本增加、傳統(tǒng)存儲架構(gòu)響應(yīng)慢,難以滿足企業(yè)實(shí)時(shí)調(diào)用等需求。

      事實(shí)上,當(dāng)前貨拉拉業(yè)務(wù)規(guī)模已經(jīng)達(dá)到超億級文件數(shù)量規(guī)模,在此規(guī)模下,數(shù)據(jù)存儲需要保障數(shù)據(jù)可靠性滿足不丟失需求的同時(shí),還需要實(shí)現(xiàn)業(yè)務(wù)高可用,滿足任務(wù)執(zhí)行期間業(yè)務(wù)不受損。

      針對這些問題,貨拉拉已經(jīng)形成了自建+混合云服務(wù)的大數(shù)據(jù)存儲架構(gòu)。

      在其大數(shù)據(jù)存儲架構(gòu)中,底層接入層是采集用戶數(shù)據(jù)層,將數(shù)據(jù)采集之后針對不同時(shí)效性要求,會經(jīng)過批處理和流處理等方式,寫入到在線存儲或提供給業(yè)務(wù)使用。

      其中,批計(jì)算主要是處理永久存儲在存儲系統(tǒng)中的數(shù)據(jù),流計(jì)算則處理實(shí)時(shí)生成的數(shù)據(jù),“批處理的部分我們是部署在騰訊云上,其他的板塊則在其他云上。”章嘯說道。

      另外,針對數(shù)據(jù)災(zāi)備可能出現(xiàn)的核心數(shù)據(jù)丟失問題,貨拉拉打造了兩套體系化的數(shù)據(jù)災(zāi)備架構(gòu):

      一是元初-元數(shù)據(jù)管理平臺,針對七天內(nèi)被誤刪的數(shù)據(jù),能夠通過多層防護(hù),快速恢復(fù)數(shù)據(jù);

      二是自研災(zāi)備系統(tǒng)Kirk,針對數(shù)據(jù)勒索和機(jī)房災(zāi)難,可實(shí)現(xiàn)PB級數(shù)據(jù)災(zāi)備,并全鏈路災(zāi)備;

      基于這兩套系統(tǒng)的能力,貨拉拉可以實(shí)現(xiàn)數(shù)據(jù)誤刪的100%召回,核心數(shù)據(jù) 100%災(zāi)備。

      “隨著我們與騰訊云的深入合作,最終決定將整個(gè)40PB+規(guī)模數(shù)據(jù)都遷移到了騰訊云上。”章嘯說道,“騰訊云Data Platform數(shù)據(jù)平臺解決方案能夠提供多種能力和服務(wù),不過我們現(xiàn)階段主要使用了底層存儲和元數(shù)據(jù)加速能力。”

      據(jù)章嘯介紹,整個(gè)數(shù)據(jù)遷移大概分為幾個(gè)步驟:

      首先是基于Kirk系統(tǒng)和數(shù)據(jù)離線開發(fā)平臺做數(shù)據(jù)遷移和任務(wù)遷移,會同時(shí)在兩朵云中跑任務(wù),跑完之后會自動進(jìn)行數(shù)據(jù)對比,防止數(shù)據(jù)出錯(cuò)。對比的結(jié)果完成后給到業(yè)務(wù)做驗(yàn)收。

      當(dāng)整個(gè)數(shù)據(jù)驗(yàn)收能持續(xù)驗(yàn)收成功,會對整個(gè)開發(fā)平臺做封網(wǎng),在當(dāng)天把整個(gè)鏈路跑完后,再次對比數(shù)據(jù)準(zhǔn)確性,確保準(zhǔn)確之后,再將所有系統(tǒng)全部切換,從而完成整個(gè)云的遷移。

      “我們將數(shù)據(jù)遷移過來一年多,目前沒有出現(xiàn)由于COS這種存儲所導(dǎo)致的問題,真正做到了0故障率,整體的建立過程也非常平穩(wěn)。”章嘯說道。

      AI時(shí)代數(shù)據(jù)大爆炸,存儲的難題怎么解?

      企業(yè)面臨AI業(yè)務(wù)的轉(zhuǎn)型,帶來了許多對數(shù)據(jù)的新需求。

      最近兩年,貨拉拉落地了許多新的AI業(yè)務(wù)板塊。

      “我們現(xiàn)在AI業(yè)務(wù)主要有ChatBI、AI客服等相關(guān)的內(nèi)容,在AI方面目前跟騰訊合作的很深入。”章嘯說道。

      AI應(yīng)用在進(jìn)行模型訓(xùn)練時(shí),對數(shù)據(jù)的調(diào)用需要有高吞吐、低延時(shí)。

      這就帶來了新的問題——AI數(shù)據(jù)和傳統(tǒng)大數(shù)據(jù)混合。

      “我們的數(shù)據(jù)都在騰訊云上,現(xiàn)在存在一些模型訓(xùn)練的任務(wù),會把整個(gè)桶的下行帶寬持續(xù)拉滿,這樣會對我們整個(gè)離線鏈路的穩(wěn)定性有很大影響。”章嘯說道。

      企業(yè)傳統(tǒng)業(yè)務(wù)的大數(shù)據(jù)存儲計(jì)算需要高穩(wěn)定性,而AI大模型的數(shù)據(jù)訓(xùn)練卻需要高吞吐、大帶寬,兩個(gè)數(shù)據(jù)存儲需求相互搶占資源,又該如何在一個(gè)系統(tǒng)架構(gòu)中實(shí)現(xiàn)共存?

      “針對這些問題,我們也跟騰訊交流分享了幾次,最后提出了分桶而治,專項(xiàng)優(yōu)化的解決方案。”章嘯說道,基于騰訊云對象存儲COS,是在底層做了兩個(gè)存儲集群,即COS桶1和COS桶2:

      COS桶1,專做大數(shù)據(jù)存儲,上層支撐整個(gè)大數(shù)據(jù)市場相關(guān)業(yè)務(wù);

      COS桶2,則寫入專做AI大模型訓(xùn)練的數(shù)據(jù),上層對應(yīng)整個(gè)AI項(xiàng)目;

      基于此,“存儲層按照應(yīng)用拆分不同桶,僅遷移單個(gè)模型下行帶寬下降8%。”章嘯說道,“不過,我們也明顯感受到AI業(yè)務(wù)對帶寬吞吐的訴求要比大數(shù)據(jù)大的多,后續(xù)也會逐步把AI業(yè)務(wù)通過這樣的方式遷移過來,再進(jìn)行專項(xiàng)優(yōu)化。”

      在底層COS存儲設(shè)立兩個(gè)桶,雖然緩解了大數(shù)據(jù)和AI大模型數(shù)據(jù)在使用時(shí)對帶寬需求的壓力,但AI大模型數(shù)據(jù)存儲桶自身,也仍面臨著需要非常高的帶寬吞吐能力。

      針對這一問題,貨拉拉正與騰訊云基于數(shù)據(jù)加速器GooseFS進(jìn)行探索。

      據(jù)介紹,騰訊云數(shù)據(jù)湖存儲GooseFS可支持Tbps級吞吐、千億級元數(shù)據(jù)規(guī)模、單鏈接速度輕松達(dá)到 GBps 級別,相比于行業(yè)內(nèi)百兆級規(guī)模提升10倍,大模型分發(fā)效率10倍躍升。

      而實(shí)現(xiàn)數(shù)據(jù)高速調(diào)用的背后,GooseFS主要是通過對數(shù)據(jù)的親和力調(diào)度能力,將數(shù)據(jù)調(diào)度到跟計(jì)算相關(guān)節(jié)點(diǎn)更近的本地磁盤上,提供Tbps級的吞吐性能。

      “我們用起來體驗(yàn)感最好的,就是GooseFS的元數(shù)據(jù)加速能力。”章嘯坦言。

      最后,針對跨云的問題,章嘯也表示,目前基于COS的模式進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)按需配置,“數(shù)據(jù)將持久化存儲在COS Data Lake中,訓(xùn)練數(shù)據(jù)按需通過GooseFS拉取到云上或者IDC計(jì)算端,做到一份Dataset,多地訓(xùn)練。”

      可以看到,COS作為云存儲底座,為貨拉拉40PB+的數(shù)據(jù)提供統(tǒng)一存儲池,能夠提供安全穩(wěn)定的數(shù)據(jù)存儲能力,在大幅度提升系統(tǒng)可用性、可靠性等性能的同時(shí),也還可以大幅降低存儲成本。

      而GooseFS則提供元數(shù)據(jù)的數(shù)據(jù)緩存加速服務(wù),能夠滿足大規(guī)模數(shù)據(jù)處理和訓(xùn)練對高性能存儲的需求,幫助貨拉拉落地AI應(yīng)用業(yè)務(wù)。

      數(shù)據(jù)萬象助力企業(yè),釋放數(shù)據(jù)價(jià)值

      隨著企業(yè)非結(jié)構(gòu)化數(shù)據(jù)不斷增長,帶來了AI識別難,處理速度慢等新難題。

      為了讓數(shù)據(jù)的價(jià)值能夠釋放,需要在存儲端就開始做預(yù)處理。

      而騰訊云數(shù)據(jù)萬象,能夠有效幫助企業(yè)解決這一問題。數(shù)據(jù)萬象,主要包含兩個(gè)功能,一個(gè)是數(shù)據(jù)管理Metalnsight,一個(gè)是數(shù)據(jù)處理Data Engine。

      Data Engine,就是數(shù)據(jù)處理,把計(jì)算下沉到存儲端,提供大量標(biāo)準(zhǔn)化的圖片、音視頻的處理能力。比如小紅書用戶上傳圖片,它能在數(shù)據(jù)層就把圖片進(jìn)行壓縮+裁剪+上水印,在圖片質(zhì)量不受損的情況,提升圖片訪問性能,保護(hù)知識產(chǎn)權(quán)。

      MetaInsight,通過智能檢索能力為客戶提供一種高效的數(shù)據(jù)管理服務(wù),它能讓用戶使用自然語言快速檢索海量非結(jié)構(gòu)化數(shù)據(jù)(圖片、音視頻等)。比如網(wǎng)盤、手機(jī)相冊中的“以文搜圖”,之前找照片只能按時(shí)間一張張找,現(xiàn)在可以輸入關(guān)鍵字直接搜到。

      舉個(gè)例子,在電商商品搜索中,基于MetaInsight的以圖搜圖功能,用戶在上傳商品圖片后,系統(tǒng)通過特征提取與索引庫中的商品圖進(jìn)行相似度對比,快速返回同款或相似款商品信息,解決傳統(tǒng)關(guān)鍵詞檢索的局限性。

      而在AI大模型訓(xùn)練場景中,MetaInsight 可對海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行智能預(yù)分類,通過語義檢索(如輸入“雨天”“行人穿行”)快速篩選特定場景數(shù)據(jù)。相比人工標(biāo)注,該方案能減少70%以上的預(yù)處理時(shí)間,同時(shí)支持跨模態(tài)檢索(如圖像+文本描述),幫助企業(yè)在數(shù)據(jù)清洗階段高效構(gòu)建高質(zhì)量訓(xùn)練集。

      “因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)的日益增長,云存儲平臺一定要有向量化的能力。”章嘯說道,“數(shù)據(jù)萬象CI,就可以很好的提升對非結(jié)構(gòu)化數(shù)據(jù)的管控。”

      可以看到,AI大模型時(shí)代,存儲不再是之前只做數(shù)據(jù)的倉庫,而是結(jié)合一系列數(shù)據(jù)處理和計(jì)算的能力,成為了數(shù)據(jù)加速運(yùn)轉(zhuǎn)的新引擎。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    海報(bào)生成中...

    最新新聞

    熱門新聞

    即時(shí)

    全球頂級AI創(chuàng)作社區(qū)回歸!海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

    海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場占比高達(dá)35.8%,阿里云引領(lǐng)中國AI云增長

    9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。

    企業(yè)IT

    華為坤靈發(fā)布IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃,助力中小企

    9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會。

    3C消費(fèi)

    雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機(jī),分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |