国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

XR專利首案在歐洲落地,中國智造出海風險與機遇并行超能小度,賦能生長,小度全屋智能舉辦年終核心服務商成長特訓營破“內卷”、立標準、向未來 光伏行業領袖共話行業生態重塑之道AI重構2026年線上帶貨新生態:零庫存爆單、小紅書月銷百萬,開啟AI小店副業新時代人形機器人租賃市場大幅降溫 行業商業化路徑仍待探索阿里云AI Landing Zone正式發布,助力企業從“上好云”到“用好AI”的戰略升級118家標桿企業脫穎而出,定義AI時代的雇主標桿!2025NFuture最佳雇主AI榜單重磅發布昇思人工智能框架峰會 | MindSpore Lite混合精度推理,實現內存節省30%,助力鴻蒙翻譯模型輕量化部署為 AI + 量身定制,海辰儲能推出全球首款鋰鈉協同 AIDC 全時長儲能解決方案工業具身新標桿:人形機器人“小墨”規模化入駐寧德時代產線騰訊元寶宣布支持微信一句話設置提醒vivo S50正式開售:性能、設計等八大升級同檔續航強得可怕!一加Turbo首發9000mAh級大電池世紀華通收獲2025游戲十強兩項大獎REDMI藍牙音箱2暮焰黑發布:新年包裝封套 滿電能聽5小時在“鋁代銅”成為話題時 TCL空調把“同價高配,同配低價”當作承諾vivo S50 Pro mini今日開售:售價3699元起榮耀WIN官宣搭載第五代驍龍8至尊版:跑分破440萬屠榜美團“團好貨”下線,全網首個“外賣導流電商”產品宣布中止消息稱字節跳動正推進與多家廠商的AI手機合作
  • 首頁 > 企業IT頻道 > 大數據

    一文讀懂什么是合成數據?

    2022年08月24日 15:50:44 來源:IT168

      如今,數據正在大規模地產生,為機器學習提供了絕佳的機會。然而,對于數據科學家和機器學習實踐者來說,這些數據的很大一部分仍然是超界的。嚴格的隱私管理、高昂的成本、長時間的處理都阻礙了數據的分析。

      因此,Gartner預估85%的AI項目都將失敗,這就是合成數據的好處所在。

      合成數據是在詳細的算法和仿真的幫助下系統生成的人工數據。它是完全匿名的數據,是真實數據的絕佳替代品,因為它允許組織創建按需培訓數據,無論他們想要多大的規模。

      什么是合成數據?

      人工智能算法人工創建合成數據,但它是在真實數據集上訓練的,具有與原始數據相同的屬性。由于合成數據與實際數據沒有一對一的關聯,因此重新識別的機會更少。

      因此,數據科學家可以自信地復制和使用數據進行測試和建模,而不會有暴露個人身份信息的風險,也不會與監管機構發生沖突。

      如何生成合成數據?

      有幾種方法可以生成合成數據。更簡單的選擇包括蒙特卡洛模擬和從分布集中繪制數字,但如果數據集很復雜,通常首選生成模型。

      生成模型是基于神經網絡的,它可以自動從現實數據中找到的模式中學習,并產生與現實數據精確匹配的信息。生成對抗網絡(GANs)和變分自編碼器(VAEs)是兩種常見的生成模型架構。

      在GAN模型中,兩個神經網絡模型(稱為生成器和鑒別器)在一個零和游戲中競爭,其中一個網絡的收益就是另一個網絡的損失。另一方面,變分自編碼器是工作在編碼器-解碼器概念上的無監督模型。

      什么工具有助于合成數據的生成?

      下面是可以用來創建合成數據的工具示例:

      Datagen是一個合成數據集解決方案,提供逼真的數據集,可用于物聯網(IoT)、機器人和增強現實(AR)。

      Scikit-learn構建于Matplotlib、NumPy和SciPy之上,是一個開源的Python庫,提供了生成合成數據集的工具。

      Pydgben是一個Python庫,它可以創建常見的條目,如姓名、工作、信用卡號碼、電子郵件地址等。

      并行域是一個合成數據平臺,產生高質量的傳感器數據,以改善ML模型和計算機視覺工作流程。

      使用合成數據的好處

      在構建機器學習模型時,合成數據比其他類型的數據更具可擴展性、更容易使用、更具有成本效益。

      可伸縮性。ML模型消耗大量數據。為了訓練和測試的目的,根本不可能獲得如此大量的有關數據。借助合成數據工具,數據科學家可以創建任意數量的數據副本,以構建高質量的AI/ML模型。

      易用性。在處理真實數據時,保護個人信息、消除不準確信息和有效地處理不同格式的數據至關重要。合成數據處理起來要容易得多,因為它掩蓋了私人信息、消除了錯誤,并標準化了格式,以更直觀地進行標記。

      具有成本效益。獲取真實的培訓數據可能會讓企業花費大量資金。此外,手動標記它們是耗時的。有了合成數據生成工具,這一過程被簡化,并證明是一個更經濟和更快的過程。

      使用合成數據的挑戰

      合成數據提供了一些好處,但它也有一定的局限性。例如,一個顯著的缺點是,有效地使用合成數據需要高技能的分析師,他們知道如何使用復雜的數據生成器工具。這通常是困難的,因為在就業市場上缺乏合格的人工智能工人。

      此外,合成數據只與原始數據一樣好,而真實數據往往充滿偏見。因此,當神經網絡在有偏差的歷史數據上訓練時,它們反映了相同的偏差。這通常會導致機器學習模型的輸出不準確。

      合成數據的用例

      合成數據最突出的兩個應用案例是自動駕駛汽車和醫療保健。

      自動駕駛。到目前為止,自動駕駛汽車是合成數據的最佳用例。汽車制造商必須考慮數以百萬計的場景,并收集相應的數據,以制造安全的汽車。這在現實中是不可能實現的,但通過合成數據,組織可以生成任何可以想象的駕駛場景的數百萬甚至數十億種排列,從而達成安全駕駛解決方案。

      醫療保健。醫療保健是一個高度監管的行業,有嚴格的法律管理患者數據的使用。由于合成數據是完全匿名的,不存在重新識別的風險,醫療機構可以輕松地使用它進行科學研究、臨床試驗和訓練醫療行業的ML模型。

      合成數據的未來

      合成數據生成是創建具有成本效益和高度可伸縮數據的革命性方法。隨著人們對合成數據及其各種好處的認識越來越多,越來越多的企業將挖掘其潛力以獲得好處。

      此外,隨著隱私法的收緊,企業將別無選擇,只能求助于合成數據。因此,它將繼續受到歡迎,直到它完全成為主流。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |