據 TechCrunch 12 日報道,哈佛大學與谷歌宣布,聯合發布 100 萬本公共領域書籍作為 AI 訓練數據集。
AI 訓練所需的數據成本高昂,但卻更適合資金充裕的科技公司。因此,哈佛大學計劃發布一個包含約 100 萬本公共領域書籍的數據集,這些書籍覆蓋多種類型、語言和作者,包括已不再受版權保護的經典作家如狄更斯、但丁和莎士比亞等,因這些作品的版權已隨時間過期。
雖然這個新數據集尚未公開,也不清楚具體的發布方式和時間,但它來源于谷歌的長期項目 —— 谷歌圖書(Google Books)。因此,谷歌將參與這次“寶貴財富”的廣泛發布。
據了解,早在今年 3 月,哈佛大學就曾透露其“機構數據計劃(IDI)”,并表示這一計劃旨在為 AI 提供“合法數據的可信通道”。直到正式啟動后,該計劃才確認得到了微軟和 OpenAI 的資金支持。
IDI 的執行董事格雷格・萊佩特(Greg Leppert)表示,該數據集的目標是“讓競爭環境更加公平”,通過向包括研究機構和 AI 初創公司在內的各類機構開放這一龐大的數據集,以幫助他們訓練大型語言模型。(清源)
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。