上海2022年數據核心企業突破1200家 核心產業規模近3400億元
7月8日,由上海數據交易所、大數據流通與交易技術國家工程實驗室承辦的“大模型時代下的數據要素流通”主題論壇在上海舉行。
上海市經濟和信息化委員會信息化推進處處長錢曉在致辭中表示,上海作為國家大數據綜合示范區,始終致力于推動數據產業發展、數據要素市場培育、數字經濟紅利釋放,2022年全市數據核心企業突破1200家,核心產業規模近3400億元;建設了上海數據交易所,累計掛牌數據產品超1300個,率先提出數商體系,數商新業態蓬勃興起,全國首個數據要素產業集聚區在張江啟動建設。
錢曉透露,未來,上海將繼續加強技術創新,形成行業領先的高質量語料標準操作流程和技術規范;完善組織機制,形成包括圖書館、媒體、互聯網平臺、大數據企業等在內的核心數據伙伴群;做好評估機制,加快構建高質量數據集的評價指標體系。
(資料圖片)
啟動語料數據生態創新合作伙伴計劃
語料庫建設是一件長期性、專業性的工作,需要遵循相應的質量標準和規范,并保持持續更新和擴充,以適應大模型發展的新需求和新挑戰。
上海數交所作為全國數據要素市場核心樞紐,在助力大模型語料庫建設上具有天然的優勢。上海數交所官網已經于7月7日正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態,覆蓋金融、交通運輸和醫療等領域。
為更好打造高質量語料庫、圍繞語料數據共建數商生態,上海數交所牽頭發起語料數據生態創新合作伙伴計劃,并在當天攜手首批合作伙伴上海人工智能實驗室、商湯科技、中國知網、瀾舟科技、OpenKG、拓爾思、新致和蜜度正式啟動該計劃,積極引導不同行業、不同領域、具有一定規模的高質量語料數據產品掛牌交易,推動人工智能大模型技術創新與應用落地,進一步豐富語料庫多樣性,助力數據要素市場建設。
上海數交所總經理湯奇峰表示,大模型建設中,語料庫是一個非常重要的方向,語料庫采購已經在不少大模型企業成本中占據重要比重,上海數交所希望以市場配置的方式組織數據要素推動語料庫建設。
據透露,上海數交所建設語料庫主要考慮兩個維度,一是語料庫的質量,另一個是語料庫的開放程度。“比如有的企業具有海量高質量數據資源,開放意愿度也很高,但需要組織大量社會第三方企業幫助組織相關的大模型訓練,我們針對四類數據產品開發情況不同、實際需求不同的供方企業制定了差異化工作策略,著力打造語料數據生態。”
數據要素賦能行業數字化轉型
數據要素在人工智能大模型的發展中具有關鍵性的作用,決定了模型的訓練質量、性能表現和應用領域的廣度與深度。
中國電子副總經理陸志鵬認為,大模型技術實現高質量發展,數據有效供給是關鍵,亟需建設安全可信的數據底座。當前數據合規確權、計量估價、協調分配、安全隱私保護等核心難題需要破解。
大數據流通與交易技術國家工程實驗室常務副主任黃麗華表示,數據驅動三大變革,包括經濟結構、創新范式、企業模式。面向大模型,數據要素市場大有可為,多層次數據要素市場的建設將提供重要助力。多層次數據要素市場的建設需要有明確的數據需求應用場景,數據要素產權制度可以提供重要支撐,合規安全機制提供保障,基于這樣的一個市場,數據產品低成本、大規模可得才有可能實現,才能更好地賦能商業高效應用,促進數字化轉型。未來,顛覆性創新一定是基于數據+人工智能+行業專業知識發生的。
中國知網副總經理張宏偉表示,數據是人工智能的基石,數據的質量和數量最終決定人工智能水平高低,影響其安全性、可信性。知網擁有海量高質量文本語料數據,打造可融入行業生產系統的專業知識增強大模型,同時基于CNKI知識增強大模型,將全面升級現有產品服務,推出AIGC檢測等新服務,賦能知識密集型行業領域。
關鍵詞: