本報記者 吳曉璐
ChatGPT一經問世便在人工智能應用領域掀起了一陣新的浪潮并引起了全球轟動,僅僅兩個月內其注冊用戶就突破1億。
“ChatGPT的主要魅力在于,它利用從互聯網獲取的海量訓練數據開展深度學習和強化學習,可以給用戶帶來全新的‘人機對話’體驗。海量訓練數據可謂是維系ChatGPT進化的核心要素之一。”中國證監(jiān)會科技監(jiān)管局局長姚前在《中國金融》雜志撰文表示。
姚前表示,有研究預測,按照目前的發(fā)展速度,到2026年ChatGPT類大模型的訓練將耗盡互聯網上的可用文本數據,屆時將沒有新的訓練數據可供使用。因此,算力瓶頸之外,訓練數據將成為大模型產業(yè)化的最大掣肘之一。從更深層次考慮,大模型在訓練數據方面還存在各種治理問題,比如數據采集標注費時費力成本高、數據質量較難保障、數據多樣化不足難以覆蓋長尾和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護、數據偏見等問題。由此可見,人工智能產業(yè)的高質量發(fā)展離不開高質量的訓練數據,訓練數據的安全合規(guī)使用是大模型人工智能長期健康發(fā)展的基礎。
姚前認為,數字經濟高質量發(fā)展的關鍵是數據,抓住高質量數據這一“牛鼻子”,就能有效應對以數據為核心的科技創(chuàng)新和產業(yè)變革。當前AIGC(AI Generated Content,人工智能自動生成內容)和ChatGPT充分展現了高質量訓練數據在產業(yè)價值創(chuàng)造中疊加倍增作用,大模型訓練數據及其輸出結果將會是未來社會和生產中的一種重要的數據資產,其有序流轉并合規(guī)使用也是發(fā)展數字經濟的應有之義。通過合理的機制理順市場中各參與方的數據權益關系和分配格局,并加強訓練數據的依法合規(guī)監(jiān)管,是促進大模型人工智能產業(yè)健康發(fā)展的關鍵。
為此,姚前提出三點建議:
一是重點發(fā)展基于AIGC技術的合成數據產業(yè)。以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發(fā)展的數據優(yōu)勢。在強化數據要素優(yōu)質供給方面,應統籌兼顧自立自強和對外開放。可考慮對Wikipedia、Reddit等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
二是構建大模型訓練數據的監(jiān)管體系。國家相關部門應對大模型訓練數據的處理和使用標準進行統一規(guī)范;建立數據托管機制,對數據托管方進行約束,要求數據托管方按照監(jiān)管機構的規(guī)定對數據來源、處理結果以及使用去向等進行監(jiān)測,從而使得模型的輸入、輸出結果符合監(jiān)管要求。
三是探索基于可信機構或基于可信技術的數據托管方式。數據托管機構可以由相關機構組建數據托管行業(yè)聯盟,以共建共享的方式建設;亦可利用區(qū)塊鏈技術,基于聯盟鏈或有管理的公鏈,完善源端數據治理機制,實現數據的鏈上托管、確權、交易、流轉與權益分配。
(編輯 張偉)
2025陸家嘴論壇6月18日正式啟幕……[詳情]
20:27 | 達嘉維康:旗下達嘉維康再生醫(yī)學研... |
20:26 | 華星創(chuàng)業(yè):股票價格表現受多重因素... |
20:26 | 駿成科技:公司液晶顯示器已廣泛大... |
20:26 | 鋒尚文化:公司暫未參與成都舉辦的... |
20:26 | 華僑城A:公司將聚焦主營業(yè)務,不... |
20:26 | 奧瑞金:犀旺品牌聚焦專業(yè)運動營養(yǎng)... |
20:26 | 世紀恒通:公司與新疆移動合作開展... |
20:26 | 京東方A:公司2025年上半年OLED產... |
20:26 | 華星創(chuàng)業(yè):李劍持有的公司34666130... |
20:26 | 中富電路:截至2025年7月31日公司... |
20:26 | 優(yōu)優(yōu)綠能:公司持續(xù)關注西部大開發(fā)... |
20:26 | 美聯新材:公司控股孫公司輝虹科技... |
版權所有證券日報網
互聯網新聞信息服務許可證 10120180014增值電信業(yè)務經營許可證B2-20181903
京公網安備 11010202007567號京ICP備17054264號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注