本報訊 (記者李喬宇)
8月11日,昆侖萬維科技股份有限公司(以下簡稱“昆侖萬維”)正式發布SkyReels-A3模型,基于“DiT(Diffusion Transformer)視頻擴散模型+插幀模型進行視頻延展+基于強化學習的動作優化+運鏡可控”,其能實現任意時長的全模態音頻驅動數字人創作,讓個性化、交互式內容的創作更高效與便捷。目前,SkyReels-A3模型已正式上線。
8月11日,昆侖萬維SkyWork AI技術發布周正式啟動,8月11日至8月15日,昆侖萬維將每天發布一款新模型,從視頻生成模型(Skyreels)、世界模型,到生圖一體化模型、智能體(Agent)模型,再到AI音樂創作模型(Mureka),連續五天發布覆蓋多模態AI核心場景的前沿模型。
作為音頻驅動(audio-driven)人像視頻生成模型,SkyReels-A3就像給任意照片或視頻裝上“AI聲帶”。上傳一張人像圖片,再配段語音,照片里的人就能按這段語音開口說話或唱歌;上傳一張人像圖片、配段語音,再給出文字Prompt(提示詞),照片里的人就能按照要求的狀態進行表演;SkyReels-A3還可以將原視頻的音頻換掉,人物會自動對上新的口型、表情和表演,畫面依舊連貫。
同時,基于對實際應用場景(如廣告、直播帶貨等)的分析,昆侖萬維發現這些場景不僅需要更長的一致性視頻,在特定交互動作上的自然度和清晰度也有待加強。昆侖萬維構造了針對線上直播等場景的數據,對此類場景中的視頻生成進行了特定優化。
此外,面對藝術美感要求更高的音樂MV、電影片段或演講視頻等場景,昆侖萬維構造了一種基于ControlNet結構的鏡頭控制模塊,通過精細化鏡頭參數的輸入,實現幀級別精準運鏡控制。具體來說,鏡頭控制模塊提取參考圖的深度信息,配合相機參數,渲染目標運鏡軌跡的參考視頻,該參考視頻隨后作為顯式運動先驗,引導模型逐幀復現精準的運鏡效果,生成帶有運鏡效果的數字人視頻。
SkyReels-A3的性能通過廣泛的實驗進行了驗證,包括現有最先進模型(開源和閉源)的定量和定性比較,充分展示了其在音頻驅動視頻生成方面的能力。
(編輯 張明富)
16:15 | 紅塔證券副總裁、首席經濟學家李奇... |
16:07 | 充換電技術迭代升級 新能源汽車“... |
16:03 | 得潤電子:公司致力于產品技術的持... |
16:03 | 高瀾股份:公司目前可提供以冷板式... |
16:03 | 供銷大集:公司緊抓發展機遇,充分... |
16:03 | 國林科技:公司半導體專用臭氧系統... |
16:03 | 國林科技:公司所生產的乙醛酸產品... |
16:03 | 海格通信:公司持續關注前沿技術創... |
16:03 | 海格通信:公司聚焦用戶的人工智能... |
16:03 | 和晶科技:公司沒有參股優必選 |
16:03 | 華力創通:公司深耕國防及行業信息... |
16:03 | 科瑞技術:公司定位于新能源鋰電制... |
版權所有《證券日報》社有限責任公司
互聯網新聞信息服務許可證 10120240020增值電信業務經營許可證 京B2-20250455
京公網安備 11010602201377號京ICP備19002521號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關注
掃一掃,加關注