鳳凰網科技訊 5月28日,騰訊混元團隊聯合騰訊音樂天琴實驗室正式發布并開源語音數字人模型HunyuanVideo-Avatar。該技術僅需用戶提供一張人物圖像和一段音頻文件,即可自動生成包含自然表情、精準唇形同步以及全身動作的動態視頻內容。
HunyuanVideo-Avatar基于騰訊混元視頻大模型與MuseV技術深度融合開發。該模型具備強大的多模態理解能力,能夠自動識別輸入圖像中的人物環境信息以及音頻所承載的情感內容,進而生成高度匹配的視頻片段。以實際應用場景為例,當用戶上傳一張海灘吉他女性照片配合抒情音樂時,系統會自主理解“海邊彈唱抒情歌曲”的場景設定,生成相應的音樂表演視頻。
在技術能力方面,該模型突破了傳統數字人技術僅支持頭部驅動的局限性,全面支持頭肩、半身與全身三種景別模式。同時覆蓋賽博朋克、2D動漫、中國水墨畫等多種藝術風格,以及機器人、動物等多物種角色驅動,并具備雙人或多人互動場景的處理能力。
HunyuanVideo-Avatar已在騰訊音樂娛樂集團多個核心產品中實現落地應用。在QQ音樂平臺,用戶收聽“AI力宏”歌曲時,AI生成的虛擬形象會在播放界面實時同步演唱動作。酷狗音樂的長音頻繪本功能集成了AI虛擬人講故事能力。全民K歌則推出用戶專屬MV生成功能,支持上傳個人照片制作個性化唱歌視頻。
技術架構層面,該模型采用多模態擴散Transformer(MM-DiT)作為核心架構,通過角色圖像注入模塊確保視頻中人物的一致性表現。音頻情感模塊能夠從聲音和圖像中提取情感特征,生成細致入微的面部表情和肢體動作。針對多人場景,模型配備面部感知音頻適配器,利用人臉掩碼技術實現多角色的獨立精準驅動。
官方表示,HunyuanVideo-Avatar在主體一致性和音畫同步準確度方面已達到業內領先水平,超越現有開源和閉源解決方案。在畫面動態性和肢體自然度表現上,與其他主流閉源方案處于同等技術水準。
目前,HunyuanVideo-Avatar的單主體功能已在騰訊混元官方網站開放體驗,用戶可通過“模型廣場-混元生視頻-數字人-語音驅動”路徑訪問相關功能。系統當前支持不超過14秒的音頻文件上傳,后續將逐步開源更多高級功能模塊。
騰訊此次開源舉措將推動AI視頻生成技術的普及應用,為短視頻創作、電商營銷、廣告制作等垂直領域提供低成本的技術解決方案。
(責任編輯:郭健東 )
【免責聲明】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com