发疯文学的“疯”,终于是让AI给呐喊出来了
例如电视剧《180天重启计划》中的这段发疯名场面:
然后啊,我们让AI用于谦+郭德纲的腔调打开这段对话,画风是这样的:
视频地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
这要放以前,那些平平淡淡的AI语音,这癫感、这呐喊,大概率是发不出来的。
那为什么现在AI就可以做到了呢?
因为就在刚刚,火山引擎把豆包语音大模型升级了——
语音学会了思考,更能理解台词,情感表达更有张力。
具体来说,火山引擎这次主要升级了2个模型,分别是豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0)。
刚才的那段发疯对话片段的制作过程,就是先上传了郭德纲和于谦的音频,让豆包声音复刻模型2.0在短短几秒中的时间里复刻出声音:
然后再在豆包语音合成模型2.0中,分别选择于谦和郭德纲的声音,并在台词的前面标注了一下想要达到的情绪效果:
值得注意的是,上面这一步的操作,就是此次豆包语音合成模型2.0的一大关键点,分为三种模式:
默认模式:可以在台词前像我们刚才那样,添加细节描述内容;
语音指令:可以控制说话的情绪、方言、语气和语速等;
引入上文:把上文内容引进来,让AI更好地去理解完整内容。