首页 > 聚焦 > > 正文

世界头条:南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

2023-06-07 13:09:27 来源:博客园

孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上的古典之美,表现出了“任彼如泰山压顶,我只当清风拂面”的博大胸怀。

本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文,让流行天后念给你听。


(资料图片)

Sadtalker配置

之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步,但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近,事实上,音频和不同面部动作之间的连接是不同的,也就是说,虽然嘴唇运动与音频的联系最强,但可以通过不同的头部姿势和眨眼来反作用于音频。

和Wav2lip相比,SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库,一方面,它从音频中生成逼真的运动系数(例如,头部姿势、嘴唇运动和眨眼),并单独学习每个运动以减少不确定性。对于表达,通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失(唇读损失,面部landmark loss)中提取系数,设计了一种新的音频到表达系数网络。

对于程序化的头部姿势,通过学习给定姿势的残差,使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后,通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场,并扭曲参考图像以生成最终视频。

Sadtalker可以单独配置,也可以作为Stable-Diffusion-Webui的插件而存在,这里推荐使用Stable-Diffusion插件的形式,因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面,更方便将Stable-Diffusion生成的图片做成动态效果。

进入到Stable-Diffusion的项目目录:

cd stable-diffusion-webui

启动服务:

python3.10 webui.py

程序返回:

Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr  5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)]  Version: v1.3.0  Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3  Installing requirements  Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram  Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors  load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints  Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml  LatentDiffusion: Running in eps-prediction mode  DiffusionWrapper has 859.52 M params.  Running on local URL:  http://127.0.0.1:7860

代表启动成功,随后http://localhost:7860

选择插件(Extensions)选项卡

点击从url安装,输入插件地址:github.com/Winfredy/SadTalker

安装成功后,重启WebUI界面。

接着需要手动下载相关的模型文件:

https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt

随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。

接着配置一下模型目录的环境变量:

set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/

至此,SadTalker就配置好了。

edge-tts音频转录

之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测,也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换,我们首先需要将文本转换为语音,才能替换音色。

这里使用edge-tts库进行文本转语音操作:

import asyncio    import edge_tts    TEXT = """    As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it.    My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes.    Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring,  unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song.     You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response.    Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE  needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable.    At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day.     In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough.     With this I fare thee well.    """    VOICE = "en-HK-YanNeural"  OUTPUT_FILE = "./test_en1.mp3"      async def _main() -> None:      communicate = edge_tts.Communicate(TEXT, VOICE)      await communicate.save(OUTPUT_FILE)      if __name__ == "__main__":      asyncio.run(_main())

音频使用英文版本的女声:en-HK-YanNeural,关于edge-tts,请移步:口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10),这里不再赘述。

随后再将音频文件的音色替换为AI孙燕姿的音色即可:AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)。

本地推理和爆显存问题

准备好生成的图片以及音频文件后,就可以在本地进行推理操作了,访问 localhost:7860

这里输入参数选择full,如此会保留整个图片区域,否则只保留头部部分。

生成效果:

SadTalker会根据音频文件生成对应的口型和表情。

这里需要注意的是,音频文件只支持MP3或者wav。

除此以外,推理过程中Pytorch库可能会报这个错误:

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

这就是所谓的"爆显存问题"。

一般情况下,是因为当前GPU的显存不够了所导致的,可以考虑缩小torch分片文件的体积:

set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60

如果音频文件实在过大,也可以通过ffmpeg对音频文件切片操作,分多次进行推理:

ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav

藉此,就解决了推理过程中的爆显存问题。

结语

和Wav2Lip相比,SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节(如眼睛眨动)等等,可谓是细致入微,巨细靡遗,当然随之而来的是模型数量和推理成本以及推理时间的增加,但显然,这些都是值得的。

标签:

世界头条:南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官

2023-06-07 13:09:27

2023年1-4月份全国各地基础设施投资统计|热点

2023年1-4月份全国各地基础设施投资统计

2023-06-07 13:08:50

中站区“三夏”生产工作会议召开|当前热讯

6月4日下午,在省、市“三夏”生产工作电视电话会后,中站区立即召开会

2023-06-07 13:02:40

被视为“天命之兆”,绘成吉祥纹饰流传千年,古人心中的神鸟居然是它! 天天实时

这件清代珐琅彩鹦鹉石榴纹天球瓶,高56cm,正面绘有完整的鹦鹉石榴纹图

2023-06-07 12:38:56

客户担忧不良信息影响,消息称 Twitter 的广告收入同比下降 59%

IT之家6月6日消息,据《纽约时报》报道,从4月1日到5月初的五周时间里

2023-06-07 10:08:08

长葛市大力推行远程异地评标常态化 助力公共资源交易高质量发展_当前消息

长葛市大力推行远程异地评标常态化助力公共资源交易高质量发展长葛市大

2023-06-07 09:43:09

银邦股份:融资净买入117.83万元,融资余额1.43亿元(06-06)

2023年6月6日银邦股份融资净买入117 83万元,融资余额1 43亿元

2023-06-07 09:13:18

河南方言中的中二声是什么意思_翻精是什么意思是哪里的方言

想必现在有很多小伙伴对于翻精是什么意思,是哪里的方言方面的知识都比

2023-06-07 08:56:05

周销量达0.66万辆,冲击3万辆月销量目标

2023年第23周(5 29-6 04)理想汽车销量达到了0 66万辆,远超其他新势

2023-06-07 08:13:33

南望山男子职业技术学院_沙坡村男子职业技术学院是什么学校为什么叫这个名

想必现在有很多小伙伴对于沙坡村男子职业技术学院是什么学校,为什么叫

2023-06-07 07:44:54

世界微动态丨豪杰春香大结局解析_豪杰春香大结局

1、我也超喜欢这个电视剧!!嘿嘿录影带事件发生了,学道将录像带分别

2023-06-07 07:15:29

全球新消息丨韩国三星电子将于7月后期在首尔举办半年一度GalaxyUnpacked活动,该活动将展示包括智能手机、平板电脑和可穿戴设备在内的新设备,届时将发布新款可折叠(智能手机)设备

韩国三星电子将于7月后期在首尔举办半年一度GalaxyUnpacked活动,该活

2023-06-07 07:10:53

环球报道:察隅蛇绿岩_关于察隅蛇绿岩介绍

1、察隅蛇绿岩,主要为灰-深灰色黑云片岩、二云片岩夹含蓝晶石二云片岩

2023-06-07 07:02:47

天天日报丨聚焦黄泛区生态治理 专家学者共话流域生态保护与高质量发展

近日,全国黄泛区水土保持与乡村振兴高端论坛在山东夏津举办。来自中国

2023-06-07 06:43:41

今日播报!安徽省有多少个市_江西省有多少个市

1、全省辖:11个地级市;19个市辖区、10个县级市、70个县。2、  南昌

2023-06-07 06:05:31

世界银行上调今年全球经济预期,并下调明年预期金十数据6月6日讯,世界银行周二发布预期,预计2023年全球经济增长将好于此前预估,这要归功于美国消费者支出的弹性以及亚洲国家今年早些时候快于预期的重新开放

世界银行上调今年全球经济预期,并下调明年预期金十数据6月6日讯,世界

2023-06-07 05:50:54

多家国有大行出手,这类渠道“缩编”! 全球新动态

中国基金报记者马嘉昕近日,据记者注意,交通银行信用卡中心曾发布公告

2023-06-07 05:36:54

这是您需要了解的新梅赛德斯-奔驰Star Mobile的知识_天天速看

自行车与马车BintangBerhad最近在马来西亚推出了梅赛德斯-奔驰StarMobi

2023-06-07 05:19:02

汕尾陆丰市教育信息网_陆丰市教育局

相信目前很多小伙伴对于陆丰市教育局都比较感兴趣,那么小搜今天在网上

2023-06-07 04:55:21

当前讯息:事业单位自收自支和全额拨款哪个好2022_事业单位自收自支和全额拨款哪个好

1、你好!应该是参公单位好。本文就为大家分享到这里,希望小伙伴们会

2023-06-07 04:04:31

噩耗传来!17 岁男孩遗体被发现

6月5日,从加拿大蒙特利尔市警察局官方账号获悉,当地时间6月2日,警方

2023-06-07 03:40:45

美媒:“傲慢与虚伪”令全球南方远离美国-每日焦点

美国《华盛顿邮报》网站6月2日刊登专栏作家法里德·扎卡里亚的文章,题

2023-06-07 03:03:32

今日热搜:wep是什么意思中文翻译怎么读_wep是什么意思

1、WEP全称为WiredEquivalentPrivacy,是一组通信协议规范,它能标准化用

2023-06-07 02:54:41

友直友谅友多闻的出处_友直友谅友多闻益矣是什么意思 热文

1、子曰:“益者三友,损者三友。2、友直、友谅、友多闻,益矣。3、友

2023-06-07 01:54:31

全球百事通!从雪域高原“跳”出来的国家级非遗,在杨浦YOUNG剧场开演

在西藏拉孜,要说当地最受欢迎的一种舞蹈,莫过于拉孜堆谐。“堆”,在

2023-06-07 01:25:59

盐城大丰麋鹿数量增至7840头

新消息丨林子为_关于林子为概略

横店影视:6月5日获融资买入262.66万元 观察

赛科希德: 赛科希德董事、高级管理人员集中竞价减持股份结果公告

有什么好玩的仙侠类手游 高人气的仙侠手游推荐

纳思达:目前上市公司体系内暂无3D打印业务-环球热讯

150dpi是多少分辨率_150dpi是多少像素 世界微资讯

2023年国内化妆品零售行业发展分析 化妆品行业产业链分析-环球播资讯

《蜘蛛侠:纵横宇宙》北美首日票房超《银河护卫队3》

最新:成都地铁:服务“礼包”助力考生们的“圆梦之路”

黑木耳行业企业数量分布及黑木耳行业未来发展趋势预测2023 环球今日讯

人偏肺病毒死亡率43%?过度炒作要不得,要科学看待 天天快报

“丽即兑-政策找企业”系统兑现金额超过100亿 让企业兑现“直达快享” 环球热闻

2023年“三夏”黄淮海地区小麦秸秆科学还田指导意见 世界报道

风语筑与手机天猫app达成战略合作 助力虚拟现实产业发展

全球焦点!2023年06月06日[华为概念]涨停板金字塔

光伏龙头再扩产!晶澳科技拟投60.2亿建鄂尔多斯一体化项目_今日视点

在汉央企中国一冶承建 格力产业园生活区项目冲刺“正负零”|天天热闻

多地公交系统花式送考:不仅免费乘车,还将送出语音祝福

新莱福上市首日涨38% 超募1.15亿元首季及去年业绩降

富媒体消息行业概念股票有哪些?富媒体消息上市公司一览(2023/6/6)|全球快资讯

台式电脑怎么打开声音设备 台式电脑怎么打开声音 热点评

米兰又陷混乱?球队总监马尔蒂尼被解雇 因和老板闹翻_每日看点

最新:化工行业周报:基础化工债券&定增&新股双周报:金浦钛业拟定向增发募资9.00亿元

法国季节工招聘缺口大 旅游和酒店餐饮业亟需人手

x 广告
x 广告

Copyright @  2015-2022 华东家电网版权所有  备案号: 京ICP备2022016840号-41   联系邮箱:2 913 236 @qq.com