全球首个!英伟达发布了一把用于“声音的瑞士军刀”
11月26日讯,全球英伟达近日展示了其最新研发的首个声音士军人工智能模型——Fugatto。
Fugatto是英伟用于一款基于生成式Transformer架构的人工智能模型,其完整版配备了25亿个参数,达发的瑞刀并在由32个NVIDIA H100 Tensor Core GPU组成的布把NVIDIA DGX系统上进行了训练。
这款模型的全球主要功能在于能够修改和生成声音效果,专为音乐、首个声音士军电影和视频游戏制作人设计,英伟用于英伟达将其形象地称为“声音的达发的瑞刀瑞士军刀”。
据NVIDIA应用音频研究经理Rafael Valle透露,布把Fugatto的全球研发初衷是创建一个能够像人类一样理解和生成声音的模型。
它支持多种音频生成和转换任务,首个声音士军是英伟用于首个展示紧急属性的基础生成式AI模型,这得益于其各种训练能力的达发的瑞刀交互以及组合自由格式指令的能力。
Fugatto的布把功能十分强大,能够根据文本描述生成音效和音乐,例如将钢琴演奏转换成人声歌唱,或改变录音的口音和情绪。
对于音乐制作人而言,Fugatto可以帮助他们快速制作原型或编辑歌曲创意,尝试不同的风格、声音和乐器,同时添加效果并提高现有轨道的整体音频质量。
广告代理商则可以利用Fugatto快速定位多个地区或情况的现有广告活动,将不同的口音和情感应用于画外音。
视频游戏开发人员则可以使用该模型修改游戏中预先录制的素材,或根据文本说明和可选的音频输入动态创建新素材。
另外,Fugatto 的新颖性主要体现在以下方面:
首先,在推理过程中,该模型采用了称为ComposableART的技术,能够组合在训练期间只能单独看到的指令。
例如,通过组合提示,可以要求模型以法国口音说出带有悲伤情绪的文本。
此外,该模型在指令之间进行插值的能力使用户能够对文本指令进行精细控制,如重音的沉重程度或悲伤的程度。
其次,Fugatto还能够生成随时间变化的声音,NVIDIA将这一功能称为时间插值。
例如,它可以模拟暴雨穿过区域的声音,雷声逐渐增强,然后慢慢消失在远处。这一功能使用户能够精细地控制音景的演变方式。
最后,与大多数只能重现所接触的训练数据的模型不同,Fugatto允许用户创建以前从未见过的音景。
例如,它可以模拟雷雨随着鸟儿的歌声缓和为黎明的场景。
总而言之,Fugatto凭借其功能多样性和创新性,在音频领域具有广阔的发展空间。
相关文章
美记:多支球队关注西蒙斯是否会被篮网买断 底薪加盟竞争力球队
12月25日讯 据记者Evan Sidery报道,各支球队都在关注交易截止日前篮网是否会买断本-西蒙斯。“西蒙斯即将到期的4040万巨额合同让他没有任何交易价值,但人们很有兴趣让他通过买断底薪加盟的方2024-12-26- 12月23日消息,今晚10点,蛇年纪念币/钞开启预约,目前相关话题已经冲上热搜。与往年一样,今年的纪念钞和纪念币每人预约、兑换限额均为20枚/张,分别需要准备200元、400元。中国工商银行、中国建设2024-12-26
- 工信部公布2024年前10个月通信业经济运行情况,其中我国千兆网络用户数已经突破2亿。截至10月末,三家基础电信企业的固定互联网宽带接入用户总数达6.68亿户,比上年末净增3204万户。其中,100M2024-12-26
- 中新网绍兴12月22日电(项菁)瞄准飞来的垒球位置后,年过六旬的台商陈景森用力挥棒,打出一个漂亮的高飞球。随即,他丢下球棒,全力冲刺、成功上垒,现场响起一阵欢呼声。12月22日,2024年度长三角友谊2024-12-26
掘金VS国王述评:不省心!15挡拆王牌对决 穆雷实乃进攻晴雨表
国王进攻效率第6、防守效率第14;掘金进攻效率第7,防守效率第15——两队都有前十的进攻,但防守都在中游水平,比赛打到最后一回合一球定胜负并不意外。两队都在自己最擅长的领域狠狠折磨对手,受限于防守资源2024-12-26罗马诺:皇马希望2025年同库尔图瓦续约,沙特联一直对他有意
12月14日讯罗马诺消息,皇马希望在2025年续约库尔图瓦,皇马相信库尔图瓦是世界上最好的门将。目前没有对库尔图瓦的报价,不过沙特联在过去的两年里一直对他感兴趣。库尔图瓦32岁,目前和皇马合同20262024-12-26
最新评论