近期在尝试使用大模型进行音频降噪、人声分离。抱脸上的模型几乎统一输入需求都是.wav,直接贴代码吧
ps:使用这段代码需要提前安装好ffmpeg(安装教程请往下拉)
from pydub import AudioSegment
# 加载.m4a文件
audio = AudioSegment.from_file(r"你文件的路径")
# 转换并保存为.wav文件
audio.export(r"输出的路径", format="wav")
几个小注意点:
提示Invalid file,可以按这几个方式尝试:
1.确保已经正确安装ffmpeg,pydub实际上仍然是ffmpeg的功能封装库,底层是依靠ffmpeg来实现的
2.尝试以管理员身份运行pycharm或vscode(win),linux使用sudo即可
如何快速安装ffmpeg:
进入官网:ffmpeg官网下载链接
找到红色框选的绿色文字链接,点击下载即可,下载大概率需要魔法,暂时麻瓜的可以先用我上传度盘的(2024/10/10)
链接:度盘链接
下载后是一个rar文件,解压到各自存储工具的地址,然后打开到bin文件夹(里面正常应该有3个.exe文件),复制文件夹路径
然后打开环境变量,在用户变量--Path中加入刚才复制的路径:
最后使用cmd窗口输入:
ffmpeg -version
显示如下界面即可