python调用GPT-4o实时音频 Azure OpenAI GPT-4o Audio and /realtime

2024-12-04 15:26:41

发现这块网上信息很少，记录一下

微软azure入口

https://learn.microsoft.com/zh-cn/azure/ai-services/openai/realtime-audio-quickstart?pivots=programming-language-ai-studio

sdk文档

https://github.com/azure-samples/aoai-realtime-audio-sdk?tab=readme-ov-file#summary-of-commands

创建虚拟环境，自己用conda创建也行
安装依赖项，这一步如果下载 .whl 文件有问题，自己从仓库releases手动下载一下：
https://github.com/Azure-Samples/aoai-realtime-audio-sdk/releases
设置虚拟环境：
第三步，设置虚拟环境也可以在代码里，通过os库设置

os.environ["AZURE_OPENAI_API_KEY"] = "xxxx"
os.environ["AZURE_OPENAI_ENDPOINT"] = "https://nlp-gpt4o-realtime-eastus2.openai.azure.com"
os.environ["AZURE_OPENAI_DEPLOYMENT"] = "gpt-4o-realtime-preview"
os.environ["AZURE_OPENAI_API_VERSION"] = "2024-10-01-preview"

后续的就直接跑 xxx_sample.py 测试用例就可以了。

python low_level_sample.py ./input/arc-easy-q237-tts.wav