于大二的时候开始接触图像识别,算起来至今也有两年之久了。也做过很多的关于图像方面的项目包括人脸识别、垃圾分类系统、新冠肺炎检测系统等等。最近比较的想接触一下语音识别,再此记录一下第一个语音识别项目
项目由来
该项目其实也并不是完完全全由笔者开发的,而是一个同学在做毕业设计的时候给我的。正好可以供我研究一下。
主要代码
主要的代码如下:
from pyaudio import PyAudio,paInt16
import time,wave
class mic():
'''录音类'''
def success(self,results):
wf = wave.open("123.wav",'wb')
wf.setnchannels(1) # set channels 1 or 2
wf.setsampwidth(2) # set sampwidth 1 or 2
wf.setframerate(16000) # set framerate 8K or 16K
wf.writeframes(results) # write data
wf.close()
def main(self):
pa = PyAudio()
stream = pa.open(format = paInt16,
#单声道,采样率16000
channels=1,rate=16000,input=True,
frames_per_buffer=512)
frames = []
time_start = time.time()
while 1:
data = stream.read(512,exception_on_overflow = False)
frames.append(data)
if time.time() - time_start>=3.5 :
break
stream.close()
self.success( b''.join(frames) )
if __name__ == '__main__':
mic().main()
项目运行
初始化界面如下:
在初始化的界面中,只需要点击一下回车键便可以进行语音识别了。录完音之后稍等片刻便可以将所说的话换换成文字
除此之外,还可以进行语音方面的操作,例如通过语音的方式进行命令,这里暂时可以进行播放音乐
语音识别居然可以如此的有意思,感觉以后可以更加的懒下去了。只要动动嘴皮子,就可以对电脑进行相应的操作,十分的方便。