我正在从事涉及音频处理的项目.
我从一个文件中取出一段音频,然后想对它进行一些处理.问题是我将音频数据作为字节数组,而我的处理是在双数组上(稍后在复杂数组上……).
我的问题是,如何正确地将我收到的字节数组转换为双数组继续?
这是我的输入代码:
AudioFormat format = new AudioFormat(8000, 16, 1, true, true);
AudioInputStream in = AudioSystem.getAudioInputStream(WAVfile);
AudioInputStream din = null;
AudioFormat decodedFormat = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED,
8000,
16,
1,
2,
8000,
true);
din = AudioSystem.getAudioInputStream(decodedFormat, in);
TargetDataLine fileLine = AudioSystem.getTargetDataLine(decodedFormat);
fileLine .open(format);
fileLine .start();
int numBytesRead;
byte[] targetData = new byte[256]; // (samplingRate / 1000) * 32ms
while (true) {
numBytesRead = din.read(targetData, 0, targetData.length);
if (numBytesRead == -1) {
break;
}
double[] convertedData;
// Conversion code goes here...
processAudio(convertedData);
}
到目前为止,我已经在本网站和其他网站上查看了不同问题的不同答案.我试过使用ByteBuffer和位转换,但是他们两个都没有给我看起来正确的结果(我的另一个成员在Python中的同一个文件上做了同样的事情所以我有一个参考结果应该是什么差不多……
我错过了什么?如何正确地将字节转换为双精度?如果我想在targetData中只捕获32ms的文件,targerData的长度应该是多少?那么convertData的长度是多少?
提前致谢.
解决方法:
使用NIO缓冲区的转换不应该那么难.您所要做的就是应用一个因子来从16位范围标准化到[-1.0 … 1.0]范围.
那么,it isn’t so easy,但是对于大多数实际目的,决定一个因素就足够了:
AudioFormat decodedFormat = new AudioFormat(AudioFormat.Encoding.PCM_SIGNED,
8000, 16, 1, 2, 8000, true);
try(AudioInputStream in = AudioSystem.getAudioInputStream(WAVfile);
AudioInputStream din = AudioSystem.getAudioInputStream(decodedFormat, in);
ReadableByteChannel inCh = Channels.newChannel(din)) {
ByteBuffer inBuf=ByteBuffer.allocate(256);
final double factor=2.0/(1<<16);
while(inCh.read(inBuf) != -1) {
inBuf.flip();
double[] convertedData=new double[inBuf.remaining()/2];
DoubleBuffer outBuf=DoubleBuffer.wrap(convertedData);
while(inBuf.remaining()>=2) {
outBuf.put(inBuf.getShort()*factor);
}
assert !outBuf.hasRemaining();
inBuf.compact();
processAudio(convertedData);
}
}
上面的解决方案有效地使用了… /(double)0x8000变体.因为我不知道processAudio对提供的缓冲区做了什么,例如它是否保留对它的引用,循环在每次迭代中分配一个新缓冲区,但应该很容易将其更改为可重用的缓冲区.使用预先分配的缓冲区时,您只需要注意读取/转换的双精度数.