linux I/O
背景
之前主力语言是Java,对于网络I/O基本上只停留在socket上,虽然用netty写过代理中间件,但是各种I/O的设计模型以及背后的原理都是零零散散的没有系统整理过,最近开始使用php开发,接触到了swoole框架,又碰到了高性能这个词,所以就整理一下这些年涉及到的一些知识点,也算填了个坑。
早期 BIO(Blocking I/O)
先不管其他的,就来个简单socket客户端看看。
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.ServerSocket;
import java.net.Socket;
import java.nio.charset.StandardCharsets;
public class TestSocket {
public static void main(String[] args) throws IOException {
ServerSocket serverSocket = new ServerSocket(6666);
System.out.println("server start on port 6666");
while (true) {
Socket socket = serverSocket.accept();
new Thread(() -> {
try {
InputStream in = socket.getInputStream();
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(in, StandardCharsets.UTF_8));
String str;
while((str = bufferedReader.readLine()) != null) {
System.out.println(str);
}
socket.close();
} catch (IOException e) {
e.printStackTrace();
}
}).start();
}
}
}
线程先处于监听状态,来一个客户端便新建一个线程获取数据,客户端断开后线程结束。对应于linux系统,一个socket连接便是一个fd(文件描述符)。
主要有以下几个问题:
- 线程创建销毁开销,可以通过线程池解决,但是为了保证任务能及时收到消息,线程切换较快。
- 一般线程数肯定多于CPU核数,会有较大的线程上下文切换开销,且每个线程会轮询是否有数据会发起系统调用,资源消耗大。
- socket通过系统调用读取数据会有内核态到用户态数据复制开销。
多路复用模型及 NIO
为了解决上面的问题,发展出了NIO,这个缩写有两个意思,Java库方面叫做 New I/O,一般叫做 Non-blocking I/O。顾名思义,就是上面accept之后,不再由线程发起系统调用轮询内核数据,通过linux select系统调用进行多路复用,将所有的fd都告知内核,由内核遍历所有socket,有数据后通知用户端程序。其主要有以下好处:
- 内核遍历,不用每个socket都调用一次系统调用(recvfrom/recv)查询数据,而是由内核检查直接通知client,减少系统调用开销。
这一阶段,select维护了所有的client端数据。
事件驱动模型及epoll
优化之后,虽然减少了大量的系统调用,但是仍然需要内核遍历,后来就有事件驱动模型,目前linux下性能最好的网络模型,对应linux epoll系统调用。其主要优化的是内核中轮询client连接端数据的部分,以及内核态到用户态数据传输部分。优点如下:
- 事件驱动,无需内核主动轮询,节约资源。
- 通过内存文件映射技术(mmap)节约了数据复制开销,此处已经包含文件I/O等。
相关开源软件
nginx, kafka,redis,netty