linux io,多路复用,事件驱动,select,epoll

linux I/O

背景

之前主力语言是Java,对于网络I/O基本上只停留在socket上,虽然用netty写过代理中间件,但是各种I/O的设计模型以及背后的原理都是零零散散的没有系统整理过,最近开始使用php开发,接触到了swoole框架,又碰到了高性能这个词,所以就整理一下这些年涉及到的一些知识点,也算填了个坑。

早期 BIO(Blocking I/O)

先不管其他的,就来个简单socket客户端看看。

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.ServerSocket;
import java.net.Socket;
import java.nio.charset.StandardCharsets;

public class TestSocket {
    public static void main(String[] args) throws IOException {
        ServerSocket serverSocket = new ServerSocket(6666);
        System.out.println("server start on port 6666");
        while (true) {
            Socket socket = serverSocket.accept();
            new Thread(() -> {
                try {
                    InputStream in = socket.getInputStream();
                    BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(in, StandardCharsets.UTF_8));
                    String str;
                    while((str = bufferedReader.readLine()) != null) {
                        System.out.println(str);
                    }
                    socket.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }).start();
        }
    }
}

线程先处于监听状态,来一个客户端便新建一个线程获取数据,客户端断开后线程结束。对应于linux系统,一个socket连接便是一个fd(文件描述符)。
主要有以下几个问题:

  1. 线程创建销毁开销,可以通过线程池解决,但是为了保证任务能及时收到消息,线程切换较快。
  2. 一般线程数肯定多于CPU核数,会有较大的线程上下文切换开销,且每个线程会轮询是否有数据会发起系统调用,资源消耗大。
  3. socket通过系统调用读取数据会有内核态到用户态数据复制开销。

多路复用模型及 NIO

为了解决上面的问题,发展出了NIO,这个缩写有两个意思,Java库方面叫做 New I/O,一般叫做 Non-blocking I/O。顾名思义,就是上面accept之后,不再由线程发起系统调用轮询内核数据,通过linux select系统调用进行多路复用,将所有的fd都告知内核,由内核遍历所有socket,有数据后通知用户端程序。其主要有以下好处:

  1. 内核遍历,不用每个socket都调用一次系统调用(recvfrom/recv)查询数据,而是由内核检查直接通知client,减少系统调用开销。
    这一阶段,select维护了所有的client端数据。

事件驱动模型及epoll

优化之后,虽然减少了大量的系统调用,但是仍然需要内核遍历,后来就有事件驱动模型,目前linux下性能最好的网络模型,对应linux epoll系统调用。其主要优化的是内核中轮询client连接端数据的部分,以及内核态到用户态数据传输部分。优点如下:

  1. 事件驱动,无需内核主动轮询,节约资源。
  2. 通过内存文件映射技术(mmap)节约了数据复制开销,此处已经包含文件I/O等。

相关开源软件

nginx, kafka,redis,netty

linux io,多路复用,事件驱动,select,epoll

上一篇:linux切换到root用户,kali怎么切换root身份运行


下一篇:进程管理常用命令