Java IO 学习（一）同步/异步/阻塞/非阻塞

2021-11-11 23:59:40

关于IO，同步/异步/阻塞/非阻塞，这几个关键词是经常听到的，譬如：

“Java oio是阻塞的，nio是非阻塞的”

“NodeJS的IO是异步的”

但是这些东西听多了就容易迷糊，比方说同步是否就是阻塞，异步是否就是非阻塞呢？

先给出结论：

1. 异步/同步与阻塞/非阻塞之间没有必然的联系

2. 同步IO可以是阻塞，也可以是非阻塞的

3. 异步IO就是异步IO，它一定是非阻塞的，不存在异步阻塞IO这个说法

POSIX对同步/异步的定义如下，这两句话非常关键

- A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
- An asynchronous I/O operation does not cause the requesting process to be blocked;

再给出权威文档：《UNIX网络编程：卷一》的第六章

书中列出了如下五种IO模型：

阻塞式I/O；
非阻塞式I/O；
I/O复用（select，poll，epoll...）；
信号驱动式I/O（SIGIO）；
异步I/O（POSIX的aio_系列函数）；

1. 阻塞式IO

我们手上有一个socket，现在希望能从这个socket里读点数据出来，我们会对这个socket调用recvfrom方法

ssize_t recvfrom(int sockfd, void *buf, size_t len, int flags,
　　struct sockaddr *src_addr, socklen_t *addrlen);

在默认情况下，recvfrom方法会被阻塞，直到从指定的socket上收到数据才会返回，返回时，buf中已经填充好了数据

阻塞的过程实际上可以分割成两段：等待kernel准备好从网络上接收到的数据报 + 等待收到的报文被从kernel复制到buf中

只有在这两个过程全部完成后，recvfrom方法才会返回。

这就是阻塞式IO模型

2. 非阻塞式IO

还是上面的recvfrom方法，如果将其设置为非阻塞模式（flag与MSG_DONTWAIT异或），情况就会有所不同了：

在内核没有准备好数据报时，调用recvfrom方法会立即返回异常码（EWOULDBLOCK或者EAGAIN）（这一段是非阻塞的！）

如果内核已经准备好数据，调用recvfrom方法则会在数据报被从kernel拷贝到buf中后返回（这一段是同步的！）

也就是说，阻塞与非阻塞式IO的主要区别在于等待数据报准备好的第一阶段，至于将数据从kernel拷贝到buf中的过程，两者都是同步的。

但是个人觉得非阻塞式IO可能并不好用，因为在轮询一个socket是否可读的过程会直接占满一个core

如果想要减少cpu资源占用的话，又会增加编程的复杂度。

3. I/O多路复用

IO多路复用有select/poll/epoll这样的几种方式

先介绍一下最有代表性的select方法

int select(int nfds, fd_set *restrict readfds,
　　fd_set *restrict writefds, fd_set *restrict errorfds,
　　struct timeval *restrict timeout);

select方法的返回值代表当前可以操作的fd数量，如果返回值大于0，说明已经有fd准备就绪，下一步我们就可以调用recvfrom方法从就绪的fd中读取数据了（先只考虑可读的情况）

select方法是否阻塞，与timeout参数有关

如果timeout被设置为0，那么select是非阻塞的，对select方法的调用会立即返回。

如果timeout被设置为非0，则select会阻塞，直到有fd可读，或者timeout到期为止。

总的来说，I/O多路复用是同步阻塞的，但主要是阻塞在对select/poll/epoll方法的调用上，后续的recvfrom则是同步的。

多说一句，I/O多路复用，实际上跟第一条介绍的阻塞IO差不多
只是I/O多路复用可以同时监听多个fd罢了

这样就减少了为每个需要监听的fd开启一个线程的开销。

4. 信号驱动式I/O

没用过也没见过，直接上截图：

5. 异步I/O

同步IO中，在调用recvfrom方法时，即使kernel已经将数据准备好，recvfrom方法也不会立即返回

必须要在耗费一定的时间，将数据从kernel完全拷贝到用户buf中后，recvfrom方法才会返回

也就是说，在recvfrom方法无异常返回的时候，数据已经在buf中准备好了

异步IO则有相当大的不同：

1. 用户调用一次请求数据的方法，该方法会无阻塞的立即返回。

2. OS接到这个请求后，会将用户所请求的数据从kernel拷贝到指定的位置。

3. 数据拷贝完成后，第一步中注册的回调方法会被调用（或者触发一个信号，总之就是要让用户感知到数据已经拷贝完成）

4. 用户感知到这一事件，此时数据已经准备好，可以直接处理数据了

如下图所示

但是目前Linux的aio还不成熟，而且epoll提供的IO多路复用模型在性能上已经够用了，所以在此就不举例了

ps. NodeJS在Linux上的异步实现是基于libeio，这是用阻塞IO和线程池模拟出来的异步IO

最后上一张图作为总结

最后再把文章开头的两句话再重复一遍，理解想必会更加深刻

- A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
- An asynchronous I/O operation does not cause the requesting process to be blocked;

参考文献

网络编程释疑之：同步，异步，阻塞，非阻塞

码农公寓

相关文章