Java IO 学习(一)同步/异步/阻塞/非阻塞

关于IO,同步/异步/阻塞/非阻塞,这几个关键词是经常听到的,譬如:

“Java oio是阻塞的,nio是非阻塞的”

“NodeJS的IO是异步的”

但是这些东西听多了就容易迷糊,比方说同步是否就是阻塞,异步是否就是非阻塞呢?

先给出结论:

1. 异步/同步与阻塞/非阻塞之间没有必然的联系

2. 同步IO可以是阻塞,也可以是非阻塞的

3. 异步IO就是异步IO,它一定是非阻塞的,不存在异步阻塞IO这个说法

POSIX对同步/异步的定义如下,这两句话非常关键

- A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
- An asynchronous I/O operation does not cause the requesting process to be blocked;

再给出权威文档:《UNIX网络编程:卷一》的第六章

书中列出了如下五种IO模型:

  • 阻塞式I/O;

  • 非阻塞式I/O;

  • I/O复用(select,poll,epoll...);

  • 信号驱动式I/O(SIGIO);

  • 异步I/O(POSIX的aio_系列函数);

1. 阻塞式IO

我们手上有一个socket,现在希望能从这个socket里读点数据出来,我们会对这个socket调用recvfrom方法

ssize_t recvfrom(int sockfd, void *buf, size_t len, int flags,
  struct sockaddr *src_addr, socklen_t *addrlen);

在默认情况下,recvfrom方法会被阻塞,直到从指定的socket上收到数据才会返回,返回时,buf中已经填充好了数据

阻塞的过程实际上可以分割成两段:等待kernel准备好从网络上接收到的数据报 + 等待收到的报文被从kernel复制到buf中

只有在这两个过程全部完成后,recvfrom方法才会返回。

这就是阻塞式IO模型

Java IO 学习(一)同步/异步/阻塞/非阻塞

2. 非阻塞式IO

还是上面的recvfrom方法,如果将其设置为非阻塞模式(flag与MSG_DONTWAIT异或),情况就会有所不同了:

在内核没有准备好数据报时,调用recvfrom方法会立即返回异常码(EWOULDBLOCK或者EAGAIN)(这一段是非阻塞的!)

如果内核已经准备好数据,调用recvfrom方法则会在数据报被从kernel拷贝到buf中后返回(这一段是同步的!)

也就是说,阻塞与非阻塞式IO的主要区别在于等待数据报准备好的第一阶段,至于将数据从kernel拷贝到buf中的过程,两者都是同步的。

Java IO 学习(一)同步/异步/阻塞/非阻塞

但是个人觉得非阻塞式IO可能并不好用,因为在轮询一个socket是否可读的过程会直接占满一个core

如果想要减少cpu资源占用的话,又会增加编程的复杂度。

3. I/O多路复用

IO多路复用有select/poll/epoll这样的几种方式

先介绍一下最有代表性的select方法

int select(int nfds, fd_set *restrict readfds,
  fd_set *restrict writefds, fd_set *restrict errorfds,
  struct timeval *restrict timeout);

select方法的返回值代表当前可以操作的fd数量,如果返回值大于0,说明已经有fd准备就绪,下一步我们就可以调用recvfrom方法从就绪的fd中读取数据了(先只考虑可读的情况)

select方法是否阻塞,与timeout参数有关

如果timeout被设置为0,那么select是非阻塞的,对select方法的调用会立即返回。

如果timeout被设置为非0,则select会阻塞,直到有fd可读,或者timeout到期为止。

总的来说,I/O多路复用是同步阻塞的,但主要是阻塞在对select/poll/epoll方法的调用上,后续的recvfrom则是同步的。

Java IO 学习(一)同步/异步/阻塞/非阻塞

多说一句,I/O多路复用,实际上跟第一条介绍的阻塞IO差不多
只是I/O多路复用可以同时监听多个fd罢了

这样就减少了为每个需要监听的fd开启一个线程的开销。

4. 信号驱动式I/O

没用过也没见过,直接上截图:

Java IO 学习(一)同步/异步/阻塞/非阻塞

5. 异步I/O

同步IO中,在调用recvfrom方法时,即使kernel已经将数据准备好,recvfrom方法也不会立即返回

必须要在耗费一定的时间,将数据从kernel完全拷贝到用户buf中后,recvfrom方法才会返回

也就是说,在recvfrom方法无异常返回的时候,数据已经在buf中准备好了

异步IO则有相当大的不同:

1. 用户调用一次请求数据的方法,该方法会无阻塞的立即返回。

2. OS接到这个请求后,会将用户所请求的数据从kernel拷贝到指定的位置。

3. 数据拷贝完成后,第一步中注册的回调方法会被调用(或者触发一个信号,总之就是要让用户感知到数据已经拷贝完成)

4. 用户感知到这一事件,此时数据已经准备好,可以直接处理数据了

如下图所示

Java IO 学习(一)同步/异步/阻塞/非阻塞

但是目前Linux的aio还不成熟,而且epoll提供的IO多路复用模型在性能上已经够用了,所以在此就不举例了

ps. NodeJS在Linux上的异步实现是基于libeio,这是用阻塞IO和线程池模拟出来的异步IO

最后上一张图作为总结

Java IO 学习(一)同步/异步/阻塞/非阻塞

最后再把文章开头的两句话再重复一遍,理解想必会更加深刻

- A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
- An asynchronous I/O operation does not cause the requesting process to be blocked;

参考文献

网络编程释疑之:同步,异步,阻塞,非阻塞

上一篇:如何使用Navicat创建postgreaql数据库的表时设定主键自增


下一篇:使用pycharm专业版(支持远程调试及运行)如何运行mpi的代码呢???(mpi4py的代码)