1、一个unix文件就是一个m字节的序列(b0b1b2...bm-1)。所有的IO设备,如网络,磁盘,终端,都被模型化为文件,而所有的输入和输出都被当作对相应文件的读和写来执行。
2、所有的输入和输出都被当作统一的方式来处理:
1)打开文件。一个应用程序通过要求内核打开相应的文件,来宣告它想要访问一个IO设备。内核返回一个小的非负整数,叫做描述符,它在后续对此文件的所有操作中标识这个文件。内核记录这个打开文件的所有信息,而应用程序只需记住这个描述符。
Unix创建的每个进程开始都有三个打开的文件:标准输入(描述符为0),标准输出(描述符1),标准错误(描述符为2)。头文件unistd.h中定义了相关常量。
2)改变当前的位置。内核保持一个文件位置k,对于每个打开文件,初始为0。这个文件位置是从文件开头起始的字节偏移量。
3)内核释放文件打开时创建的数据结构,并恢复描述符到可获得描述符池中。
3、相关函数
open,close,read,write。具体定义可以参见man手册,或相关网页,或本书11.3。
1)某些情况下,原始的read,write传送的字节比应用程序要求的要少,这些不足值(short count)不一定是错误(意为,比如read函数参数要读5个字节,结果只读了3个字节,即小于5),下面的情况下将可能发生不足值:
(1)读时遇到EOF。
(2)从终端读文本行。
(3)读和写网络套接字。
为了避免不足值问题(健壮程序的需求,如Web服务器这样的网络应用),就需要处理不足值。本书作者11.4节开发了Rio包满足这个情况。
4、函数是线程安全的:它在同一个描述符上可以被交替地调用。
5、元数据:关于文件的信息,如创建时间,修改时间,metadata。可以调用stat,fstat函数。
6、对于内核而言,文件文件和二进制文件毫无区别。
7、共享文件
内核用三种相关的数据结构来表示打开的文件。
1)描述符表:它的表项由进程打开的文件描述符来索引的。
2)文件表:打开文件的集合是一张文件表来表示的,所有的进程共享这张表。
3)v-node表:同文件表一样,所有的进程共享这张v-node表。每个表项包含stat结构中的大部分信息,如文件大小等。
多个描述符也可以通过不同的文件表项来引用同一个文件。
下图展示一个fork创建子进程的情况:子进程有一个父进程描述符的副本;父子进程共享相同的打开文件表集合,因此共享相同的文件位置。注意点:在内核删除相应文件表表项前,父子进程必须都关闭了它们的描述符。
8、IO重定向
unix > ls > foo.txt
实际是dup2函数(one case)。dup2函数对文件描述符表项进行重定位。
9、标准IO
标准函数如fopen,fclose,fread,fwrite,fgets,fputs,scanf,printf。
标准IO库将一个打开的文件模型化为一个流,对于程序员来说,一个流就是一个指向类型为FILE结构的一个指针。每个ANSI C程序开始都有三个打开的流stdin,stdout,stderr,分别对应于标准输入、输出、错误。
类型为FILE的流是对文件描述符和流缓冲区的抽象。
10、示例图
11、标准IO流,从某种意义上而言是全双工的,因为程序能够在同一个流上执行输入和输出。但是有一些限定:
1)限定1:输入函数跟有输出函数之后。如果中间没有fflush,fseek,fsetpos或rewind的调用,一个输入函数不能跟随在一个输出函数之后。fflush清空与流相关的缓冲区,后三个函数使用unix IO lseek函数来重置当前文件的位置。
2)限定2:输出函数跟有输入函数之后。情况类同上。
这些限定给网络应用带来一个问题:因为对套接字使用lseek是非法的。用Rio包可以解决这个问题。用sprintf把输出格式化一个字符串,通过rio_writen输出,傅rio_readlineb来读一行,用scanf来从文本中提取不同的字段。