socket这个词可以表示很多概念:
在TCP/IP协议中,“IP地址+TCP或UDP端口号”唯一标识网络通讯中的一个进程,“IP地址+端口号”就称为socket。
在TCP协议中,建立连接的两个进程各自有一个socket来标识,那么这两个socket组成的socket pair就唯一标识一个连接。
socket本身有“插座”的意思,因此用来描述网络连接的一对一关系。
TCP/IP协议最早在BSD UNIX上实现,为TCP/IP协议设计的应用层编程接口称为socket API。
预备知识
网络字节序
我们已经知道,内存中的多字节数据相对于内存地址有大端和小端之分,磁盘文件中的多字节数据相对于文件中的偏移地址也有大端小端之分。
网络数据流同样有大端小端之分,那么如何定义网络数据流的地址呢?发送主机通常将发送缓冲区中的数据按内存地址从低到高的顺序发出,
接收主机把从网络上接到的字节依次保存在接收缓冲区中,也是按内存地址从低到高的顺序保存,因此,网络数据流的地址应这样规定:先发出的数据是低地址,后发出的数据是高地址。
TCP/IP协议规定,网络数据流应采用大端字节序,即低地址高字节。例如UDP段格式,地址0-1是16位的源端口号,如果这个端口号是1000(0x3e8),则地址0是0x03,
地址1是0xe8,也就是先发0x03,再发0xe8,这16位在发送主机的缓冲区中也应该是低地址存0x03,高地址存0xe8。但是,如果发送主机是小端字节序的,这16位被解释成0xe803,而
不是1000。因此,发送主机把1000填到发送缓冲区之前需要做字节序的转换。同样地,接收主机如果是小端字节序的,接到16位的源端口号也要做字节序的转换。如果主机是大端字节
序的,发送和接收都不需要做转换。同理,32位的IP地址也要考虑网络字节序和主机字节序的问题。
为使网络程序具有可移植性,使同样的C代码在大端和小端计算机上编译后都能正常运行,可以调用以下库函数做网络字节序和主机字节序的转换。
#include <arpa/inet.h> uint32_t htonl(uint32_t hostlong); uint16_t htons(uint16_t hostshort); uint32_t ntohl(uint32_t netlong); uint16_t ntohs(uint16_t netshort); h表示host,n表示network,l表示32位长整数,s表示16位短整数。 如果主机是小端字节序,这些函数将参数做相应的大小端转换然后返回,如果主机是大端字节序,这些函数不做转 换,将参数原封不动地返回。
IP地址转换函数 早期 #include <sys/socket.h> #include <netinet/in.h> #include <arpa/inet.h> int inet_aton(const char *cp, struct in_addr *inp); in_addr_t inet_addr(const char *cp); char *inet_ntoa(struct in_addr in); 只能处理IPv4的ip地址 不可重入函数 注意参数是struct in_addr 现在 #include <arpa/inet.h> int inet_pton(int af, const char *src, void *dst); const char *inet_ntop(int af, const void *src, char *dst, socklen_t size); 支持IPv4和IPv6
其中inet_pton和inet_ntop不仅可以转换IPv4的in_addr,还可以转换IPv6的in6_addr,因此函数接口是void *addrptr
sockaddr数据结构
strcut sockaddr 很多网络编程函数诞生早于IPv4协议,那时候都使用的是sockaddr结构体,为了向前兼容,现在sockaddr退化成了(void *)的作用,传递一个地址给函数,
至于这个函数是sockaddr_in还是sockaddr_in6,由地址族确定,然后函数内部再强制类型转化为所需的地址类型
struct sockaddr { sa_family_t sa_family; /* address family, AF_xxx */ char sa_data[14]; /* 14 bytes of protocol address */ }; struct sockaddr_in { __kernel_sa_family_t sin_family; /* Address family */ __be16 sin_port; /* Port number */ struct in_addr sin_addr; /* Internet address */ /* Pad to size of `struct sockaddr'. */ unsigned char __pad[__SOCK_SIZE__ - sizeof(short int) - sizeof(unsigned short int) - sizeof(struct in_addr)]; }; /* Internet address. */ struct in_addr { __be32 s_addr; } struct sockaddr_in6 { unsigned short int sin6_family; /* AF_INET6 */ __be16 sin6_port; /* Transport layer port # */ __be32 sin6_flowinfo; /* IPv6 flow information */ struct in6_addr sin6_addr; /* IPv6 address */ __u32 sin6_scope_id; /* scope id (new in RFC2553) */ }; struct in6_addr { union { __u8 u6_addr8[16]; __be16 u6_addr16[8]; __be32 u6_addr32[4]; } in6_u; #define s6_addr in6_u.u6_addr8 #define s6_addr16 in6_u.u6_addr16 #define s6_addr32 in6_u.u6_addr32 }; #define UNIX_PATH_MAX 108 struct sockaddr_un { __kernel_sa_family_t sun_family; /* AF_UNIX */ char sun_path[UNIX_PATH_MAX]; /* pathname */ };
Pv4和IPv6的地址格式定义在netinet/in.h中,IPv4地址用sockaddr_in结构体表示,包括16位端口号和32位IP地址, IPv6地址用sockaddr_in6结构体表示,包括16位端口号、128位IP地址和一些控制字段。UNIX Domain Socket的地址格式定义在sys/un.h中,用sockaddr_un结构体表示。各种socket地址结构体的开头都是相同的,前16位表示整个结构体的长度(并不是所有UNIX的实现都有长度字段,如Linux就没有),后16位表示地址类型。 IPv4、IPv6和Unix Domain Socket的地址类型分别定义为常数AF_INET、AF_INET6、AF_UNIX。 这样,只要取得某种sockaddr结构体的首地址,不需要知道具体是哪种类型的sockaddr结构体,就可以根据地址类型字段确定结构体中的内容。 因此,socket API可以接受各种类型的sockaddr结构体指针做参数,例如bind、accept、connect等函数, 这些函数的参数应该设计成void *类型以便接受各种类型的指针,但是sock API的实现早于ANSI C标准化,那时还没有void *类型,因此这些函数的参数都用 struct sockaddr *类型表示,在传递参数之前强制类型转换一下,例如:
struct sockaddr_in servaddr; /* initialize servaddr */ bind(listen_fd, (struct sockaddr *)&servaddr, sizeof(servaddr));
网络套接字函数
socket
#include <sys/types.h> /* See NOTES */ #include <sys/socket.h> int socket(int domain, int type, int protocol); domain: AF_INET 这是大多数用来产生socket的协议,使用TCP或UDP来传输,用IPv4的地址 AF_INET6 与上面类似,不过是来用IPv6的地址 AF_UNIX 本地协议,使用在Unix和Linux系统上,一般都是当客户端和服务器在同一台及其上的时候使用 type: SOCK_STREAM 这个协议是按照顺序的、可靠的、数据完整的基于字节流的连接。这是一个使用最多的socket类 型,这个socket是使用TCP来进行传输。 SOCK_DGRAM 这个协议是无连接的、固定长度的传输调用。该协议是不可靠的,使用UDP来进行它的连接。 SOCK_SEQPACKET 这个协议是双线路的、可靠的连接,发送固定长度的数据包进行传输。必须把这个包完整的 接受才能进行读取。 SOCK_RAW 这个socket类型提供单一的网络访问,这个socket类型使用ICMP公共协议。(ping、traceroute使 用该协议) SOCK_RDM 这个类型是很少使用的,在大部分的操作系统上没有实现,它是提供给数据链路层使用,不保证数 据包的顺序 protocol: 0 默认协议 返回值: 成功返回一个新的文件描述符,失败返回-1,设置errno
socket()打开一个网络通讯端口,如果成功的话,就像open()一样返回一个文件描
述符,应用程序可以像读写文件一样用read/write在网络上收发数据,如果socket()调
用出错则返回-1。对于IPv4,domain参数指定为AF_INET。对于TCP协议,type参数指定为
SOCK_STREAM,表示面向流的传输协议。如果是UDP协议,则type参数指定为SOCK_DGRAM,
表示面向数据报的传输协议。protocol参数的介绍从略,指定为0即可。
bind
#include <sys/types.h> /* See NOTES */ #include <sys/socket.h> int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen); sockfd: socket文件描述符 addr: 构造出IP地址加端口号 addrlen: sizeof(addr)长度 返回值: 成功返回0,失败返回-1, 设置errno
服务器程序所监听的网络地址和端口号通常是固定不变的,客户端程序得知服务器程序
的地址和端口号后就可以向服务器发起连接,因此服务器需要调用bind绑定一个固定的网络
地址和端口号。
bind()的作用是将参数sockfd和addr绑定在一起,使sockfd这个用于网络通讯的文件
描述符监听addr所描述的地址和端口号。前面讲过,struct sockaddr *是一个通用指针类
型,addr参数实际上可以接受多种协议的sockaddr结构体,而它们的长度各不相同,所以需
要第三个参数addrlen指定结构体的长度。如:
struct sockaddr_in servaddr; bzero(&servaddr, sizeof(servaddr)); servaddr.sin_family = AF_INET; servaddr.sin_addr.s_addr = htonl(INADDR_ANY); servaddr.sin_port = htons(8000);
首先将整个结构体清零,然后设置地址类型为AF_INET,网络地址为INADDR_ANY,这个
宏表示本地的任意IP地址,因为服务器可能有多个网卡,每个网卡也可能绑定多个IP地址,
这样设置可以在所有的IP地址上监听,直到与某个客户端建立了连接时才确定下来到底用哪
个IP地址,端口号为8000。
listen
#include <sys/types.h> /* See NOTES */ #include <sys/socket.h> int listen(int sockfd, int backlog); sockfd: socket文件描述符 backlog: 排队建立3次握手队列和刚刚建立3次握手队列的链接数和
查看系统默认backlog
cat /proc/sys/net/ipv4/tcp_max_syn_backlog
典型的服务器程序可以同时服务于多个客户端,当有客户端发起连接时,服务器调用的
accept()返回并接受这个连接,如果有大量的客户端发起连接而服务器来不及处理,尚未
accept的客户端就处于连接等待状态,listen()声明sockfd处于监听状态,并且最多允许有
backlog个客户端处于连接待状态,如果接收到更多的连接请求就忽略。listen()成功返回
0,失败返回-1。
#include <sys/types.h> /* See NOTES */ #include <sys/socket.h> int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen); sockdf: socket文件描述符 addr: 传出参数,返回链接客户端地址信息,含IP地址和端口号 addrlen: 传入传出参数(值-结果),传入sizeof(addr)大小,函数返回时返回真正接收到地址结 返回值: 成功返回一个新的socket文件描述符,用于和客户端通信,失败返回-1,设置errno
三方握手完成后,服务器调用accept()接受连接,如果服务器调用accept()时还没有
客户端的连接请求,就阻塞等待直到有客户端连接上来。addr是一个传出参数,accept()
返回时传出客户端的地址和端口号。addrlen参数是一个传入传出参数(value-result
argument),传入的是调用者提供的缓冲区addr的长度以避免缓冲区溢出问题,传出的是客
户端地址结构体的实际长度(有可能没有占满调用者提供的缓冲区)。如果给addr参数传
NULL,表示不关心客户端的地址。
我们的服务器程序结构是这样的:
while (1) { cliaddr_len = sizeof(cliaddr); connfd = accept(listenfd, (struct sockaddr *)&cliaddr, &cliaddr_len); n = read(connfd, buf, MAXLINE); ...... close(connfd); }
整个是一个while死循环,每次循环处理一个客户端连接。由于cliaddr_len是传入传出
参数,每次调用accept()之前应该重新赋初值。accept()的参数listenfd是先前的监听文件
描述符,而accept()的返回值是另外一个文件描述符connfd,之后与客户端之间就通过这个
connfd通讯,最后关闭connfd断开连接,而不关闭listenfd,再次回到循环开头listenfd仍
然用作accept的参数。accept()成功返回一个文件描述符,出错返回-1
connect
#include <sys/types.h> /* See NOTES */ #include <sys/socket.h> int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen); sockdf: socket文件描述符 addr: 传入参数,指定服务器端地址信息,含IP地址和端口号 addrlen: 传入参数,传入sizeof(addr)大小 返回值: 成功返回0,失败返回-1,设置errno
server.c
#include <stdio.h> #include <sys/types.h> #include <sys/socket.h> #include <strings.h> #include <arpa/inet.h> #include <unistd.h> #include <ctype.h> #define SERV_PORT 8000 int main(void) { int sfd, cfd; int i, len; struct sockaddr_in serv_addr, client_addr; char buf[4096], client_ip[128]; socklen_t addr_len; //AF_INET:ipv4 SOCK_STREAM:流协议 0:默认协议(tcp,udp) sfd = socket(AF_INET, SOCK_STREAM, 0); //绑定前先构造出服务器地址 bzero(&serv_addr, sizeof(serv_addr)); serv_addr.sin_family = AF_INET; //网络字节序 serv_addr.sin_port = htons(SERV_PORT); //INADDR_ANY主机所有ip serv_addr.sin_addr.s_addr = htonl(INADDR_ANY); bind(sfd, (struct sockaddr *)&serv_addr, sizeof(serv_addr)); //服务器能接收并发链接的能力 listen(sfd, 128); printf("wait for connect ...\n"); addr_len = sizeof(client_addr); //阻塞,等待客户端链接,成功则返回新的文件描述符,用于和客户端通信 cfd = accept(sfd, (struct sockaddr *)&client_addr, &addr_len); printf("client IP:%s\t%d\n", inet_ntop(AF_INET, &client_addr.sin_addr.s_addr, client_ip, sizeof(client_ip)), ntohs(client_addr.sin_port)); while (1) { //阻塞接收客户端数据 len = read(cfd, buf, sizeof(buf)); write(STDOUT_FILENO, buf, len); //处理业务 for (i = 0; i < len; i++) buf[i] = toupper(buf[i]); //返回给客户端结果 write(cfd, buf, len); } close(cfd); close(sfd); return 0; }
client
#include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/socket.h> #include <string.h> #include <arpa/inet.h> #define SERV_PORT 8000 int main(int argc, char *argv[]) { int sfd, len; struct sockaddr_in serv_addr; char buf[4096]; if (argc < 2) { printf("./client serv_ip\n"); return 1; } sfd = socket(AF_INET, SOCK_STREAM, 0); bzero(&serv_addr, sizeof(serv_addr)); serv_addr.sin_family = AF_INET; serv_addr.sin_port = htons(SERV_PORT); inet_pton(AF_INET, argv[1], &serv_addr.sin_addr.s_addr); connect(sfd, (struct sockaddr *)&serv_addr, sizeof(serv_addr)); while (fgets(buf, sizeof(buf), stdin)) { write(sfd, buf, strlen(buf)); len = read(sfd, buf, sizeof(buf)); write(STDOUT_FILENO, buf, len); } return 0; }