概述
HTTP(hypertext transport protocol),即超文本传输协议。这个协议详细规定了浏览器和万维网服务器之间互相通信的规则。
HTTP就是一个通信规则,通信规则规定了客户端发送给服务器的内容格式,也规定了服务器发送给客户端的内容格式。客户端发送给服务器的格式叫“请求协议”;服务器发送给客户端的格式叫“响应协议”。
无状态协议
URL:统一资源定位符,就是一个网址:协议名://域名:端口/路径。
URL的请求协议几乎都是HTTP,它是一种无状态的请求响应,即每次的请求响应之后,连接会立即断开或延时断开(保持一定的连接有效期),断开后,下一次请求再重新建立。由于HTTP协议是无状态协议,因此,服务器不需要知道客户端是谁,只认请求,一次请求对应一次响应。而账号信息等方面的内容是cookie和session在起作用,与HTTP协议本身无关。
HTTP格式
请求与响应一般都分为头部和体部,之间以空行分隔。对于请求体来说,一般出现在 POST方法中,比如表单的键值对。响应体就是在浏览器中看到的内容,比如,HTML/JSON/JavaScript/XML等。这里的重点在这个头部,头部的每一行都有自己的含义,key与value之间以冒号分隔。
请求协议的格式为:
请求首行:请求方式 请求路径 协议和版本,例如:GET /Shipin/2021_07_01_596533.shtml HTTP/1.1。
请求头信息:请求头名称:请求头内容,格式为key:value,例如:Host: www.guancha.cn
空行:用来分隔请求头和请求体
请求体:GET没有请求体,只有POST有请求体
请求和响应实例
对https://www.guancha.cn/Shipin/2021_07_01_596533_s.shtml发起一个GET请求:
GET /Shipin/2021_07_01_596533.shtml HTTP/1.1
Host: www.guancha.cn
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US) AppleWebKit/525.19 (KHTML, like Gecko) Chrome/1.0.154.48 Safari/525.19
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Referer: https://www.baidu.com/link?url=dG930Wgj8gRWERgRMXzzoZ8LH6msrSx5IHJOztzQYCvVfE2KAUZYLz6w4bQx7J3tyGN1bDaLj-pQqrBN4iKKq_&wd=&eqid=8733264d000119ed0000000260dd73c9
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9
Cookie: Hm_lvt_8ab18ec6e3ee89210917ef2c8572b30e=1615594031; CNZZDATA1254137364=566347845-1606198967-%7C1615594952
响应如下:
HTTP/1.1 200 OK
Date: Thu, 01 Jul 2021 08:16:48 GMT
Content-Type: text/html
Content-Length: 396
Server: NWS_TCloud_S1
Cache-Control: max-age=60
Expires: Thu, 01 Jul 2021 08:17:48 GMT
Last-Modified: Thu, 01 Jul 2021 08:10:00 GMT
Content-Encoding: gzip
X-NWS-LOG-UUID: 35915ba3-a07c-47df-a0aa-9110fd6b6e27
X-Cache-Lookup: Hit From Disktank3 Gz
X-NWS-UUID-VERIFY: 4e5b3b28ab2d4cb8ced144025dcda47d
Vary: Accept-Encoding
X-Powered-By: PHP/5.4.45
<html>
......
</html>
具体字段分析
下面对请求与响应中的具体内容进行分析。
GET /Shipin/2021_07_01_596533.shtml HTTP/1.1
这是请求首行,对应格式在前文已经说明。
请求方式是GET,在HTTP协议中,请求方式有很多,如下表所示,其中最常用的就是GET和POST。
序号 | 方法 | 描述 |
---|---|---|
1 | GET | 请求指定的页面信息,并返回实体主体。 |
2 | HEAD | 类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头 |
3 | POST | 向指定资源提交数据进行处理请求(例如提交表单或者上传文件),数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。 |
4 | PUT | 从客户端向服务器传送的数据取代指定的文档的内容。 |
5 | DELETE | 请求服务器删除指定的页面。 |
6 | CONNECT | HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。 |
7 | OPTIONS | 允许客户端查看服务器的性能。 |
8 | TRACE | 回显服务器收到的请求,主要用于测试或诊断。 |
此例中的HTTP版本为1.1。
根据HTTP标准,HTTP请求可以使用多种请求方法。
HTTP 0.9:只有基本的文本 GET 功能。
HTTP 1.0:完善的请求/响应模型,并将协议补充完整,定义了三种请求方法: GET, POST 和 HEAD方法。
HTTP 1.1:在 1.0 基础上进行更新,新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。
HTTP 2.0(未普及):请求/响应首部的定义基本没有改变,只是所有首部键必须全部小写,而且请求行要独立为 :method、:scheme、:host、:path这些键值对。
Host: www.guancha.cn
Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。简单来说,就是向哪个主机请求资源。
Connection: keep-alive
Connection:表示客户端与服务连接类型
- Client 发起一个包含
Connection:keep-alive
的请求,HTTP/1.1使用keep-alive
为默认值。 - Server收到请求后:
- 如果 Server 支持 keep-alive,回复一个包含 Connection:keep-alive 的响应,不关闭连接;
- 如果 Server 不支持 keep-alive,回复一个包含 Connection:close 的响应,关闭连接。
- 如果client收到包含
Connection:keep-alive
的响应,向同一个连接发送下一个请求,直到一方主动关闭连接。
keep-alive在很多情况下能够重用连接,减少资源消耗,缩短响应时间,比如当浏览器需要多个文件时(比如一个HTML文件和相关的图形文件),不需要每次都去请求建立连接。
Upgrade-Insecure-Requests: 1
Upgrade-Insecure-Requests:升级不安全的请求,意思是会在加载 http 资源时自动替换成 https 请求,让浏览器不再显示https页面中的http请求警报。
HTTPS 是以安全为目标的 HTTP 通道,所以在 HTTPS 承载的页面上不允许出现 HTTP 请求,一旦出现就是提示或报错。
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US) AppleWebKit/525.19 (KHTML, like Gecko) Chrome/1.0.154.48 Safari/525.19
User-Agent 很重要,用于表明身份。从这里可以看到操作系统、浏览器、浏览器内核及对应的版本号等信息。
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept:指浏览器或其他客户端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互联网邮件扩展))文件类型,服务器可以根据它判断并返回适当的文件格式。
举例:
Accept: */*
:表示什么都可以接收。
Accept:image/gif
:表明客户端希望接受GIF图像格式的资源;
Accept:text/html
:表明客户端希望接受html文本。
Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8
:表示浏览器支持的 MIME 类型分别是 html文本、xhtml和xml文档、所有的图像格式资源。
q是权重系数,范围 0 ≤ q ≤ 1,q 值越大,请求越倾向于获得其";"之前的类型表示的内容。若没有指定q值,则默认为1,按从左到右排序顺序;若被赋值为0,则用于表示浏览器不接受此内容类型。
Text:用于标准化地表示的文本信息,文本消息可以是多种字符集和或者多种格式的;Application:用于传输应用程序数据或者二进制数据。
Referer: https://www.baidu.com/link?url=dG930Wgj8gRWERgRMXzzoZ8LH6msrSx5IHJOztzQYCvVfE2KAUZYLz6w4bQx7J3tyGN1bDaLj-pQqrBN4iKKq_&wd=&eqid=8733264d000119ed0000000260dd73c9
Referer:表明产生请求的网页来自于哪个URL,用户是从该 Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面,是从什么网站来的。
有时候遇到下载某网站图片,需要对应的referer,否则无法下载图片,那是因为人家做了防盗链,原理就是根据referer去判断是否是本网站的地址,如果不是,则拒绝,如果是,就可以下载;
Accept-Encoding: gzip, deflate
Accept-Encoding:指出浏览器可以接受的编码方式。编码方式不同于文件格式,它是为了压缩文件并加速文件传递速度。浏览器在接收到Web响应之后先解码,然后再检查文件格式,许多情形下这可以减少大量的下载时间。
举例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0
如果有多个Encoding同时匹配, 按照q值顺序排列,本例中按顺序支持 gzip, identity压缩编码,支持gzip的浏览器会返回经过gzip编码的HTML页面。 如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。
gzip 表明实体采用GNU zip编码
compress 表明实体采用Unix的文件压缩程序
deflate 表明实体是用zlib的格式压缩的
identity 表明没有对实体进行编码。当没有Accept-Encoding时,就默认为这种情况
gzip, compress, 以及deflate编码都是无损压缩算法,用于减少传输报文的大小,不会导致信息损失。 其中gzip通常效率最高, 使用最为广泛。
PS:简单来说, gzip压缩是在一个文本文件中找出类似的字符串, 并临时替换他们,使整个文件变小。这种形式的压缩对Web来说非常适合, 因为HTML和CSS文件通常包含大量的重复的字符串,例如空格,标签。
Accept-Language: zh-CN,zh;q=0.9
Accept-Langeuage:指出浏览器可以接受的语言种类,如en或en-us指英语,zh或者zh-cn指中文,当服务器能够提供一种以上的语言版本时要用到。
Cookie: Hm_lvt_8ab18ec6e3ee89210917ef2c8572b30e=1615594031; CNZZDATA1254137364=566347845-1606198967-%7C1615594952
前面说HTTP是无状态的,那么每次在连接时,服务端如何知道你是上一次的那个?这里通过Cookies进行会话跟踪,第一次响应时设置的Cookies在随后的每次请求中都会发送出去。
浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体,它可以记载和服务器相关的用户信息,也可以用来实现会话功能。