端口号
ftp:21
ssh:22
rsync:873
telnet:23
http:80
mySQL:3306
HTTP协议介绍
超文本传输协议(英语:HyperText Transfer Protocol),缩写为HTTP,它是一种用于分布式、协作式和超媒体信息系统的应用层协议,是万维网的数据通信的基础,也是互联网应用最为广泛的一种网络传输协议。最初设计HTTP的目的是为了提供一种发布和接收HTML页面的方法。
HTTP的发展是由蒂姆·伯纳斯-李于1989年在欧洲核子研究组织(CERN)所发起,标准制定由万维网协会(World Wide Web Consortium,W3C)和互联网工程任务组(Internet Engineering Task Force,IETF)进行协调,目前HTTP协议中最广泛使用的版本是HTTP 1.1。
## URL介绍
“统一资源定位符(URL)是Internet上标准资源的地址。URL指示资源的位置以及用于访问它的协议。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的具体位置。”
# URL的组成
协议+主机+端口+站点目录下的目录和文件
例:http://www.wzh.com:90/www/a.txt
端口和协议一般不用输入
HTTP的工作原理
## 用户在浏览器输入URL
1.浏览器分析URL内容
2.浏览器请求DNS解析URL中的域名
3.DNS将解析出的IP地址返回给浏览器
4.浏览器与该IP的服务器建立TCP连接
5.浏览器请求该IP服务器站点目录的index.html页面
6.服务器将站点目录下的index.html页面发送给浏览器
7.浏览器断开与服务器站点的TCP连接
8.浏览器显示index.html中的内容
# HTTP是基于TCP协议之上的
# HTTP由请求和响应构成,是一个标准的客户端服务器模型(B/S)。HTTP协议永远都是客户端发起请求,服务器回送响应。
#
详细的HTTP工作原理
1.用输入域名 - > 浏览器跳转 - > 浏览器缓存 - > Hosts文件 - > DNS解析(递归查询|迭代查询)
客户端向服务端发起查询 - > 递归查询
服务端向服务端发起查询 - > 迭代查询
2.由浏览器向服务器发起TCP连接(三次握手)
客户端 -->请求包连接 -syn=1 seq=x 服务端
服务端 -->响应客户端syn=1 ack=x+1 seq=y 客户端
客户端 -->建立连接 ack=y+1 seq=x+1 服务端
3.客户端发起http请求:
1)请求的方法是什么: GET获取
2)请求的Host主机是: blog.driverzeng.com
3)请求的资源是什么: /index.html
4)请求的端端口是什么: 默认http是80 https是443
5)请求携带的参数是什么: 属性(请求类型、压缩、认证、浏览器信息、等等)
6)请求最后的空行
4.服务端响应的内容是
1)服务端响应使用WEB服务软件
2)服务端响应请求文件类型
3)服务端响应请求的文件是否进行压缩
4)服务端响应请求的主机是否进行长连接
5.客户端向服务端发起TCP断开(四次挥手)
客户端 --> 断开请求 fin=1 seq=x --> 服务端
服务端 --> 响应断开 fin=1 ack=x+1 seq=y --> 客户端
服务端 --> 断开连接 fin=1 ack=x+1 seq=z --> 客户端
客户端 --> 确认断开 fin=1 ack=x+1 seq=sj --> 服务端
页面分析
# 基本信息
请求网址:https://www.driverzeng.com/
请求方法:GET
远程地址:39.104.203.184:443
状态码:
200
版本:HTTP/1.1
Request URL: http://www.biadu.com/
Request Method: GET
Status Code: 200 OK
Remote Address: 10.0.0.7:80
Referrer Policy: no-referrer-when-downgrade
# 请求头部
## 请求的资源类型
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/\*=0.8,application/signed-exchange;v=b3
## 资源类型压缩
Accept-Encoding: gzip, deflate
## 资源类型的语言
Accept-Language: zh-CN,zh;q=0.9
## 缓存控制:服务端没有开启缓存
Cache-Control: no-cache
## 长连接
Connection: keep-alive
## 访问的主机:www.biadu.com
Host: www.biadu.com
## 项目缓存:没有开启
Pragma: no-cache
## 客户端优先加密
Upgrade-Insecure-Requests: 1
## 用户访问网站的客户端工具
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36
# 响应头部
Connection: keep-alive # 建立长连接
Content-Type: text/html;charset=utf-8 # 解析方式和字符集
Date: Wed, 13 May 2020 02:29:35 GMT # 日期
server:Nginx/1.14.1 #该网站服务器,使用的软件和版本号
status: 200 #状态码
http请求方法
方法(Method) | 含义 |
---|---|
GET | 请求读取一个Web页面(下载一个页面) |
POST | 附加一个命名资(如Web页面)(上传) |
DELETE | 删除Web页面 |
CONNECT | 用于代理服务器 |
HEAD | 请求读取一个Web页面的头部 |
PUT | 请求存储一个Web页面 |
TRACE | 用于测试,要求服务器送回收到的请求 |
OPTION | 查询特定选项 |
http响应方法
2xx和3xx都是网页可以正常访问
4xx:Nginx的报错(出错,出在nginx上)去检查nginx服务,或者服务器权限等...
5xx:后端报错(nginx后面连接的服务报错:mysql、php、tomcat、redis.......,如果不是前面的原因:你们的代码有问题,滚回去重写)
状态码 | 含义 |
---|---|
200 | 成功 |
301 | 永久重定向(跳转) |
302 | 临时重定向(跳转) |
304 | 本地缓存(浏览器的缓存) |
307 | 内部重定向(跳转) |
400 | 客户端错误 |
401 | 认证失败 |
403 | 找不到主页,权限不足 |
404 | 找不到页面 |
405 | 请求方法不被允许 |
500 | 内部错误(MySQL关闭等...) |
502 | bad gateway 坏了的网关(php tomcat 等服务关闭) |
503 | 服务端请求限制 |
504 | 请求超时 |
http状态码详解
转载自阿里云IP
1xx(临时响应)
用于表示临时响应并需要请求者执行操作才能继续的状态代码。
代码 | 说明 |
---|---|
100(继续) | 请求者应继续进行请求。服务器返回此代码以表示,服务器已收到某项请求的第一部分,正等待接收剩余部分。 |
101(切换协议) | 请求者已要求服务器切换协议,服务器已确认并准备进行切换。 |
2xx成功
用于表示服务器已成功处理相应请求的状态代码。
代码 | 说明 |
---|---|
200(成功) | 服务器成功处理了相应请求。通常,这表示服务器已提供了请求的网页。如果您的 robots.txt 文件显示为此状态,则表示 检测工具 已成功检索到该文件。 |
201(已创建) | 请求成功且服务器已创建了新的资源。 |
202(已接受) | 服务器已接受相应请求,但尚未对其进行处理。 |
203(非授权信息) | 服务器已成功处理相应请求,但返回了可能来自另一来源的信息。 |
204(无内容) | 服务器已成功处理相应请求,但未返回任何内容。 |
205(重置内容) | 服务器已成功处理相应请求,但未返回任何内容。与 204 响应不同,此响应要求请求者重置文档视图(例如清除表单内容以输入新内容)。 |
206(部分内容) | 服务器成功处理了部分 GET 请求。 |
3xx(已重定向)
您需要进一步操作才能完成请求。此类状态代码通常可用于重定向。 建议您针对每一请求使用重定向的次数少于五次。您可以使用网站站长工具确定 检测工具 是否会在抓取重定向网页时遇到问题。抓取下的抓取错误页列出了由于重定向错误而导致 检测工具 无法抓取的网址。
代码 | 说明 |
---|---|
300(多种选择) | 服务器可以根据请求来执行多项操作,例如:按照请求者(用户代理)的要求来选择某项操作或者展示列表以便请求者选择其中某项操作。 |
301(永久移动) | 请求的网页已永久移动到新位置。服务器返回此响应(作为对 GET 或 HEAD 请求的响应)时,会自动将请求者转到新位置。您应使用此代码通知 检测工具 某个网页或网站已被永久移动到新位置。 |
302(临时移动) | 服务器目前正从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。此代码与响应 GET 和 HEAD 请求的 301 代码类似,会自动将请求者转到不同的位置。但由于 检测工具 会继续抓取原有位置并将其编入索引,因此您不应使用此代码来通知 检测工具 某个页面或网站已被移动。 |
303(查看其他位置) | 当请求者应对不同的位置进行单独的 GET 请求以检索响应时,服务器会返回此代码。对于除 HEAD 请求之外的所有请求,服务器会自动转到其他位置。 |
304(未修改) | 请求的网页自上次请求后再也没有修改过。当服务器返回此响应时,不会返回相关网页的内容。如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。服务器可以告诉 检测工具 自从上次抓取后网页没有变更,进而节省带宽和开销。 |
305(使用代理) | 请求者只能使用代理访问请求的网页。如果服务器返回此响应,那么,服务器还会指明请求者应当使用的代理。 |
307(临时重定向) | 服务器目前正从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。此代码与响应 GET 和 HEAD 请求的 301 代码类似,会自动将请求者转到不同的位置。但由于 检测工具 会继续抓取原有位置并将其编入索引,因此您不应使用此代码来通知 检测工具 某个页面或网站已被移动。 |
4xx(请求错误)
此类状态代码表示,相应请求可能出错,已阻止了服务器对请求的处理。
代码 | 说明 |
---|---|
400(错误请求) | 服务器不理解相应请求的语法。 |
401(未授权) | 请求要求进行身份验证。登录后,服务器可能会返回对页面的此响应。 |
403(已禁止) | 服务器正在拒绝相应请求。如果 检测工具 在尝试抓取网站的有效网页时收到此状态代码(您可在 网站站长工具中运行工具下的抓取错误页上进行查看),则可能是因为您的服务器或主机正在阻止 检测工具 进行访问。 |
404(未找到) | 服务器找不到请求的网页。例如,如果相应请求是针对服务器上不存在的网页进行的,那么服务器通常会返回此代码。如果您的网站上没有 robots.txt 文件,而您在 网站站长工具中的已拦截的网址页上看到此状态,那么这就是正确的状态。然而,如果您有 robots.txt 文件而又发现了此状态,那么,这说明您的 robots.txt 文件可能是命名错误或位于错误的位置。(该文件应当位于*域名上,且应当名为 robots.txt)。如果您在 检测工具 尝试抓取的网址上看到此状态,那么这表示 检测工具 追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。 |
405(方法禁用) | 禁用相应请求中所指定的方法。 |
406(不接受) | 无法使用相应请求的内容特性来响应请求的网页。 |
407(需要代理授权) | 此状态代码与 401(未授权)类似,但却指定了请求者应当使用代理进行授权。如果服务器返回此响应,那么,服务器还会指明请求者应当使用的代理。 |
408(请求超时) | 服务器在等待请求时超时。 |
409(冲突) | 服务器在完成请求时遇到冲突。服务器必须在响应中包含该冲突的相关信息。服务器在响应与前一个请求相冲突的 PUT 请求时可能会返回此代码,同时会提供两个请求的差异列表。 |
410(已删除) | 如果请求的资源已被永久删除,那么服务器会返回此响应。该代码与 404(未找到)代码类似,但在资源以前有但现在已经不复存在的情况下,有时会替代 404 代码出现。如果资源已永久删除,您应使用 301 指定资源的新位置。 |
411(需要有效长度) | 服务器不会接受包含无效内容长度标头字段的请求。 |
412(未满足前提条件) | 服务器未满足请求者在请求中设置的其中一个前提条件。 |
413(请求实体过大) | 服务器无法处理相应请求,因为请求实体过大,已超出服务器的处理能力。 |
414(请求的 URI 过长) | 请求的 URI(通常为网址)过长,服务器无法进行处理。 |
415(不支持的媒体类型) | 相应请求的格式不受请求页面的支持。 |
416(请求范围不符合要求) | 如果相应请求是针对网页的无效范围进行的,那么服务器会返回此状态代码。 |
417(未满足期望值) | 服务器未满足“期望”请求标头字段的要求。 |
5xx(服务器错误)
此类状态代码表示,服务器在尝试处理相应请求时发生内部错误。此类错误往往与服务器本身有关(与请求无关)。
代码 | 说明 |
---|---|
500(服务器内部错误) | 服务器遇到错误,无法完成相应请求。 |
501(尚未实施) | 服务器不具备完成相应请求的功能。例如,当服务器无法识别请求方法时,可能便会返回此代码。 |
502(错误网关) | 服务器作为网关或代理,从上游服务器收到了无效的响应。 |
503(服务不可用) | 目前无法使用服务器(由于超载或进行停机维护)。通常,这只是暂时状态。 |
504(网关超时) | 服务器作为网关或代理,未及时从上游服务器接收请求。 |
505(HTTP 版本不受支持) | 服务器不支持相应请求中所用的 HTTP 协议版本。 |
TCP协议介绍
TCP/IP(Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议)是指能够在多个不同网络间实现信息传输的协议簇。TCP/IP协议不仅仅指的是TCP 和IP两个协议,而是指一个由FTP、SMTP、TCP、UDP、IP等协议构成的协议簇, 只是因为在TCP/IP协议中TCP协议和IP协议最具代表性,所以被称为TCP/IP协议。
TCP/IP协议在一定程度上参考了OSI的体系结构。OSI模型共有七层,从下到上分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。但是这显然是有些复杂的,所以在TCP/IP协议中,它们被简化为了四个层次。 [1]
(1)应用层、表示层、会话层三个层次提供的服务相差不是很大,所以在TCP/IP协议中,它们被合并为应用层一个层次。[1]
(2)由于传输层和网络层在网络协议中的地位十分重要,所以在TCP/IP协议中它们被作为独立的两个层次。 [1]
(3)因为数据链路层和物理层的内容相差不多,所以在TCP/IP协议中它们被归并在网络接口层一个层次里。只有四层体系结构的TCP/IP协议,与有七层体系结构的OSI相比要简单了不少,也正是这样,TCP/IP协议在实际的应用中效率更高,成本更低。 [1]
分别介绍TCP/IP协议中的四个层次。
应用层:应用层是TCP/IP协议的第一层,是直接为应用进程提供服务的。
(1)对不同种类的应用程序它们会根据自己的需要来使用应用层的不同协议,邮件传输应用使用了SMTP协议、万维网应用使用了HTTP协议、远程登录服务应用使用了有TELNET协议。 [1]
(2)应用层还能加密、解密、格式化数据。 [1]
(3)应用层可以建立或解除与其他节点的联系,这样可以充分节省网络资源。 [1]
传输层:作为TCP/IP协议的第二层,传输层在整个TCP/IP协议中起到了中流砥柱的作用。且在运输层中,TCP和UDP也同样起到了中流砥柱的作用。 [1]
网络层:网络层在TCP/IP协议中的位于第三层。在TCP/IP协议中网络层可以进行网络连接的建立和终止以及IP地址的寻找等功能。 [1]
网络接口层:在TCP/IP协议中,网络接口层位于第四层。由于网络接口层兼并了物理层和数据链路层所以,网络接口层既是传输数据的物理媒介,也可以为网络层提供一条准确无误的线路。 [1]