直播是云栖社区的主要模块之一,弹幕服务是在直播频道上线之后,为了更多的互动,提出的。
我主要做了下面的一些迭代:
- 使用 netty 构建弹幕应用
- 授权服务与弹幕服务的分离
- 专题页本地缓存
- 使用 nginx lua 为 web 应用加速
- 实时监控在线人数
使用 netty 构建弹幕应用
抽离出来的小demo https://github.com/zhoumengkang/netty-websocket
├── WebSocketServer.java 启动服务器端口监听
├── WebSocketServerInitializer.java 初始化服务
├── WebSocketServerHandler.java 接管WebSocket数据连接
├── dto
│ └── Response.java 返回给客户端数据对象
├── entity
│ └── Client.java 每个连接到WebSocket服务的客户端对象
└── service
├── MessageService.java 完成发送消息
└── RequestService.java WebSocket初始化连接握手时的数据处理
客户端授权与弹幕服务的分离
客户端请求 web 服务器 api 获取弹幕服务请求的完整地址
https://yq.aliyun.com/yqapi/webinar/barrage/url?id={id}
然后返回类似于
wss://barrage.aliyun.com/websocket/?rid={id}&code=xxxxx
然后客户端使用返回的websocket
地址发起请求即可。
因为在获取code
的过程中,需要读取集团 cookie,和账号中心交互验证用户身份合法性。获取用户的基本信息
{
uid: xxx,
name: xxx,
level: xxx,
isAdmin: xxx
}
然后和时间戳对称加密运算得到最终的code
,这样弹幕服务器只需要验证解密code
验证数据的合法性,就可以使用客户端传递过来的用户信息了,免去了弹幕服务身份认证,获取用户信息等操作的网络I/O。
专题页本地缓存
很多直播页面都是静态的专题页面,我们原来的做法是在tms里面运营编辑好了,我们再抓取过来缓存在redis里面,然后最后通过后端框架呈现。这样还是有一次web服务器到远程的集中式的redis缓存的网络I/O。
做了以下的修改,在nginx配置单文件来操作
rewrite ^/promotion/(.*)$ /promotion.php last;
promotion.php
需要做两个个工作
- 判断客户端是移动端还是PC端,然后读取不一样的数据
- 本地缓存文件不存在则从远程redis里读取,然后缓存到本地
同时后台在抓取页面到redis时的同时,我会推送缓存到各个web服务器的指定目录
#!/bin/bash
# 更新同步 html 静态缓存到各个服务器
servers=(xxx.xxx.xxx.200 xxx.xxx.xxx.201 xxx.xxx.xxx.202 xxx.xxx.xxx.203)
for server in ${servers[@]};do
cd /path/to/cache/output/
rsync -aR promotion/pc/$1.html username@$server:/path/to/cache/output/
rsync -aR promotion/mobile/$1.html username@$server:/path/to/cache/output/
done
还需要验证文件发布是否成功,对比最终的md5
使用 nginx lua 为 web 应用加速
有了上面的缓存文件的推送之后,我想缓存的读取直接在nginx 里进行。需求也就是:
pc、mobile 一个地址有两套页面,需要在后端根据浏览器的 user_agent 来显示不同的页面。
具体参考:https://mengkang.net/998.html
我在我们自己私人的web服务器上做了性能测试的对比,性能提升了近1倍,稳定性也挺高了很多。
实时监控在线人数
我们自己使用Grafana+telegraf+InfluxDb搭建了一个简单的监控系统,然后我编写了一个脚本来每秒监控统计端口ip
压测
websocket 压测
脚本 https://github.com/zhoumengkang/netty-websocket/blob/master/benchmark.py
并测试为N个客户端,每个客户端发送10条消息,服务器配置2核4G内存,广播给所有的客户端,我们测试1000个并发的时候,负载在后期陡升。
实际情况下,不可能那么多人同时说话广播,而是说话的人少,接受广播的人多。
实际线上之后,在不限制刷帖频率大家狂轰滥炸的情况下,1500多人在线,半小时,负载一直都处于0.5以下。
web 服务的压测
ab -n 8000 -c 800 http://mengkang.net/promotion/1
Complete requests: 8000
Failed requests: 0
Requests per second: 7046.66 [#/sec](mean)
Time per request: 113.529 [ms](mean
ab -n 10000 -c 1000 http://mengkang.net/promotion/1
Complete requests: 10000
Failed requests: 0
Requests per second: 5670.38 [#/sec](mean)
Time per request: 176.355 [ms](mean)