1.什么是进程守护系统?
进程守护系统,用于监控指定的进程,当发现目标进程不再正常工作时,就关闭该进程,并重启它。
在什么情况下使用进程守护系统了?比如说,我们的某个服务器软件,在上线后出现一个严重的bug,该bug虽然很难出现,但是只要一出现,整个服务都会停掉(进程没有崩溃,只是不再提供服务)。此时,重启服务软件,又会开始正常工作。
对于这样严重的bug,必须要查清楚并解决掉的。但是,基于以下两个原因:
(1)系统已经对用户开放,服务不能停。不可能说系统先下线,直到bug被解决掉后再重新上线。
(2)bug很难重现,可能需要加日志,不断地跟踪排查,这很可能是一场持久战。
为了让系统继续线上运行,在bug解决之前,必须要保证系统停止服务之后,能迅速重新启动恢复服务。此时,使用进程守护系统是最恰当不过的了。
OrayGuard就是为达到这一目的,实现了一个进程守护系统。一个守护者程序,可以守护同一台机器上的多个进程。
2.进程守护系统的实现及使用
OrayGuard守护者对被守护进程的管理使用的是心跳机制,其原理描述如下:
(1)被守护进程定时向守护者报告(发送心跳),以表明自己是在正常提供服务。
(2)如果守护者发现某个被守护进程连续一段时间都没有心跳过来,就关闭对应的进程,然后再启动对应的程序。
在OrayGuard系统中,为了方便使用,已经做了很多工作,直接提供如下设施给使用者。
(1)在守护者这一方:提供了可直接运行的exe,双击即可运行起来。
(2)在被守护进程这一方:提供了OrayGuard.Core.dll,使用者只要调用其中的GuardianProxy静态类的几个方法,即可完成所有工作。
/// <summary> /// 与守护服务进行通信的Proxy,提供给被守护进程直接使用。 /// </summary> public static class GuardianProxy { /// <summary> /// 初始化Proxy,并向守护服务注册当前进程。 /// </summary> /// <param name="guardServerPort">守护进程提供服务的Port</param> /// <param name="timeoutInSecs">超时间隔。单位:秒</param> public static void Initialize(int guardServerPort, int timeoutInSecs); /// <summary> /// 向守护服务激活当前进程一次。 /// </summary> public static void Activate(); /// <summary> /// 向守护服务注销当前进程。 /// </summary> public static void Dispose(); }
在被守护方:
(1)进程启动时,调用GuardianProxy的Initialize方法,即可向守护者注册当前进程。(端口号就填守护者配置文件中设定的端口)
(2)进程内需要定时(比如10秒一次)检测自己是否仍在正常提供服务,如果是,则调用GuardianProxy的Activate方法,向守护者发送心跳。
(3)当进程正常退出时,调用GuardianProxy的Dispose方法向守护者注销。
3.Demo以及下载
最后,我们编写了一个用于演示的被守护进程的项目,整个系统运行起来后,效果如下:
(注意:实际测试时,不要调试,而是要双击演示项目debug目录下的TestProcess.exe运行演示,否则,模拟故障后,演示进程会被关闭,但是无法被重启。因为,调试时,检测到的是TestProcess.vshost.exe)
下载 OrayGuard。压缩包中包含如下内容:
(1)OrayGuard守护者:可直接运行的守护者程序。
(2)SDK:供被守护进程使用的SDK。
(3)TestProcess:用于演示的被守护进程的项目源码。
更多分享:打通B/S与C/S !让HTML5 WebSocket与.NET Socket公用同一个服务端!