memcached单点故障与负载均衡

上文中,主要教大家如何搭建在windows  IIS 7.5下搭建php环境,使用常见的两种memcached性能监视工具。通过自己动手实践,观察监控工具上数据,相信大家对于memcached的了解一定深入了很多。但是同样还有些疑惑。本文将用图文的方式,继续讲解memcached在集群环境下的使用技巧。

曾经看到过这样的文字(大概是翻译过来的,算是比较权威的)

memcached如何处理容错的?

不处理!:) 在memcached节点失效的情况下,集群没有必要做任何容错处理。如果发生了节点失效,应对的措施完全取决于用户。节点失效时,下面列出几种方案供您选择:

* 忽略它! 在失效节点被恢复或替换之前,还有很多其他节点可以应对节点失效带来的影响。

* 把失效的节点从节点列表中移除。做这个操作千万要小心!在默认情况下(余数式哈希算法),客户端添加或移除节点,会导致所有的缓存数据不可用!因为哈希参照的节点列表变化了,大部分key会因为哈希值的改变而被映射到(与原来)不同的节点上

* 启动热备节点,接管失效节点所占用的IP。这样可以防止哈希紊乱(hashing chaos)。

根据上面的说法,memcached其中一个节点失效以后,memcached本身是没有任何策略维持失效转发的,这对于大型系统是一个无法接受的事实。

Memcached基于一 个存储键/值对的hashmap。其守护进程是用C写的,但是客户端可以用任何语言来编写(本文使用C#作为例子),并通过memcached协议与守护进程通信。可           能这些东西都太高深了,我们暂不做研究。

虽然 Memcached作为一个分布式缓存数据服务,但是每个服务之间根本没有进行相互通信,这里可能与 我理解的分布式有点区别,可能是我才疏学浅,也可能是每个人思考问题的角度不同。Memcached 客户端就是通过一种分布式算法将数据保存到不同的Memcached服务器上,将数据进行缓存。

Memcached分布式环境下,每个服务器端本身没有相互相连的关系,数据分布其实是由客户端来维持的(通俗点说,是客户端按照自己的分布算法,将数据分配 给指定的服务端去存储,取值的时候,客户端再找指定的服务器拿数据。任何环境下,服务端都不可能主动去找客户端拿“东西”或者去操作客户端。B/S模式也 是的,web服务器不可能主动找浏览器拿东西,更不可能对浏览器端做任何操作)。memcached的服务端更不会这么聪明,自动去查找、匹配当前环境 中分布的其他服务器。

而且,据我所知,Memcached本身并没有为集群提供真的高可用方案,因为我个人认为,使用集群环境,通常是为了满足以下的需求:

1.压力分载 (负载均衡)    2.失效转发(故障转移)。

而memcached本身并不具备这两点,这对于以“分布式缓存”号称的memcached来说,是非常致命的。对于笔者来说,也是一种沉痛的打击啊(o(∩_∩)o 哈哈)。

理论上来讲,客户端连接多个memcached服务端的时候,默认的数据分布是这样的:

memcached单点故障与负载均衡

理论上的,%33+33%+34%=100%,看上去数据分布还还很均衡,读取的时候,分别访问从三台服务器内存,再组成完整的数据。这样的数据分发架构,倒真正做到了“负载均衡”。降低了三台服务器的内存使用率,让三台服务器同时为客户端提供服务,这难道不是完美的负载均衡吗?如果没有配置监视工具,也可以参照下面的代码:

  1. public void testMemcachedProviders()
  2. {
  3. int runs = 100;
  4. int start = 200;
  5. string keyBase = "testKey";
  6. string obj = "This is a test of an object blah blah es, serialization does not seem to slow things down so much.  The gzip compression is horrible horrible performance, so we only use it for very large objects.  I have not done any heavy benchmarking recently";
  7. //Response.Write(obj);
  8. //循环记时往服务器缓存上插入数据  等会我们要观察一下数据都存到哪个服务器上的Memcached server上了
  9. long begin = DateTime.Now.Ticks;
  10. for (int i = start; i < start + runs; i++)
  11. {
  12. // DistCache.Add(keyBase + i, obj);
  13. }
  14. long end = DateTime.Now.Ticks;
  15. long time = end - begin;
  16. //计算存储这些数据花了多长时间
  17. //Response.Write(runs + " sets: " + new TimeSpan(time).ToString() + "ms"+"<br/>");
  18. //开始取数据,并记时
  19. begin = DateTime.Now.Ticks;
  20. int hits = 0;
  21. int misses = 0;
  22. for (int i = start; i < start + runs; i++)
  23. {
  24. string str = (string)DistCache.Get(keyBase + i);
  25. if (str != null)
  26. ++hits;    //成功取到数据
  27. else
  28. ++misses;  //丢失次数
  29. }
  30. end = DateTime.Now.Ticks;
  31. time = end - begin;
  32. //获取这些数据花了多长时间
  33. Response.Write(runs + " gets: " + new TimeSpan(time).ToString() + "ms"+"<br/>");
  34. Response.Write("Cache hits: " + hits.ToString() + "<br/>");
  35. Response.Write("Cache misses: " + misses.ToString() + "<br/>");
  36. Response.Write("--------------------------------------------------------\r\n");
  37. }

使用上面的测试代码,可以打印输出处理时间,get/set次数。分别注释掉配置文件中指定memcached服务器配置后,再读取测试,可以清楚的看到数据分布比例。

我本地开启了3个memcached服务,分别指向不同端口,数据的分布比例是这样的: 37%,43%,20%。没有理论上的那么均衡。

有过分布式集群架构的朋友,肯定会想到,那万一发生了“单点故障”(就像sqlserver集群中的,单个节点上的数据库服务器宕机),那不是玩完了?

memcached单点故障与负载均衡

按照上图所示,一台服务器宕机了,就有33%的数据丢失了。那不就玩完了。如果是某银行采用这种架构,发生如此杯具,那架构师岂不是要被群众拿刀砍死。

那到底该如何解决这个问题呢?我翻阅了很多中文甚至英文的资料,好像真的没有官方或者很权威的解决方案。提供了如下两种思路。

解决方案1:本地备份缓存
    在本地放一份缓存,同时也在分布式Memcached上放一份缓存,如果当其中一台节点当机了,客户端程序直接读取本地的缓存,本地客户端维护一个HashMap即可,这样的方案虽然很简陋,但是可以满足一部分场景的需要,当你很急需的时候可以作为临时方案暂时替代一下。

解决方案2:采用缓存代理服务器
    采用 Magent缓存代理,防止单点现象,缓存代理也可以做备份,通过客户端连接到缓存代理服务器,缓存代理服务器连接缓存服务器,缓存代理服务器可以连接多台Memcached机器可以将每台Memcached机器进行数据同步。这样的架构比较完善了,如果其中一台缓存代理服务器down机,系统依然可以继续工作,如果其中一台Memcached机器down掉,数据不会丢失并且可以保证数据的完整性,以上描述的系统架构如图所示:

memcached单点故障与负载均衡

在笔者的实践中,沿袭了第一种方案的思想。由于笔者项目使用的是windows的服务器,而第二种方案中的magent代理软件,好像只支持linux平台。

在客户端还是配置多台服务器,但是让其中任意的一台服务器做备份,去读取并append另外几台服务器的数据,这样依赖,该台备份服务器上就始终存储了一份完整的数据。当发生意外情况的时候,直接读取备份服务器上的数据。等服务器故障恢复后,再从客户端,将数据合理的分发出去。

在.NET平台下,就不能选用enyim.com Memcached Client或者Memcached Providers之类封装得太完善的client啦!涉及到很多基本的操作,这里推荐使用.NET memcached client library这个比较原始的类库client。我始终觉得,最原始的,往往就是最灵活的。

  1. public void testClientLib()
  2. {
  3. string[] servers = { "127.0.0.1:11211", "127.0.0.1:11212","127.0.0.1:11213" };//多台服务器构成集群,端口号就是memcached.ini中的listener_port=11212
  4. string[] serversOne = { "127.0.0.1:11211" };//测试服务器列表
  5. //初始化池
  6. SockIOPool pool = SockIOPool.GetInstance();
  7. // pool.SetServers(servers);
  8. pool.SetServers(serversOne);//测试服务器
  9. pool.InitConnections = 3;
  10. pool.MinConnections = 3;
  11. pool.MaxConnections = 5;
  12. pool.SocketConnectTimeout = 1000;
  13. pool.SocketTimeout = 3000;
  14. pool.MaintenanceSleep = 30;
  15. pool.Failover = true;
  16. pool.Nagle = false;
  17. pool.Initialize();
  18. //初始化客户端
  19. Memcached.ClientLibrary.MemcachedClient mc = new Memcached.ClientLibrary.MemcachedClient();
  20. mc.EnableCompression = false;
  21. string keybase = "test";
  22. //if (mc.Get(keybase) == null)
  23. //{
  24. //尝试添加数据
  25. #region 单个key的情况,value值增大,数据不会自动分布,全都集中在一台服务器上
  26. //List<int> list = new List<int>();
  27. //for (int i = 0; i < 100; i++)
  28. //{
  29. //    list.Add(i);
  30. //}
  31. //bool reslut =  mc.Add("test", list);
  32. //if (reslut)
  33. //{
  34. //    Response.Write("Add cache success");
  35. //}
  36. #endregion
  37. #region 多个key的情况,数据会自动均衡的分布  三台服务器 33%,33%,34%
  38. //for (int i = 0; i < 100; i++)
  39. //{
  40. //    bool result = mc.Add(keybase + i, i);
  41. //    if (!result) {
  42. //        Response.Write("Add cache faild");
  43. //    }
  44. //}
  45. #endregion
  46. // }
  47. // else {
  48. //object value = mc.Get("test");
  49. int count = 0;
  50. for (int i = 0; i < 100; i++)
  51. {
  52. object value = mc.Get(keybase + i);
  53. if(value!=null)
  54. {
  55. ++count;
  56. }
  57. }
  58. Response.Write("服务器存储数据量:"+count);
  59. //   }
  60. pool.Shutdown();
  61. }

通过本地备份的方式,解决单点故障:

    1. using System;
    2. using System.Collections.Generic;
    3. using System.Linq;
    4. using System.Text;
    5. using System.Configuration;
    6. using System.Web;
    7. using Memcached.ClientLibrary;
    8. namespace MemcachedPro
    9. {
    10. public  class MemcacheProvider
    11. {
    12. MemcachedClient mainClient;
    13. MemcachedClient backupClient;
    14. /// <summary>
    15. /// 在构造函数中,初始化客户端(主/备)
    16. /// </summary>
    17. public MemcacheProvider()
    18. {
    19. //主服务器客户端
    20. mainClient = new MemcachedClient();
    21. mainClient.PoolName = GetMainPollName();
    22. mainClient.EnableCompression = false;
    23. //备份服务器客户端
    24. backupClient = new MemcachedClient();
    25. backupClient.PoolName = GetBackUpPollName();
    26. backupClient.EnableCompression = false;
    27. }
    28. /// <summary>
    29. /// 初始化主服务器pool
    30. /// </summary>
    31. /// <returns></returns>
    32. public  string GetMainPollName()
    33. {
    34. //string[] Servers = { "127.0.0.1:11211" };//测试服务器列表
    35. string strServers = ConfigurationManager.AppSettings["memcacheMainServer"];
    36. string[] Servers = strServers.Split(';');
    37. //初始化池
    38. SockIOPool pool = SockIOPool.GetInstance("p1");
    39. pool.SetServers(Servers);//测试服务器
    40. pool.InitConnections = 3;
    41. pool.MinConnections = 3;
    42. pool.MaxConnections = 5;
    43. pool.SocketConnectTimeout = 1000;
    44. pool.SocketTimeout = 3000;
    45. pool.MaintenanceSleep = 30;
    46. pool.Failover = true;
    47. pool.Nagle = false;
    48. pool.Initialize();
    49. return "p1";
    50. }
    51. /// <summary>
    52. /// 初始化备份服务器pool
    53. /// </summary>
    54. /// <returns></returns>
    55. public string GetBackUpPollName()
    56. {
    57. // string[] Servers = { "127.0.0.1:11212" };//备份服务器列表
    58. string strServers = ConfigurationManager.AppSettings["memcacheBackupServer"];
    59. string[] Servers = strServers.Split(';');
    60. //初始化池
    61. SockIOPool pool = SockIOPool.GetInstance("p2");
    62. pool.SetServers(Servers);//测试服务器
    63. pool.InitConnections = 3;
    64. pool.MinConnections = 3;
    65. pool.MaxConnections = 5;
    66. pool.SocketConnectTimeout = 1000;
    67. pool.SocketTimeout = 3000;
    68. pool.MaintenanceSleep = 30;
    69. pool.Failover = true;
    70. pool.Nagle = false;
    71. pool.Initialize();
    72. return "p2";
    73. }
    74. /// <summary>
    75. /// 设置值
    76. /// </summary>
    77. /// <param name="key"></param>
    78. /// <param name="value"></param>
    79. /// <returns></returns>
    80. public bool SetCache(string key, object value)
    81. {
    82. bool result = false;
    83. try
    84. {
    85. //设置到主服务器组
    86. result = mainClient.Set(key, value);
    87. //设置备份
    88. result = backupClient.Set(key, value);
    89. }
    90. catch (Exception)
    91. {
    92. //发送短信或者邮件提醒
    93. throw;
    94. }
    95. return result;
    96. }
    97. /// <summary>
    98. /// 取值
    99. /// </summary>
    100. /// <param name="key"></param>
    101. /// <returns></returns>
    102. public object GetCache(string key)
    103. {
    104. object value = null;
    105. //先读主服务器
    106. try
    107. {
    108. value = mainClient.Get(key);
    109. //如果没取到值
    110. if (value == null)
    111. {
    112. //发送短信或者邮件提醒:可能主服务器宕机了
    113. //从备份服务器取值
    114. value = backupClient.Get(key);
    115. if (value == null)
    116. {
    117. //从备份服务器取值也失败,发送短信或者邮件提醒
    118. }
    119. }
    120. }
    121. catch (Exception)
    122. {
    123. //发送短信或者邮件提醒
    124. throw;
    125. }
    126. return value;
    127. }
    128. /// <summary>
    129. /// 当主服务器恢复运行后(数据已经丢失了),将备份服务器中的缓存同步到主服务器
    130. /// </summary>
    131. /// <returns></returns>
    132. public bool RestoreCache()
    133. {
    134. bool result = false;
    135. return result;
    136. }
    137. }
    138. }
上一篇:day08 跟着太白老师学python 文件操作


下一篇:web安全测试工具的局限性