前一段时间在负责实施一个项目,利用nginx的七层负载均衡的良好性能做调度器,后端两台PHP应用服务器,实现静动态分离处理,在整个系统环境全部部署完后,把应用程序放上去测试时,发现一个问题,现把问题和解决办法写出来,与大家一起分享和讨论。
一、系统环境:
1、nginx负载均衡/反向代理服务器(1台)
环境:CentOS 5.5 nginx-0.7.65
IP:192.168.0.10
2、后端PHP应用服务器(2台)
环境:CentOS 5.5 Apache + PHP
Webserver1 IP:192.168.0.20
Webserver1 IP:192.168.0.21
二、安装配置
1、安装nginx负载均衡/反向代理服务器
安装过程就不详说了,可以参考我另一篇文章《nginx+tomcat负载均衡集群安装配置》,nginx负载均衡/反向代理配置如下:
…
upstream phpserver {
server 192.168.0.20:80 weight=5;
server 192.168.0.21:80 weight=5;
}
…
server {
listen 80;
server_name localhost;
root /webroot;
index index.php index.html index.htm;
location ~ .*\.(php|php5)?$ {
proxy_pass http://phpserver;
include proxy.conf;
}
location ~ /\..+ {
deny all;
}
access_log /var/log/nginx/access.log;
}
2、后端PHP应用服务器的详细安装配置迟些再写出来;
三、测试发现的问题及解决办法
1、当后端两台PHP应用服务器都正常时,访问速度非常快,查看日志,原来一个请求,是后端两台服务器同时响应的;
2、为了模仿故障测试,停掉一台PHP应用服务器,这时再访问,请求打开一页面时,发现有一半响应比较快,另一半响应很慢,最后页面是可以打开,但速度不理想,很慢,查看error日志,发现nginx还是把请求的一半发往已停掉的那台服务器,难怪会这么慢;但当很快(10秒内)再打开一个请求页面时,速度又非常快了,查看日志,发现nginx不会把请求的一半发往已停掉的那台服务器;过一会再发起一个请求时,又出现有一半响应比较快另一半响应很慢的现象了,查看日志,nginx又把请求的一半发往已停掉的那台服务器;
3、到这里,我明白了nginx检查后端应用服务器的健康时是有一个时间间隔的,应该怎样处理这个问题呢,当后端有一台服务器down机时,用户访问感觉不出有慢的现象?原来在nginx负载均衡配置里加上下面两个参数时可以有效的解决这个问题:
upstream phpserver {
server 192.168.0.20:80 weight=5 max_fails=2 fail_timeout=600s;
server 192.168.0.21:80 weight=5 max_fails=2 fail_timeout=600s;
}
3.1)max_fails = NUMBER ---- 在一定时间内(这个时间在fail_timeout参数中设置)检查这个服务器是否可用时产生的最多失败请求数,默认为1,将其设置为0可以关闭检查,这些错误在proxy_next_upstream或fastcgi_next_upstream(404错误不会使max_fails增加)中定义;
3.2)fail_timeout = TIME ---- 在这个时间内产生了max_fails所设置大小的失败尝试连接请求后这个服务器可能不可用,同样它指定了服务器不可用的时间(在下一次尝试连接请求发起之前),默认为10秒,fail_timeout与前端响应时间没有直接关系,不过可以使用proxy_connect_timeout和 proxy_read_timeout来控制。
我设置当有2个请求失败,就表示后端的服务器不可用,在以后的600S时间内nginx不会再把请求发往已检查出标记为不可用的服务器,再次测试时,把后端一台PHP应用服务务器停掉,只是有一个请求打开页面时出现上面的现象,以后10分钟内都不会出现了,请求页面打开速度正常,fail_timeout的值可以根据你的实际情况而定。