xiaomage234 - BlogJava

sar这东西，一开始还以为是内部有的，原来是外部的工具,可以到http://pagesperso-orange.fr/sebastien.godard/download.html去下载

1 安装
tar zxvf xxx.tar.gz

./configure

make

make install

2 使用
pidstat 2 5
//每隔2秒，显示5次，所有活动进程的CPU使用情况
pidstat -p 3132 2 5
//每隔2秒，显示5次，PID为３１３２的进程的CPU使用情况显示
pidstat -p 3132 2 5 -r
//每隔2秒，显示5次，PID为３１３２的进程的内存使用情况显示

　　　查看CPU使用情况

sar 2 5
//每隔2秒，显示5次，CPU使用的情况

　　　%usr：CPU处在用户模式下的时间百分比。
　　%sys：CPU处在系统模式下的时间百分比。
　　%wio：CPU等待输入输出完成时间的百分比。
　　%idle：CPU空闲时间百分比。

在所有的显示中，我们应主要注意%wio和%idle，%wio的值过高，表示硬盘存在I/O瓶颈，
%idle值高，表示CPU较空闲，如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，
此时应加大内存容量。%idle值如果持续低于10，那么系统的CPU处理能力相对较低，表
明系统中最需要解决的资源是CPU。

　　　　sar 1 10 > data.txt
//每隔1秒，写入10次，把CPU使用数据保存到data.txt文件中。
sar 1 0 -e 15:00:00 > data.txt
//每隔1秒记录CPU的使用情况，直到15点，数据将保存到data.txt文件中。(-e 参数表示结束时间，注意时间格式：必须为hh:mm:ss格式)
sar 1 0 -r -e 15:00:00 > data.txt
//每隔1秒记录内存使用情况，直到15点，数据将保存到data.txt文件中。
sar 1 0 -n DEV -e 15:00:00 > data.txt
//每隔1秒记录网络使用情况，直到15点，数据将保存到data.txt文件中。

　　　　例二：使用命行sar -v t n

例如，每30秒采样一次，连续采样5次，观察核心表的状态，需键入如下命令：

# sar -v 30 5

屏幕显示：
　　　　　　SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
　　　　　　10:33:23 proc-sz ov inod-sz ov file-sz ov lock-sz　　 (-v)
10:33:53　305/　321 　0　1337/2764　 0　1561/1706　0　40/　128
10:34:23　308/　321 　0　1340/2764　 0　1587/1706　0　37/　128
10:34:53　305/　321 　0　1332/2764　 0　1565/1706　0　36/　128
10:35:23　308/　321 　0　1338/2764　 0　1592/1706　0　37/　128
10:35:53　308/　321　 0　1335/2764　 0　1591/1706　0　37/　128

显示内容包括：

proc-sz：目前核心中正在使用或分配的进程表的表项数，由核心参数MAX-PROC控制。

　　inod-sz：目前核心中正在使用或分配的i节点表的表项数，由核心参数
MAX-INODE控制。

　　file-sz：目前核心中正在使用或分配的文件表的表项数，由核心参数MAX-FILE控
制。

　　ov：溢出出现的次数。

　　Lock-sz：目前核心中正在使用或分配的记录加锁的表项数，由核心参数MAX-FLCKRE
控制。

显示格式为

实际使用表项/可以使用的表项数

显示内容表示，核心使用完全正常，三个表没有出现溢出现象，核心参数不需调整，如
果出现溢出时，要调整相应的核心参数，将对应的表项数加大。

例三：使用命行sar -d t n

例如，每30秒采样一次，连续采样5次，报告设备使用情况，需键入如下命令：

# sar -d 30 5

屏幕显示：

　　　　　　SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
11:06:43 device　%busy　　　avque　　　r+w/s　　blks/s　　avwait avserv (-d)
11:07:13 wd-0　　　1.47　　　2.75　　　4.67　　　14.73　　 5.50 3.14
11:07:43 wd-0　　　0.43　　　18.77　　 3.07　　　8.66　　　25.11 1.41
11:08:13 wd-0　　　0.77　　　2.78　　　2.77　　　7.26　　　4.94 2.77
11:08:43 wd-0　　　1.10　　　11.18　　 4.10　　　11.26　　 27.32 2.68
11:09:13 wd-0　　　1.97　　　21.78　　 5.86　　　34.06　　　69.66 3.35
Average wd-0　　　1.15　　　12.11　　 4.09　　　15.19　　　31.12 2.80

显示内容包括：

device： sar命令正在监视的块设备的名字。
　　%busy：设备忙时，传送请求所占时间的百分比。
　　avque：队列站满时，未完成请求数量的平均值。
　　r+w/s：每秒传送到设备或从设备传出的数据量。
　　blks/s：每秒传送的块数，每块512字节。
　　avwait：队列占满时传送请求等待队列空闲的平均时间。
　　avserv：完成传送请求所需平均时间（毫秒）。

在显示的内容中，wd-0是硬盘的名字，%busy的值比较小，说明用于处理传送请求的有
效时间太少，文件系统效率不高，一般来讲，%busy值高些，avque值低些，文件系统
的效率比较高，如果%busy和avque值相对比较高，说明硬盘传输速度太慢，需调整。

例四：使用命行sar -b t n

例如，每30秒采样一次，连续采样5次，报告缓冲区的使用情况，需键入如下命令：

# sar -b 30 5

屏幕显示：

　　SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
14:54:59 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b)
14:55:29　0　　147　　100　 5　　21　　78　　 0　　　0
14:55:59　0　　186　　100　 5　　25　　79　　 0　　　0
14:56:29　4　　232 　　98　 8　　58　　86　　 0　　　0
14:56:59　0　　125　　100　 5　　23　　76　　 0　　　0
14:57:29　0　　 89　　100　 4　　12　　66　　 0　　　0
Average　 1　　156 　　99　 5　　28　　80　　 0　　　0

显示内容包括：

bread/s：每秒从硬盘读入系统缓冲区buffer的物理块数。
lread/s：平均每秒从系统buffer读出的逻辑块数。
%rcache：在buffer cache中进行逻辑读的百分比。
bwrit/s：平均每秒从系统buffer向磁盘所写的物理块数。
lwrit/s：平均每秒写到系统buffer逻辑块数。
%wcache：在buffer cache中进行逻辑读的百分比。
pread/s：平均每秒请求物理读的次数。
pwrit/s：平均每秒请求物理写的次数。

在显示的内容中，最重要的是%cache和%wcache两列，它们的值体现着buffer的使用效
率，%rcache的值小于90或者%wcache的值低于65，应适当增加系统buffer的数量，buffer
数量由核心参数NBUF控制，使%rcache达到90左右，%wcache达到80左右。但buffer参数
值的多少影响I/O效率，增加buffer，应在较大内存的情况下，否则系统效率反而得不到
提高。

例五：使用命行sar -g t n

例如，每30秒采样一次，连续采样5次，报告串口I/O的操作情况，需键入如下命令：

# sar -g 30 5

屏幕显示：

SCO_SV scosysv 3.2v5.0.5 i80386　　11/22/2001
17:07:03 　ovsiohw/s　 ovsiodma/s　　ovclist/s (-g)
17:07:33　　　0.00　　　0.00　　　0.00
17:08:03　　　0.00　　　0.00　　　0.00
17:08:33　　　0.00　　　0.00　　　0.00
17:09:03　　　0.00　　　0.00　　　0.00
17:09:33　　　0.00　　　0.00　　　0.00
Average 　　　0.00　　　0.00　　　0.00

显示内容包括：

ovsiohw/s：每秒在串口I/O硬件出现的溢出。

ovsiodma/s：每秒在串口I/O的直接输入输出通道高速缓存出现的溢出。

ovclist/s ：每秒字符队列出现的溢出。

在显示的内容中，每一列的值都是零，表明在采样时间内，系统中没有发生串口I/O溢
出现象。

0

posted @ 2010-06-03 15:12 小马歌阅读(2039) | 评论 (0) | 编辑收藏

linux 安装sysstat使用iostat、mpstat、sar、sa[转]

sysstat

使用yum安装
#yum install sysstat

sysstat的安装包是：sysstat-5.0.5-1.i386.rpm，装完了sysstat-5.0.5-1.i386.rpm
后就会有iostat、mpstat、sar、sa的功能，sysstat-5.0.5-1.i386.rpm

启动sysstat
/etc/init.d/sysstat start

设置sysstat自启动
#checkfig sysstat on

MPSTAT

MPSTAT -P ALL 2 3

mpstat是Multiprocessor Statistics的缩写，是实时系统监控工具。其报告与CPU的一些统计信息，这些信息存放在/proc/stat文件中。在多CPUs系统里，其不但能查看所有CPU的平均状况信息，而且能够查看特定CPU的信息。下面只介绍 mpstat与CPU相关的参数，mpstat的语法如下：

mpstat [-P {|ALL}] [internal [count]]

参数的含义如下：

参数解释

-P {|ALL} 表示监控哪个CPU， cpu在[0,cpu个数-1]中取值

internal 相邻的两次采样的间隔时间

count 采样的次数，count只能和delay一起使用

当没有参数时，mpstat则显示系统启动以后所有信息的平均值。有interval时，第一行的信息自系统启动以来的平均信息。从第二行开始，输出为前一个interval时间段的平均信息。与CPU有关的输出的含义如下：

参数解释从/proc/stat获得数据

CPU 处理器ID

user 在internal时间段里，用户态的CPU时间（%），不包含 nice值为负进程 usr/total*100

nice 在internal时间段里，nice值为负进程的CPU时间（%） nice/total*100

system 在internal时间段里，核心时间（%） system/total*100

iowait 在internal时间段里，硬盘IO等待时间（%） iowait/total*100

irq 在internal时间段里，软中断时间（%） irq/total*100

soft 在internal时间段里，软中断时间（%） softirq/total*100

idle 在internal时间段里，CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间（%） idle/total*100

intr/s 在internal时间段里，每秒CPU接收的中断的次数 intr/total*100

CPU总的工作时间=total_cur=user+system+nice+idle+iowait+irq+softirq

total_pre=pre_user+ pre_system+ pre_nice+ pre_idle+ pre_iowait+ pre_irq+ pre_softirq

user=user_cur – user_pre

total=total_cur-total_pre

其中_cur 表示当前值，_pre表示interval时间前的值。上表中的所有值可取到两位小数点。

cat /proc/stat

“ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。

“btime”给出了从系统启动到现在为止的时间，单位为秒。

“processes (total_forks) 自系统启动以来所创建的任务的个数目。

“procs_running”：当前运行队列的任务的数目。

“procs_blocked”：当前被阻塞的任务的数目。

============================

sysstat工具包提供的主要命令：iostat mpstat sar

sar的最后两个参数一般是interval count

1、sar -u 1 5
输出CPU使用情况的统计信息，每秒输出一次，一共输出100次
17时06分01秒       CPU     %user     %nice   %system   %iowait     %idle
17时06分02秒       all      1.27      0.00      0.51      1.01     97.22
17时06分03秒       all      0.00      0.00      0.00      0.00    100.00
17时06分04秒       all      0.00      0.00      0.00      0.00    100.00
17时06分05秒       all      0.25      0.00      0.00      0.00     99.75
17时06分06秒       all      0.00      0.00      0.00      0.51     99.49
Average:          all      0.30      0.00      0.10      0.30     99.29

CPU      all 表示统计信息为所有 CPU 的平均值。
%user    显示在用户级别(application)运行使用 CPU 总时间的百分比。
%nice    显示在用户级别，用于nice操作，所占用 CPU 总时间的百分比。
%system 在核心级别(kernel)运行所使用 CPU 总时间的百分比。
%iowait 显示用于等待I/O操作占用 CPU 总时间的百分比。
%steal   管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟 CPU 的百分比。
%idle    显示 CPU 空闲时间占用 CPU 总时间的百分比。

tips：
若 %iowait 的值过高，表示硬盘存在I/O瓶颈
若 %idle 的值高但系统响应慢时，有可能是 CPU 等待分配内存，此时应加大内存容量
若 %idle 的值持续低于 10，则系统的 CPU 处理能力相对较低，表明系统中最需要解决的资源是 CPU。

2、sar -b 1 5
显示I/O和传送速率的统计信息
17时09分07秒       tps      rtps      wtps   bread/s   bwrtn/s
17时09分08秒      3.12      3.12      0.00     25.00      0.00
17时09分09秒     89.58      6.25     83.33    141.67    733.33
17时09分10秒     42.71      9.38     33.33    141.67    600.00
17时09分11秒      2.11      2.11      0.00     16.84      0.00
17时09分12秒      1.04      0.00      1.04      0.00    175.00
Average:        27.77      4.18     23.59     65.14    302.30

tps     每秒钟物理设备的 I/O 传输总量
rtps    每秒钟从物理设备读入的数据总量
wtps    每秒钟向物理设备写入的数据总量
bread/s 每秒钟从物理设备读入的数据量，单位为块/s
bwrtn/s 每秒钟向物理设备写入的数据量，单位为块/s

3、sar -c
每秒钟创建的进程数
15时10分01秒      1.35
15时20分01秒      1.01
15时30分01秒      0.59
15时40分01秒      1.35
15时50分01秒      0.99
16时00分01秒      0.57
16时10分01秒      1.33
16时20分01秒      1.02
16时30分01秒      0.57
16时40分01秒      1.33
16时50分01秒      1.07
17时00分01秒      0.56
17时10分01秒      1.32

4、sar -n DEV 1 5
输出网络设备状态的统计信息
17时13分42秒     IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/s rxmcst/s
17时13分43秒      eth1   3669.70   4156.57 368362.63 2747714.14      0.00      0.00      0.00
17时13分44秒      eth1   2689.11   2585.15 289661.39 701461.39      0.00      0.00      0.00
17时13分45秒      eth1   3746.00   4077.00 415178.00 2605720.00      0.00      0.00      0.00
17时13分46秒      eth1   3096.00   3241.00 327916.00 1597320.00      0.00      0.00      0.00
17时13分47秒      eth1   2910.00   2834.00 312632.00 957903.00      0.00      0.00      0.00
Average:         eth1   3220.20   3375.60 342592.60 1717931.20      0.00      0.00      0.00

IFACE      网络设备名
rxpck/s    每秒接收的包总数
txpck/s    每秒传输的包总数
rxbyt/s    每秒接收的字节（byte）总数
txbyt/s    每秒传输的字节（byte）总数
rxcmp/s    每秒接收压缩包的总数
txcmp/s    每秒传输压缩包的总数
rxmcst/s   每秒接收的多播（multicast）包的总数

5、sar -q 1 5
输出进程队列长度和平均负载状态统计信息
17时16分28秒   runq-sz plist-sz   ldavg-1   ldavg-5 ldavg-15
17时16分29秒         0       160      0.26      0.11      0.03
17时16分30秒         0       160      0.26      0.11      0.03
17时16分31秒         0       160      0.24      0.11      0.03
17时16分32秒         0       160      0.24      0.11      0.03
17时16分33秒         0       160      0.24      0.11      0.03
Average:            0       160      0.25      0.11      0.03

runq-sz   运行队列的长度（等待运行的进程数）
plist-sz 进程列表中进程（processes）和线程（threads）的数量
ldavg-1   最后1分钟的系统平均负载（System load average）
ldavg-5   过去5分钟的系统平均负载
ldavg-15 过去15分钟的系统平均负载

6、sar -r
输出内存和交换空间的统计信息
7、iostat
tps 每秒钟物理设备的 I/O 传输总量。
Blk_read 读入的数据总量，单位为块。
Blk_wrtn 写入的数据总量，单位为块。
kB_read 读入的数据总量，单位为 KB。
kB_wrtn 写入的数据总量，单位为 KB。
MB_read 读入的数据总量，单位为 MB。
MB_wrtn 写入的数据总量，单位为 MB。
Blk_read/s 每秒从驱动器读入的数据量，单位为块 /s。
Blk_wrtn/s 每秒向驱动器写入的数据量，单位为块 /s。
kB_read/s 每秒从驱动器读入的数据量，单位为 KB/s。
kB_wrtn/s 每秒向驱动器写入的数据量，单位为 KB/s。
MB_read/s 每秒从驱动器读入的数据量，单位为 MB/s。
MB_wrtn/s 每秒向驱动器写入的数据量，单位为MB/s。
rrqm/s 将读入请求合并后，每秒发送到设备的读入请求数。
wrqm/s 将写入请求合并后，每秒发送到设备的写入请求数。
r/s 每秒发送到设备的读入请求数。
w/s 每秒发送到设备的写入请求数。
rsec/s 每秒从设备读入的扇区数。
wsec/s 每秒向设备写入的扇区数。
rkB/s 每秒从设备读入的数据量，单位为 KB/s。
wkB/s 每秒向设备写入的数据量，单位为 KB/s。
rMB/s 每秒从设备读入的数据量，单位为 MB/s。
wMB/s 每秒向设备写入的数据量，单位为 MB/s。
avgrq-sz 发送到设备的请求的平均大小，单位为扇区。
avgqu-sz 发送到设备的请求的平均队列长度。
await I/O请求平均执行时间。包括发送请求和执行的时间。单位为毫秒。
svctm 发送到设备的I/O请求的平均执行时间。单位为毫秒。
%util 在I/O请求发送到设备期间，占用CPU时间的百分比。用于显示设备的带宽利用率。当这个值接近100%时，表示设备带宽已经占满。

posted @ 2010-06-03 15:12 小马歌阅读(940) | 评论 (0) | 编辑收藏

Linux系统Load average负载详细解释[转]

我们知道判断一个系统的负载可以使用top，uptime等命令去查看，它分别记录了一分钟、五分钟、以及十五分钟的系统平均负载

例如我的某台服务器：

$ uptime

09:50:21 up 200 days, 15:07, 1 user, load average: 0.27, 0.33, 0.37

大部分的人都认为这个数字越小越好，其实有很多关联的提示信息，今天看到这个好文，应该可以给大家说清楚很多问题，转一下：

原文链接： http://blog.scoutapp.com/articles/2009/07/31/understanding-load-averages

你可能对于 Linux 的负载均值（load averages）已有了充分的了解。负载均值在 uptime 或者 top 命令中可以看到，它们可能会显示成这个样子：

load average: 0.09, 0.05, 0.01

很多人会这样理解负载均值：三个数分别代表不同时间段的系统平均负载（一分钟、五分钟、以及十五分钟），它们的数字当然是越小越好。数字越高，说明服务器的负载越大，这也可能是服务器出现某种问题的信号。

而事实不完全如此，是什么因素构成了负载均值的大小，以及如何区分它们目前的状况是 “好”还是“糟糕”？什么时候应该注意哪些不正常的数值？

回答这些问题之前，首先需要了解下这些数值背后的些知识。我们先用最简单的例子说明，一台只配备一块单核处理器的服务器。

行车过桥

一只单核的处理器可以形象得比喻成一条单车道。设想下，你现在需要收取这条道路的过桥费 — 忙于处理那些将要过桥的车辆。你首先当然需要了解些信息，例如车辆的载重、以及还有多少车辆正在等待过桥。如果前面没有车辆在等待，那么你可以告诉后面的司机通过。如果车辆众多，那么需要告知他们可能需要稍等一会。

因此，需要些特定的代号表示目前的车流情况，例如：

0.00 表示目前桥面上没有任何的车流。实际上这种情况与 0.00 和 1.00 之间是相同的，总而言之很通畅，过往的车辆可以丝毫不用等待的通过。

1.00 表示刚好是在这座桥的承受范围内。这种情况不算糟糕，只是车流会有些堵，不过这种情况可能会造成交通越来越慢。

超过 1.00，那么说明这座桥已经超出负荷，交通严重的拥堵。那么情况有多糟糕？例如 2.00 的情况说明车流已经超出了桥所能承受的一倍，那么将有多余过桥一倍的车辆正在焦急的等待。3.00 的话情况就更不妙了，说明这座桥基本上已经快承受不了，还有超出桥负载两倍多的车辆正在等待。

上面的情况和处理器的负载情况非常相似。一辆汽车的过桥时间就好比是处理器处理某线程的实际时间。Unix 系统定义的进程运行时长为所有处理器内核的处理时间加上线程在队列中等待的时间。

和收过桥费的管理员一样，你当然希望你的汽车（操作）不会被焦急的等待。所以，理想状态下，都希望负载平均值小于 1.00 。当然不排除部分峰值会超过 1.00，但长此以往保持这个状态，就说明会有问题，这时候你应该会很焦急。

“所以你说的理想负荷为 1.00 ？”

嗯，这种情况其实并不完全正确。负荷 1.00 说明系统已经没有剩余的资源了。在实际情况中，有经验的系统管理员都会将这条线划在 0.70：

“需要进行调查法则”：如果长期你的系统负载在 0.70 上下，那么你需要在事情变得更糟糕之前，花些时间了解其原因。

“现在就要修复法则”：1.00 。如果你的服务器系统负载长期徘徊于 1.00，那么就应该马上解决这个问题。否则，你将半夜接到你上司的电话，这可不是件令人愉快的事情。

“凌晨三点半锻炼身体法则”：5.00。如果你的服务器负载超过了 5.00 这个数字，那么你将失去你的睡眠，还得在会议中说明这情况发生的原因，总之千万不要让它发生。

那么多个处理器呢？我的均值是 3.00，但是系统运行正常！

哇喔，你有四个处理器的主机？那么它的负载均值在 3.00 是很正常的。

在多处理器系统中，负载均值是基于内核的数量决定的。以 100% 负载计算，1.00 表示单个处理器，而 2.00 则说明有两个双处理器，那么 4.00 就说明主机具有四个处理器。

回到我们上面有关车辆过桥的比喻。1.00 我说过是“一条单车道的道路”。那么在单车道 1.00 情况中，说明这桥梁已经被车塞满了。而在双处理器系统中，这意味着多出了一倍的负载，也就是说还有 50% 的剩余系统资源 — 因为还有另外条车道可以通行。

所以，单处理器已经在负载的情况下，双处理器的负载满额的情况是 2.00，它还有一倍的资源可以利用。

[NextPage]

多核与多处理器

先脱离下主题，我们来讨论下多核心处理器与多处理器的区别。从性能的角度上理解，一台主机拥有多核心的处理器与另台拥有同样数目的处理性能基本上可以认为是相差无几。当然实际情况会复杂得多，不同数量的缓存、处理器的频率等因素都可能造成性能的差异。

但即便这些因素造成的实际性能稍有不同，其实系统还是以处理器的核心数量计算负载均值。这使我们有了两个新的法则：

“有多少核心即为有多少负荷”法则：在多核处理中，你的系统均值不应该高于处理器核心的总数量。

“核心的核心”法则：核心分布在分别几个单个物理处理中并不重要，其实两颗四核的处理器等于四个双核处理器等于八个单处理器。所以，它应该有八个处理器内核。

审视我们自己

让我们再来看看 uptime 的输出

~ $ uptime

23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36

这是个双核处理器，从结果也说明有很多的空闲资源。实际情况是即便它的峰值会到 1.7，我也从来没有考虑过它的负载问题。

那么，怎么会有三个数字的确让人困扰。我们知道，0.65、0.42、0.36 分别说明上一分钟、最后五分钟以及最后十五分钟的系统负载均值。那么这又带来了一个问题：

我们以哪个数字为准？一分钟？五分钟？还是十五分钟？

其实对于这些数字我们已经谈论了很多，我认为你应该着眼于五分钟或者十五分钟的平均数值。坦白讲，如果前一分钟的负载情况是 1.00，那么仍可以说明认定服务器情况还是正常的。但是如果十五分钟的数值仍然保持在 1.00，那么就值得注意了（根据我的经验，这时候你应该增加的处理器数量了）。

那么我如何得知我的系统装备了多少核心的处理器？

在 Linux 下，可以使用

cat /proc/cpuinfo

获取你系统上的每个处理器的信息。如果你只想得到数字，那么就使用下面的命令：

grep 'model name' /proc/cpuinfo | wc -l

Popularity: 11% [?]

原文地址 http://os.51cto.com/art/200911/164410.htm

posted @ 2010-04-20 14:31 小马歌阅读(153) | 评论 (0) | 编辑收藏

如何查看Linux下系统占用的资源(top、free、uptime)[转]

top 1.作用
top命令用来显示执行中的程序进程，使用权限是所有用户。

2.格式
top [－] [d delay] [q] [c] [S] [s] [i] [n]

3.主要参数
d：指定更新的间隔，以秒计算。
q：没有任何延迟的更新。如果使用者有超级用户，则top命令将会以最高的优先序执行。
c：显示进程完整的路径与名称。
S：累积模式，会将己完成或消失的子行程的CPU时间累积起来。
s：安全模式。
i：不显示任何闲置(Idle)或无用(Zombie)的行程。
n：显示更新的次数，完成后将会退出top。

如何查看Linux下系统占用的资源(top、free、uptime)[多图]图片1

点击查看大图

图1 top命令的显示

在图1中，第一行表示的项目依次为当前时间、系统启动时间、当前系统登录用户数目、平均负载。第二行显示的是所有启动的进程、目前运行的、挂起(Sleeping)的和无用(Zombie)的进程。第三行显示的是目前CPU的使用情况，包括系统占用的比例、用户使用比例、闲置(Idle)比例。第四行显示物理内存的使用情况，包括总的可以使用的内存、已用内存、空闲内存、缓冲区占用的内存。第五行显示交换分区使用情况，包括总的交换分区、使用的、空闲的和用于高速缓存的大小。第六行显示的项目最多，下面列出了详细解释。
PID（Process ID）：进程标示号。
USER：进程所有者的用户名。
PR：进程的优先级别。
NI：进程的优先级别数值。
VIRT：进程占用的虚拟内存值。
RES：进程占用的物理内存值。
SHR：进程使用的共享内存值。
S：进程的状态，其中S表示休眠，R表示正在运行，Z表示僵死状态，N表示该进程优先值是负数。
%CPU：该进程占用的CPU使用率。
%MEM：该进程占用的物理内存和总内存的百分比。
TIME＋：该进程启动后占用的总的CPU时间。
Command：进程启动的启动命令名称，如果这一行显示不下，进程会有一个完整的命令行。
top命令使用过程中，还可以使用一些交互的命令来完成其它参数的功能。这些命令是通过快捷键启动的。
<空格>：立刻刷新。

P：根据CPU使用大小进行排序。
T：根据时间、累计时间排序。
q：退出top命令。
m：切换显示内存信息。
t：切换显示进程和CPU状态信息。
c：切换显示命令名称和完整命令行。
M：根据使用内存大小进行排序。
W：将当前设置写入~/.toprc文件中。这是写top配置文件的推荐方法。

可以看到，top命令是一个功能十分强大的监控系统的工具，对于系统管理员而言尤其重要。但是，它的缺点是会消耗很多系统资源。

更多的请看：http://www.qqread.com/windows/2003/index.html

free

1.作用
free命令用来显示内存的使用情况，使用权限是所有用户。

2.格式
free [－b－k－m] [－o] [－s delay] [－t] [－V]

3.主要参数
－b －k －m：分别以字节（KB、MB）为单位显示内存使用情况。
－s delay：显示每隔多少秒数来显示一次内存使用情况。
－t：显示内存总和列。
－o：不显示缓冲区调节列。

4.应用实例
free命令是用来查看内存使用情况的主要命令。和top命令相比，它的优点是使用简单，并且只占用很少的系统资源。通过－S参数可以使用free命令不间断地监视有多少内存在使用，这样可以把它当作一个方便实时监控器。
＃free －b －s5

使用这个命令后终端会连续不断地报告内存使用情况（以字节为单位），每5秒更新一次。

如何查看Linux下系统占用的资源(top、free、uptime)[多图]图片2

点击查看大图

更多的请看：http://www.qqread.com/windows/2003/index.html

uptime 命令

我曾经看到资料上讲，load avarage <3 系统良好，大于5 则有严重的性能问题。注意，这个值还应当除以CPU数目。

如果load avarage=8 ,CPU=3,8/3=2.666，2.66这个值表示系统状态良好

于5也不一定是严重性能问题，有可能是的确主机提供的服务超过了他能够提供的能力，需要扩容了。要具体看看。

如何查看Linux下系统占用的资源(top、free、uptime)[多图]图片2

点击查看大图

下次我们来说 vmstat 与 iostat 这两个很有用的命令。

posted @ 2010-04-20 14:29 小马歌阅读(954) | 评论 (0) | 编辑收藏

三款免费的PHP加速器：APC、eAccelerator、XCache比较 [转]

一直想找一些关于PHP加速的文章，偶然看到杀客的这篇文章，感觉不错，分享给大家，再此感谢杀客。

一、PHP加速器介绍

PHP加速器是一个为了提高PHP执行效率，从而缓存起PHP的操作码，这样PHP后面执行就不用解析转换了，可以直接调用PHP操作码，这样速度上就提高了不少。

Apache中使用mod_php的请求、响应执行流程：

　　1、Apache接收请求。
2、Apache传递请求给mod_php。
3、mod_php定位磁盘文件，并加载到内存中。
4、mod_php编译源代码成为opcode树。
5、mod_php执行opcode树。

PHP加速器相应的就是第四步，它的目的就是防止PHP每次请求都重复编译PHP代码，因为在高访问量的网站上，大量的编译往往没有执行速度快呢？所以这里面有个瓶颈就是PHP的重复编译既影响了速度又加载了服务器负载，为了解决此问题，PHP加速器就这样诞生了。

二、PHP加速器安装与配置

1、安装配置APC

APC全称是Alternative PHP Cache,官方翻译叫”可选PHP缓存”,它是PHP PECL中的一个扩展，好像是facebook在使用它，下面开始安装（ubuntu环境）：
$wget http://pecl.php.net/get/APC-3.0.19.tgz
$tar xvzf APC-3.0.19.tgz
$cd APC-3.0.19/APC-3.0.19
$/usr/local/php/bin/phpize
$./configure –enable-apc –enable-apc-mmap –with-php-config=/usr/local/php/bin/php-config
$make
$sudo make install

下面我们再配置APC,因为我的PECL扩展路径改变了，所以我得移动下编译好的文件：
$sudo mv /usr/local/php/lib/php/extensions/no-debug-non-zts-20060613/apc.so /usr/local/php/lib/php/extensions/PECL

然后我们再编辑php.ini文件进行配置，请把下面的代码加入到php.ini中即可：
extension_dir = "/usr/local/php/lib/php/extensions/PECL"
extension = apc.so
; APC
apc.enabled = 1
apc.shm_segments = 1
apc.shm_size = 64
apc.optimization = 1
apc.num_files_hint = 0
apc.ttl = 0
apc.gc_ttl = 3600
apc.cache_by_default = on

这样重启apache就会在phpinfo()信息中显示。

2、安装配置eAccelerator

eAccelerator的前身其实是truck-mmcache，因为开发truk-mmcache的人被Zend给招安了，所以开发eAccelerator的人继承了truk-mmcache的一些特性，设计出eAccelerator加速器。安装如下：
$wget http://jaist.dl.sourceforge.net/sourceforge/eaccelerator/eaccelerator-0.9.5.tar.bz2
$tar -jxf eaccelerator-0.9.5.tar.bz2
$cd eaccelerator-0.9.5
$/usr/local/php/bin/phpize
$./configure –enable-eaccelerator=shared –with-php-config=/usr/local/php/bin/php-config
$make
$sudo make install
$sudo mv /usr/local/php/lib/php/extensions/no-debug-non-zts-20060613/eaccelerator.so /usr/local/php/lib/php/extensions/PECL

将下面代码加入php.ini文件中
extension = eaccelerator.so
; eAccelerator
eaccelerator.shm_size = "16"
eaccelerator.cache_dir = "/tmp/eaccelerator"
eaccelerator.enable = "1"
eaccelerator.optimizer = "1"
eaccelerator.check_mtime = "1"
eaccelerator.debug = "0"
eaccelerator.filter = ""
eaccelerator.shm_max = "0"
eaccelerator.shm_ttl = "0"
eaccelerator.prune_period = "0"
eaccelerator.shm_only = "0"
eaccelerator.compress = "1"
eaccelerator.compress_level = "9"

创建缓存目录,重启apache

$sudo mkdir /tmp/eaccelerator
$sudo chmod 777 /tmp/eaccelerator
$sudo /usr/local/apache/apachectl restart

在phpinfo()检查是否安装成功.

3、安装配置XCache

XCache作为国人自己开发的东西，做小菜鸟的我也感到骄傲，而且XCache无论在速度还是性能上都做的不错。下面就赶紧让我们品尝它吧！

$wget http://xcache.lighttpd.net/pub/Releases/1.2.2/xcache-1.2.2.tar.gz
$tar xvzf xcache-1.2.2.tar.gz
$cd xcache-1.2.2
$/usr/local/php/bin/phpize
$./configure –enable-xcache –enable-xcache-coverager –with-php-config=/usr/local/php/php-config
$make
$sudo make install
$sudo mv /usr/local/php/lib/php/extensions/no-debug-non-zts-20060613/xcache.so /usr/local/php/lib/php/extensions/PECL

在php.ini添加配置信息：

extension = xcache.so
; xcache
xcache.admin.user = "admin"
xcache.admin.pass = "(执行) echo ’(你的密码)’|md5sum(得出的密文)"
;
xcache.size = 24M
xcache.shm_scheme = "mmap"
xcache.count = 2
xcache.slots = 8k
xcache.ttl = 0
xcache.gc_interval = 0

xcache.var_size = 8M
xcache.var_count = 1
xcache.var_slots = 8k
xcache.var_ttl = 0
xcache.var_maxttl = 0
xcache.var_gc_interval = 300
xcache.test = Off
xcache.readonly_protection = On
xcache.mmap_path = "/tmp/xcache"
xcache.coredump_directory = ""
xcache.cacher = On
xcache.stat = On
xcache.optimizer = Off
;
xcache.coverager = On
xcache.coveragedump_directory = ""

创建缓存目录，重启apache

$sudo mkdir /tmp/xcache
$sudo chmod 777 /tmp/xcache
$sudo /usr/local/apache/bin/apachectl restart

去查看phpinfo()信息吧！

三、PHP加速器测试

1、测试环境

硬件: AMD Athlon 64 X2 Dual Core Processor 4400+ @ 2.2GHz CPU, 2GB 内存. 160GB SATA 硬盘

软件: Linux Ubuntu server Gutsy 7.10, Apache 2.2.4, MySQL 5.0.45 和 PHP 5.2.3

测试指令: ab -c5 -n3000 http://example.com/ (我们使用的是Apache Benchmark (ab) 工具，并发连接为5，3000次请求)

2、测试结果

无任何加速器:

Document Path: /
Document Length: 21757 bytes
Concurrency Level: 5
Time taken for tests: 288.255212 seconds
Complete requests: 3000
Failed requests: 0
Write errors: 0
Total transferred: 66777000 bytes
HTML transferred: 65271000 bytes
Requests per second: 10.41 [#/sec] (mean)
Time per request: 480.425 [ms] (mean)
Time per request: 96.085 [ms] (mean, across all concurrent requests)
Transfer rate: 226.23 [Kbytes/sec] received
Connection Times (ms)
min mean[+/-sd] median max
Connect: 0 0 0.5 0 19
Processing: 181 479 186.0 444 1822
Waiting: 166 461 184.7 427 1708
Total: 181 479 186.0 444 1822
Percentage of the requests served within a certain time (ms)
50% 444
66% 525
75% 577
80% 619
90% 732
95% 819
98% 946
99% 1012
100% 1822 (longest request)

APC加速器:

Document Path: /
Document Length: 21757 bytes
Concurrency Level: 5
Time taken for tests: 98.530068 seconds
Complete requests: 3000
Failed requests: 0
Write errors: 0
Total transferred: 66777000 bytes
HTML transferred: 65271000 bytes
Requests per second: 30.45 [#/sec] (mean)
Time per request: 164.217 [ms] (mean)
Time per request: 32.843 [ms] (mean, across all concurrent requests)
Transfer rate: 661.84 [Kbytes/sec] received
Connection Times (ms)
min mean[+/-sd] median max
Connect: 0 0 0.0 0 2
Processing: 58 163 71.2 155 2452
Waiting: 53 158 69.6 150 2329
Total: 58 163 71.2 155 2452
Percentage of the requests served within a certain time (ms)
50% 155
66% 178
75% 193
80% 204
90% 235
95% 258
98% 285
99% 302
100% 2452 (longest request)

eAccelerator加速器:

Document Path: /
Document Length: 21757 bytes
Concurrency Level: 5
Time taken for tests: 95.983986 seconds
Complete requests: 3000
Failed requests: 0
Write errors: 0
Total transferred: 66777000 bytes
HTML transferred: 65271000 bytes
Requests per second: 31.26 [#/sec] (mean)
Time per request: 159.973 [ms] (mean)
Time per request: 31.995 [ms] (mean, across all concurrent requests)
Transfer rate: 679.39 [Kbytes/sec] received
Connection Times (ms)
min mean[+/-sd] median max
Connect: 0 0 0.1 0 3
Processing: 57 159 91.3 148 3830
Waiting: 50 152 89.8 142 3704
Total: 57 159 91.3 148 3830
Percentage of the requests served within a certain time (ms)
50% 148
66% 174
75% 193
80% 205
90% 239
95% 263
98% 289
99% 309
100% 3830 (longest request)

XCache加速器:

Document Path: /
Document Length: 21757 bytes
Concurrency Level: 5
Time taken for tests: 99.76300 seconds
Complete requests: 3000
Failed requests: 0
Write errors: 0
Total transferred: 66777000 bytes
HTML transferred: 65271000 bytes
Requests per second: 30.28 [#/sec] (mean)
Time per request: 165.127 [ms] (mean)
Time per request: 33.025 [ms] (mean, across all concurrent requests)
Transfer rate: 658.19 [Kbytes/sec] received
Connection Times (ms)
min mean[+/-sd] median max
Connect: 0 0 0.0 0 2
Processing: 59 164 83.4 155 3367
Waiting: 52 156 66.4 148 1802
Total: 59 164 83.4 155 3367
Percentage of the requests served within a certain time (ms)
50% 155
66% 178
75% 196
80% 206
90% 237
95% 263
98% 287
99% 305
100% 3367 (longest request)

3、结果摘要

	请求时间(秒)	单次请求时间(毫秒)	最大内存占用(MB)	最小内存占用(MB)
None	10.41	96.08	24	24
APC	30.45	32.84	21	21
eAccelerator	31.26	31.99	23	18
XCache	30.28	33.02	29	19

四、PHP加速器比较结果总结

1、通过测试得出eAccelerator在请求时间和内存占用综合方面是最好的。

2、通过测试得出使用加速器比无加速器在请求时间快了3倍左右。

3、通过各个官方观察，XCache是更新最快的，这也说明最有发展的。

以上是总结结果，你也许会问我到底用那个加速器好呢？我只能告诉你，首先，用一定比不用好，其次每个加速器还有一些可以调优的参数，所以要根据你的系统环境而定，然后，我个人觉得你可以详细研究下eAccelerator和XCache，这两款潜力还是很大的，最后我从比较专业的测试网站搞了一张结果图：

本文转载自：http://killker.com/blog/?p=94

posted @ 2010-04-16 10:00 小马歌阅读(233) | 评论 (0) | 编辑收藏

<转>解决Apache出现的CPU高占用率的问题

自已电脑上装的apache突然间，内存及cpu占用率一直飙升。找了篇文章解决了。顺便发来这里转转

所谓Apache出现CPU高占用率就是指Apache在一段时间内持续占用很高的CPU使用率，甚至达到CPU100％，这个时候造成网站无法访问。解决的方法就是仔细观察Apache的日志文件，查阅错误的信息。

下面我们针对几种错误信息进行分析并给出解决的方法：

1. Apache与WinSock v2相冲突
Apache官方提供的手册中提到，在Windows系统下Apache2.x为了提高性能而使用了Microsoft WinSock v2 API，但是一些常见的防火墙软件会破坏他的正确性，从而使得Apache出现死循环操作造成CPU100％。

其错误提示如下所示：

[error] (730038)An operation was attempted on something that is not a socket.: winnt_accept: AcceptEx failed. Attempting to recover.

[error] (OS 10038) : Child 3356: Encountered too many errors accepting client connections. Possible causes: dynamic address renewal, or incompatible VPN or firewall software. Try using the Win32DisableAcceptEx directive.

[warn] (OS 121)信号灯超时时间已到。 : winnt_accept: Asynchronous AcceptEx failed.

[warn] (OS 64)指定的网络名不再可用。 : winnt_accept: Asynchronous AcceptEx failed.

可以依次采用下面的方法来解决上面的问题，如果进行了一步还有问题就继续下一步：

1) 在httpd.conf文件中使用 Win32DisableAcceptEx 禁止Apache使用 Microsoft WinSock v2 API ：

<IfModule mpm_winnt.c>
Win32DisableAcceptEx # 禁止使用AcceptEx()
</IfModule>

2) 使用System Repair Engineer(SREng)查看WinSocket供应者，如果出现非MS的陌生项则将其删除，并使用软件的“重置WinSocket”按钮进行重置。

3) 卸载与Apache相冲突的杀毒软件或防火墙软件。

如果进行上面的三个步骤之后还有问题，那应该看看是不是还有下面的错误。

2. 是否加载了第三方模块(so文件)
Apache2.x要求所有的第三方模块都必须是线程安全的，但有很多第三方的模块可能存在内存泄露，因此时间一长就可以极大的消耗Apache资源。所以可以采用将所有的第三方模块逐个关闭的方法看看运行一段时间之后Apache对资源的占用是否有所改善。

3. “Terminating 1 threads that failed to exit”错误
上面错误中的数字1有可能是其他数字，造成这个错误的原因是Apache在关闭并发线程的时候出现线程溢出，从而造成内存泄露，表现出来的就是Apache所占用的系统资源持续增长。

具体来说，Apache的子进程在结束当前请求之前会首先将所有的并发线程进行关闭，在关闭的时候会等待3分钟，如果3分钟之内没有将所有的线程关闭则会抛出上述的错误提示，然后强制关闭。这样就造成了内存溢出，时间一长会使得Apache所占用资源持续增长直到无法工作。这个时候可以适当将MaxRequestsPerChild的值降低，使得Apache子进程所并发的线程数量减少，从而降低该错误出现的几率。

但是这种方式并不能彻底解决问题，幸好Apache2.0.x的最新版本(2.0.63)解决了之前版本的这个问题，如果3分钟之内有线程没有关闭的话会自动根据时间情况再增加等待结束的时间直到最终将所有的线程结束。日志文件中会出现类似下面的信息：

Child 1952: Waiting 150 more seconds for 2 worker threads to finish.
Child 1952: Waiting 120 more seconds for 1 worker threads to finish.
Child 1952: All worker threads have exited.

4. “file .\\server\\mpm\\winnt\\child.c, line 1078, assertion “(rv >= 0) && (rv < threads_created)” failed” 错误

这个错误是Apache的一个bug(#11997)，可以通过 Win32DisableAcceptEx 禁止Apache使用WinSocket v2来避免此bug，具体设置见前述。

5. PHP5.2.1以上版本的libmysql.dll与MySQL5不兼容
PHP5.2.1以后的新版本(截止目前最新版本为5.2.5)中用于连接MySQL的libmysql.dll组件与MySQL5不兼容，在Apache中运行PHP的时候会造成Apache产生CPU100%的问题。

解决的方法就是从http://www.php.net/releases/下载5.2.1版本，将压缩包中的libmysql.dll文件覆盖现在的文件，然后重启Apache就可以了。

6. 病毒或木马程序命名为Apache.exe
有的时候病毒或木马程序会将其名称命名为Apache.exe文件达到一种掩饰的目的，这个时候使用第三方进程分析器查看进程的路径然后将其删除或使用杀毒软件清除就可以了。

7. 程序编写不严谨造成死循环等错误
如果上面的问题都不存在Apache依然产生CPU100%的问题的话，通常来说就应该是Web程序自身的问题了，例如死循环等等。这个时候需要在日志中设置HTTP请求的文件及执行的时间，然后查找出执行时间比较长的地址进行分析排查。

日志格式设置如下：

LogFormat “%v %h %l %u %t [%Ts] \”%r\” %>s %b” vhost_common #设置程序执行时间

<VirtualHost xxx.xxx.xx.xx:80>
ServerName xxx.xxx.com
DirectoryIndex index.php index.html index.htm
DocumentRoot “xxx”
# cronolog.exe用于将日志文件进行分割的应用程序，可以在 http://cronolog.org/ 下载
CustomLog “|bin/cronolog.exe e:/%Y%m%d.log” vhost_common

原文出处: http://www.javatang.com/archives/2008/01/22/0615259.html

posted @ 2010-04-15 15:19 小马歌阅读(840) | 评论 (0) | 编辑收藏

如何配置RHEL实现apache能在出现段错误时输出core文件?[转]

解决方法:
1. 在/etc/httpd/conf/httpd.conf的最后添加如下内容
   CoreDumpDirectory /var/apache-dump
2. 创建该目录，并设置正确的权限和属主：
   # ps aux | grep http | tail -n 2
   # mkdir /var/apache-dump
   # chown apache.apache /var/apache-dump
注：修改属主为ps axu|grep httpd显示的apache进程的运行身份和组
   # chmod 0770 /var/apache-dump
   # ls -ld /var/apache-dump
   drwxrwx--- 2 apache apache 4096 Aug 16 10:59 /var/apache-dump
3. 修改/etc/security/limits.conf，添加：
   *             -    core unlimited
4. 编辑/etc/profile，修改：
   ulimit -S -c 0 > /dev/null 2>1
为
   ulimit -S -c unlimited > /dev/null 2>1
5. 编辑/etc/init.d/functions，在下面一行添加一个"#"，将其注释掉：
      ulimit -S -c 0 >/dev/null 2>1
为
      #ulimit -S -c 0 >/dev/null 2>1
6. 编辑/etc/init.d/httpd，在start()部分的第一行添加ulimit -c如下：
   start() {
         ulimit -c unlimited
         echo -n $"Starting $prog: "
7. 实现重新起动后将PID写入到core文件，修改/etc/sysctl.conf，添加：
   kernel.core_uses_pid = 1
   # Following needed for Enterprise Linux 3 servers
   kernel.core_setuid_ok = 1
同时，可以手工运行下面命令使得立刻生效：
   # echo 1 > /proc/sys/kernel/core_uses_pid
   # echo 1 > /proc/sys/kernel/core_setuid_ok
8. 重新起动或者重新启动apache：
      service httpd restart
9. 为了测试，使用ps aux查找apache进程，然后kill-ll ，检查/var/apache-dump/目录查找新的core文件：
   # ps aux | grep htt | tail -n 2
   apache 1331  0.0  2.6 80152 6776 ?       S 13:59 0:00 /usr/sbin/httpd -
   apache 1333  0.0  2.6 80152 6776 ?       S 13:59 0:00 /usr/sbin/httpd -
   # kill -11 1333
   # ls -ld /var/apache-dump/core.1333
   -rw------- 1 apache apache 71188480 Aug 16 13:48 /var/apache-dump/core.1333
一旦得到core文件，可以查看core文件，进行debug。

posted @ 2010-04-15 15:00 小马歌阅读(290) | 评论 (0) | 编辑收藏

Linux性能分析工具(vmstat,iostat,sar) [转]

Linux在具有高稳定性、可靠性的同时，具有很好的可伸缩性和扩展性，能够针对不同的应用和硬件环境调整，优化出满足当前应用需要的最佳性能。因此企业在维护Linux系统、进行系统调优时，了解系统性能分析工具是至关重要的。

　　在Linux下有很多系统性能分析工具，比较常见的有top、free、ps、time、timex、uptime等。下文将介绍几个较为重要的性能分析工具vmstat、iostat和sar及其使用。

用vmstat监视内存使用情况

　　vmstat是Virtual Meomory Statistics（虚拟内存统计）的缩写，可对操作系统的虚拟内存、进程、CPU活动进行监视。它是对系统的整体情况进行统计，不足之处是无法对某个进程进行深入分析。

　　首先，什么是virtual memory？简单的说，linux支持应用程序使用比实际内存更大的内存空间，这是通过将硬盘上一个特定的分区（swap分区）或者一个特定的文件作为内存的扩展来做到的。当实际内存不够用时，linux根据某种策略，将内存中的部分空间写到交换分区以便留出应用程序运行所需要的内存空间(参考：Understanding Virtual Memory , What is Vitual Memory)。但是，一旦开始使用交换空间，磁盘活动自然就多起来，cpu利用率就降低下来（因为磁盘的速度比内存和cpu慢多了）。这就是为什么vmstat会同时显示磁盘和cpu活动情况的原因。

　　vmstat的语法如下：

CODE:
vmstat [-V] [-n] [delay [count]]
[Copy to clipboard]

　　其中，－V表示打印出版本信息；－n表示在周期性循环输出时，输出的头部信息仅显示一次；delay是两次输出之间的延迟时间；count是指按照这个时间间隔统计的次数。

　　vmstat输出的各个字段的含义可以参考man vmstat的解释，下面就我的理解说一下vmstat常用的几种使用方式。

1、观察磁盘活动情况

　　磁盘活动情况主要从以下几个指标了解：
　　bi：表示从磁盘每秒读取的块数(blocks/s)。数字越大，表示读磁盘的活动越多。
　　bo：表示每秒写到磁盘的块数（blocks/s）。数字越大，表示写磁盘的活动越多。
　　wa：cpu等待磁盘I／O（未决的磁盘IO）的时间比例。数字越大，表示文件系统活动阻碍cpu的情况越严重，因为cpu在等待慢速的磁盘系统提供数据。wa为0是最理想的。如果wa经常大于10，可能文件系统就需要进行性能调整了。

procs:
r-->在运行队列中等待的进程数
b-->在等待io的进程数
w-->可以进入运行队列但被替换的进程
memoy
swap-->现时可用的交换内存（k表示）
free-->空闲的内存（k表示）
pages
re－－》回收的页面
mf－－》非严重错误的页面
pi－－》进入页面数（k表示）
po－－》出页面数（k表示）
fr－－》空余的页面数（k表示）
de－－》提前读入的页面中的未命中数
sr－－》通过时钟算法扫描的页面
disk 显示每秒的磁盘操作。 s表示scsi盘，0表示盘号
fault 显示每秒的中断数
in－－》设备中断
sy－－》系统中断
cy－－》cpu交换
cpu 表示cpu的使用状态
cs－－》用户进程使用的时间
sy－－》系统进程使用的时间
id－－》cpu空闲的时间
如果 r经常大于 4 ，且id经常少于40，表示cpu的负荷很重。
如果pi，po 长期不等于0，表示内存不足。
如果disk 经常不等于0，且在 b中的队列大于3，表示 io性能不好。

2、观察cpu活动情况

　　vmstat比top更能反映出cpu的使用情况：
　　us：用户程序使用cpu的时间比例。这个数字越大，表示用户进程越繁忙。
　　sy：系统调用使用cpu的时间比例。注意，NFS由于是在内核里面运行的，所以NFS活动所占用的cpu时间反映在sy里面。这个数字经常很大的话，就需要注意是否某个内核进程，比如NFS任务比较繁重。如果us和sy同时都比较大的话，就需要考虑将某些用户程序分离到另外的服务器上面，以免互相影响。
　　id：cpu空闲的时间比例。
　　wa：cpu等待未决的磁盘IO的时间比例。

用iostat监视I/O子系统情况

　　iostat是I/O statistics（输入/输出统计）的缩写，iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况，同时也会汇报出CPU使用情况。同vmstat一样，iostat也有一个弱点，就是它不能对某个进程进行深入分析，仅对系统的整体情况进行分析。

　　iostat的语法如下：

CODE:
iostat [ -c | -d ] [ -k ] [ -t ] [ -V ] [ -x [ device ] ] [ interval [ count ] ]
[Copy to clipboard]

　　其中，-c为汇报CPU的使用情况；-d为汇报磁盘的使用情况；-k表示每秒按kilobytes字节显示数据；-t为打印汇报的时间；-v表示打印出版本信息和用法；-x device指定要统计的设备名称，默认为所有的设备；interval指每次统计间隔的时间；count指按照这个时间间隔统计的次数。

　　iostat一般的输出格式如下：

CODE:
Linux 2.4.18-18smp (builder.linux.com) 2003年03月07日

avg-cpu: %user %nice %sys %idle
4.81 0.01 1.03 94.15

Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
dev3-0 30.31 1117.68 846.52 16104536 12197374
dev3-1 7.06 229.61 40.40 3308486 582080

[Copy to clipboard]

device显示设备名
r/s显示每秒读磁盘操作的次数
w/s 显示每秒写磁盘操作的次数
kr/s 显示每秒读数据总量单位K
kw/s 显示每秒写数据总量单位K
wait 显示平均的等待事务数量
actv 显示正在处理的平均事务总量
svc_t 显示凭据服务周期单位 ms
%w 显示等待时间的百分数
%b 显示磁盘工作时间的百分数

　　对于输出中各字段的含义，iostat的帮助中有详细的说明。

使用sar进行综合分析

引用:
表1 sar参数说明

选项功能
-A 汇总所有的报告
-a 报告文件读写使用情况
-B 报告附加的缓存的使用情况
-b 报告缓存的使用情况
-c 报告系统调用的使用情况
-d 报告磁盘的使用情况
-g 报告串口的使用情况
-h 报告关于buffer使用的统计数据
-m 报告IPC消息队列和信号量的使用情况
-n 报告命名cache的使用情况
-p 报告调页活动的使用情况
-q 报告运行队列和交换队列的平均长度
-R 报告进程的活动情况
-r 报告没有使用的内存页面和硬盘块
-u 报告CPU的利用率
-v 报告进程、i节点、文件和锁表状态
-w 报告系统交换活动状况
-y 报告TTY设备活动状况

　　sar是System Activity Reporter（系统活动情况报告）的缩写。顾名思义，sar工具将对系统当前的状态进行取样，然后通过计算数据和比例来表达系统的当前运行状态。它的特点是可以连续对系统取样，获得大量的取样数据；取样数据和分析的结果都可以存入文件，所需的负载很小。sar是目前Linux上最为全面的系统性能分析工具之一，可以从14个大方面对系统的活动进行报告，包括文件的读写情况、系统调用的使用情况、串口、CPU效率、内存使用状况、进程活动及IPC有关的活动等，使用也是较为复杂。

　　sar的语法如下：

CODE:
sar [-option] [-o file] t [n]
[Copy to clipboard]

　　它的含义是每隔t秒取样一次，共取样n次。其中-o file表示取样结果将以二进制形式存入文件file中。

　　另一种语法如下：

CODE:
sar [-option] [-s time] [-e time] [-i sec] [-f file]
[Copy to clipboard]

　　含义是表示从file文件中取出数据，如果没有指定-f file，则从标准数据文件/var/adm/sa/sadd取数据，其中dd表示当前天。另外，-s time表示起始时间；-e time表示停止时间；-i sec表示取样的时间间隔，如果不指定则表示取文件中所有的数据。对于具体的选项参见表1。

　　一般它与-q和-u联合使用，以便对每个CPU的使用情况进行分析，比如运行如下命令：

CODE:
sar -q -u 5 1
[Copy to clipboard]

　　将输出如下：

CODE:
Linux 2.4.18-18smp (builder.linux.com) 2003年03月07日

09时46分16? CPU %user %nice %system %idle
09时46分21? all 0.20 0.00 0.00 99.80

09时46分16? runq-sz plist-sz ldavg-1 ldavg-5
09时46分21? 0 91 0.00 0.00

Average: CPU %user %nice %system %idle
Average: all 0.20 0.00 0.00 99.80

Average: runq-sz plist-sz ldavg-1 ldavg-5
Average: 0 91 0.00 0.00

[Copy to clipboard]

　　由于sar命令太复杂，只有通过熟练使用才能了解每个选项的含义，对于sar输出中每个字段的含义运行man sar命令可以得到详细的解释。

posted @ 2010-04-15 12:36 小马歌阅读(375) | 评论 (0) | 编辑收藏

Fixing Poor MySQL Default Configuration Values [转]

from : http://jeremy.zawodny.com/blog/archives/011421.html

I've recently been accumulating some MySQL configuration variables that have defaults which have proven to be problematic in a high-volume production environment. The thing they all have in common is a network blip or two can trigger some very undesirable behavior.

max_connect_errors

If a client is having trouble connecting to MySQL, the server will give up waiting after connect_timeout seconds and increment the counter which tracks the number of connect errors it has seen for the host. Then, when that value reaches max_connect_errors, the client will be locked out until you issue a FLUSH HOSTS command. Worse yet, if you have occasionally network blips and never need to restart your MySQL boxes, these errors can accumulate over time and eventually cause you middle of the night pain.

See Host 'host name' is blocked in the MySQL docs. Sadly, there is no way to disable this check entirely. Setting the variable to 0 doesn't accomplish that. Your only real solutions are (a) setting it to a very high value (max_connect_errors=1844674407370954751), and (b) running an occasional FLUSH HOSTS command.

connect_timeout

This is related to the above problem. In situations of network congestion (either at the client or server), it's possible for an initial connection to take several seconds to complete. But the default value for connect_timeout is 5 seconds. When you trip over that, the max_connect_errors problem above kicks in.

To avert this, try setting connect_timeout to a value more like 15 or 20. And also consider making thread_cache_size a non-zero value. That will help in situations when the server occasionally gets a high number of new connections in a very short period of time.

skip-name-resolve

MySQL does a reverse DNS lookup on every incoming connection by default. This sucks. It seems that no matter how good your infrastructure is, there are blips in DNS service. MySQL's host cache exists to keep those lookups to a minimum. Yet I've seen this cause pain off and on for eight years now. I can only assume there's a bug in the host cache or the resolver library when this happens.

I recommend adding skip-name-resolve to your /etc/my.cnf to skip DNS entirely. Just use IP addresses or ranges for your GRANTs. It seems that slow replies from DNS servers can also help you to trip over connect_timeout as well. Imagine having 2 or 3 DNS servers configured but the first one is unavailable.

slave_net_timeout

When the network connection between a master and slave database is interrupted in a way that neither side can detect (like a firewall or routing change), you must wait until slave_net_timeout seconds have passed before the salve realizes that something is wrong. It'll then try to reconnect to the master and pick up where it left off. That's awesome.

However, the default value is 3600 seconds. That's a full hour! FAIL.

Who wants their slaves to sit idle for that long before checking to see if something might be wrong? I can't think of anyone who wants that.

My suggestion, if you're in a busy environment, is that you set that to something closer to 30 seconds.

posted @ 2010-04-12 12:42 小马歌阅读(281) | 评论 (0) | 编辑收藏

对付 MySQL 的死连接，Sleep的进程的来源探究[转]

from : http://www.justwinit.cn/post/2734/

[

2010/02/27 17:40 | by root ]

当前的连接数:
mysql> show status like '%Threads_connected%';
+-------------------+-------+
| Variable_name | Value |
+-------------------+-------+
| Threads_connected | 27 |
+-------------------+-------+
1 row in set (0.00 sec)

最大连接数：
show variables like '%max_connections%';
set GLOBAL max_connections=800;
flush privileges
也可以修改/etc/my.cnf中的max_connections：
max_connections = 1000

关于php应该在何时调用mysql_close()以及pconnect方式和传统方式有何种区别收藏
以前我一直认为，当php的页面执行结束时，会自动释放掉一切。相信很多人都跟我想的一样。但事实证明并不是这样。比如session就不会随着页面执行完毕而释放。
php的垃圾回收机制，其实只针对于php本身。对于mysql，php没权利去自动去释放它的东西。如果你在页面执行完毕前不调用mysql_close()，那么mysql那边是不会关闭这个连接的。如果你是用的是pconnect方式，即使你在页面执行完毕前调用mysql_close()，也无法另mysql关闭这个连接。
也许在负载低的情况下，你感受不到有何不妥。但是，一旦负载很高，就回出现很多的死链接，于是得杀掉它们，现象:
在php中使用pconnect方式建立连接，然后到mysql客户端下执行show processlist；如果你的负载到一定程度的话，你可以看到很多sleep的进程，这些进程就是人们常说的死连接，它们会一直保持sleep，直到my.cnf里面设置的wait_timeout这个参数值的时间到了，mysql才会自己杀死它。在杀死它的时候，mysql还会在error-log里面记录一条Aborted connection xxx to db: 'xxx' user: 'xxx' host: 'xxx'的日志，用google翻译一下，会得到一个相当强悍的解释"胎死腹中的连接"!
那么造成sleep的原因，有三个，下面是mysql手册给出的解释:
1.客户端程序在退出之前没有调用mysql_close().[写程序的疏忽，或者数据库的db类库没有自动关闭每次的连接。。。]
2.客户端sleep的时间在wait_timeout或interactive_timeout规定的秒内没有发出任何请求到服务器. [类似常连，类似于不完整的tcp ip协议构造，服务端一直认为客户端仍然存在（有可能客户端已经断掉了）]
3.客户端程序在结束之前向服务器发送了请求还没得到返回结果就结束掉了. [参看：tcp ip协议的三次握手]

网上有一个哥们写了一个，如下：

<?php
define('MAX_SLEEP_TIME', 120);

$hostname = "localhost";
$username = "root";
$password = "password";

$connect = mysql_connect($hostname, $username, $password);
$result = mysql_query("SHOW PROCESSLIST", $connect);
while ($proc = mysql_fetch_assoc($result)) {
    if ($proc["Command"] == "Sleep" && $proc["Time"] > MAX_SLEEP_TIME) {
        @mysql_query("KILL " . $proc["Id"], $connect);
    }
}
mysql_close($connect);
?>

将它当中的 $password 改成你实际的数据库密码，死连接的时间也可以修改。然后加入计划任务就可以了。比如用 crontab -e 命令加入：

*/2 * * * * php /usr/local/sbin/kill-mysql-sleep-proc.php就可以每隔 2 分钟检查并清除一次数据库中的死连接了。

我结合自己的实际改写如下：

<?php

require_once 'services/UserServices*.class.php';
define('MAX_SLEEP_TIME', 120);//注意调试的时候这儿只能修改120，而不能在重新定义，常量一旦定义好，就不能被重新定义了。PHP预先定义了几个常量，并提供了一种机制在运行时自己定义。常量和变量基本上是一样的，不同的是：常量必须用DEFINE函数定义，常量一旦定义好，就不能被重新定义了。
$scoreServ = new TMService ( );
$sql = "SHOW PROCESSLIST";
$proc = $scoreServ*->query($sql);
foreach($proc as $oneproc)
{
    if ($oneproc["Command"] == "Sleep" && $oneproc["Time"] >= MAX_SLEEP_TIME)
    {
       $query = "KILL " . $oneproc["Id"];
       echo $query."\n";
       @$scoreServ*->query($query);
    }
}

?>

crontab 加入：

*/2 * * * * /usr/local/php/bin/php /usr/local/tads/htdocs/*/src/crontable/killmysqlsleepproc.php

听说可以做mysql的设置也可以的如下：

配置MYSQL里的参数。超时时间设置。
max_connections：
允许的同时客户的数量。负载过大时，你将经常看到 too many connections 错误。已达到最大链接数，所以会出现这种情况。我们服务器数值是200。
wait_timeout
服务器在关闭连接之前在一个连接上等待行动的秒数，默认数值是28800，即如果没有事情发生，服务器在 8个小时后关闭连接。防止sleep过而导致出现too many connections

如果你的sleep进程数在同一时间内过多，再加上其他状态的连接，总数超过了max_connection的值，那mysql除了root用户外，就无法再继续处理任何请求无法与任何请求建立连接或者直接down了。所以，这个问题在大负载的情况下还是相当严重的。如果发现你的mysql有很多死连接存在，首先要先检查你的程序是否使用的是pconnect的方式，其次，检查在页面执行完毕前是否及时调用了mysql_close()，

还有一个办法，你可以在my.cnf里面加上wait_timeout和interactive_timeout，把他们的值设的小一些，默认情况下wait_timeout的值是8小时的时间，你可以改成1个小时，或半个小时。这样mysql会更快的杀死死连接。防止连接总数超过max_connection的值。或者把max_connection的值设置的更大，不过这样显然不妥，连接的数量越多，对你服务器的压力越大。实际上那些连接都是冗余的，把它们尽快杀死才是上策。

以前总是说，在使用php连接mysql的时候，尽量不要使用pconnect的方式，看完我上面所说的那些，应该可以明白为什么了吧，因为我们使用php大多数情况下都是做web开发，web开发是面向多用户，那么用户的数量与mysql连接数是成正比的。使用pconnect的方式，即使你的调用mysql_close()也是无法释放数据库连接的，那么mysql中的死连接的数量就会越来越多了。

我认为，只有当你的应用属于那种点对点方式，或者你能保证连接数量很少的情况，才有必要去采用pconnect的方式，因为连接数量少，那么让它一直处于连接状态，避免了重复打开关闭的过程。这样可能会比传统方式更好一些。

至于何时该去调用mysql_close()，最正确的做法是如果下面不再执行mysql的操作了，在你上一次执行完mysql操作后，立刻就调用mysql_close()。这才是最正确的做法，并不是总要把mysql_close()写在页面最后一行就可以了。

如果你没有修改过MySQL的配置，缺省情况下，wait_timeout的初始值是28800。

wait_timeout过大有弊端，其体现就是MySQL里大量的SLEEP进程无法及时释放，拖累系统性能，不过也不能把这个指设置的过小，否则你可能会遭遇到“MySQL has gone away”之类的问题，通常来说，我觉得把wait_timeout设置为10是个不错的选择，但某些情况下可能也会出问题，比如说有一个CRON脚本，其中两次SQL查询的间隔时间大于10秒的话，那么这个设置就有问题了（当然，这也不是不能解决的问题，你可以在程序里时不时mysql_ping一下，以便服务器知道你还活着，重新计算wait_timeout时间）： # vi /etc/my.cnf

[mysqld]

wait_timeout=10

# /etc/init.d/mysql restart
复制代码不过这个方法太生硬了，线上服务重启无论如何都应该尽可能避免，看看如何在MySQL命令行里通过SET来设置： mysql> set global wait_timeout=10;

mysql> show global variables like '%timeout';

+----------------------------+-------+

| Variable_name              | Value |

+----------------------------+-------+

| wait_timeout               | 10    |

+----------------------------+-------+
复制代码这里一个容易把人搞蒙的地方是如果查询时使用的是show variables的话，会发现设置好像并没有生效，这是因为单纯使用show variables的话就等同于使用的是show session variables，查询的是会话变量，只有使用show global variables，查询的才是全局变量。

网络上很多人都抱怨说他们set global之后使用show variables查询没有发现改变，原因就在于混淆了会话变量和全局变量，如果仅仅想修改会话变量的话，可以使用类似set wait_timeout=10;或者set session wait_timeout=10;这样的语法。

另一个值得注意的是会话变量wait_timeout初始化的问题，这一点在手册里已经明确指出了，我就直接拷贝了：
On thread startup, the session wait_timeout value is initialized from the global wait_timeout value or from the global interactive_timeout value, depending on the type of client (as defined by the CLIENT_INTERACTIVE connect option to mysql_real_connect()).

MySQL大拿Jeremy Zawodny曾在他的文章Fixing Poor MySQL Default Configuration Values里面列出了几个很恶心的MySQL缺省设置，不过没包含wait_timeout，但我觉得它也应该算一个，每次新装MySQL后最好都记得修改它。

以上的修改配置来源网页：http://www.tech-q.cn/redirect.php?tid=4005&goto=lastpost

mysql>show variables like '%timeout';
打印结果如下：
+----------------------------+-------+
| Variable_name | Value |
+----------------------------+-------+
| connect_timeout | 5 |
| delayed_insert_timeout | 300 |
| interactive_timeout | 28800 |
| net_read_timeout | 30 |
| net_write_timeout | 60 |
| slave_net_timeout | 3600 |
| wait_timeout | 28800 |
+----------------------------+-------+

interactive_timeout 需在mysql_connect()设置CLIENT_INTERACTIVE选项后起作用，并被赋值为wait_timeout；
mysql>set wait_timeout = 10; 对当前交互链接有效；
mysql>set interactive_timeout = 10; 对后续起的交互链接有效；

该超时时间单位是秒，从变量从上次SQL执行后算起；当前空闲若超过该时间，则也会被强制断开。

想把mysql的连接断开时间改长一些，以前只改了connect_timeout变量的值，还不够。现在又改了这两个，不知够不够。不够再继续查吧。

注意：对两个值都做修改才生效：set interactive_timeout=120; set wait_timeout=120;

mysql> show variables like '%timeout';
+-------------------------+-------+
| Variable_name           | Value |
+-------------------------+-------+
| connect_timeout         | 5     |
| delayed_insert_timeout  | 300   |
| interactive_timeout     | 28800 |
| net_read_timeout        | 30    |
| net_write_timeout       | 60    |
| slave_net_timeout       | 3600  |
| table_lock_wait_timeout | 50    |
| wait_timeout            | 28800 |
+-------------------------+-------+

mysql> set interactive_timeout=120; set wait_timeout=120;
Query OK, 0 rows affected (0.00 sec)

mysql> show variables like '%timeout';
+-------------------------+-------+
| Variable_name           | Value |
+-------------------------+-------+
| connect_timeout         | 5     |
| delayed_insert_timeout  | 300   |
| interactive_timeout     | 120   |
| net_read_timeout        | 30    |
| net_write_timeout       | 60    |
| slave_net_timeout       | 3600  |
| table_lock_wait_timeout | 50    |
| wait_timeout            | 120   |
+-------------------------+-------+

修改全局变量：
set global interactive_timeout=120;set global wait_timeout=120;

mysql> show global variables like '%timeout';
+-------------------------+-------+
| Variable_name           | Value |
+-------------------------+-------+
| connect_timeout         | 5     |
| delayed_insert_timeout  | 300   |
| interactive_timeout     | 120   |
| net_read_timeout        | 30    |
| net_write_timeout       | 60    |
| slave_net_timeout       | 3600  |
| table_lock_wait_timeout | 50    |
| wait_timeout            | 120   |
+-------------------------+-------+

特别注意全局和一般变量时不一样的两个变量，这也就是为何导致修改没有起作用的原因！！！！

配置修改：
直接的修改 /etc/my.cnf这个文件中

-------------------------------------------
[mysqld]

wait_timeout = 86400
interactive_timeout = 86400
--------------------------------------------
添加这两行，然后重新启动mysql服务就OK了
文章来源：http://blog.chinaunix.net/u2/60332/showart_2096857.html

近一段时间，部门同事反映在使用mysql的过程出现数据库连接问题

应用程序和数据库建立连接，如果超过8小时应用程序不去访问数据库，数据库就断掉连接。这时再次访问就会抛出异常，如下所示：

java.io.EOFException
    at com.mysql.jdbc.MysqlIO.readFully(MysqlIO.java:1913)
    at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:2304)
    at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:2803)
    at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:1573)
...

查了一下发现应用程序和mysql数据库建立连接，如果超过8小时应用程序不去访问数据库，数据库就断掉连接。这时再次访问就会抛出异常。

关于mysql自动断开的问题研究结果如下，在mysql中有相关参数设定，当数据库连接空闲一定时间后，服务器就会断开等待超时的连接：
1、相关参数，红色部分
mysql> show variables like '%timeout%';
+--------------------------+-------+
| Variable_name            | Value |
+--------------------------+-------+
| connect_timeout          | 5     |
| delayed_insert_timeout   | 300   |
| innodb_lock_wait_timeout | 50    |
| interactive_timeout      | 28800 |
| net_read_timeout         | 30    |
| net_write_timeout        | 60    |
| slave_net_timeout        | 3600 |
| wait_timeout             | 28800 |
+--------------------------+-------+
同一时间，这两个参数只有一个起作用。到底是哪个参数起作用，和用户连接时指定的连接参数相关，缺省情况下是使用wait_timeout。我建议是将这两个参数都修改，以免引起不必要的麻烦。

2、修改参数
这两个参数的默认值是8小时(60*60*8=28800)。我测试过将这两个参数改为0，结果出人意料，系统自动将这个值设置为1。换句话说，不能将该值设置为永久。
将这2个参数设置为24小时(60*60*24=604800)即可。
set interactive_timeout=604800;
set wait_timeout=604800;

也可以修改my.cof,修改后重起mysql
打开/etc/my.cnf,在属性组mysqld下面添加参数如下：
[mysqld]
interactive_timeout=28800000
wait_timeout=28800000

如果一段时间内没有数据库访问则mysql自身将切断连接，之后访问java访问连接池时对数据库的数据通道早就关闭了，因为dbcp连接池无法时时维护与数据库的连接关系，mysql5以后即使在dbcp配置中加入autoReconnect=true也没有效果。

言归正传，接着来，shell脚本实现如下：

#!/bin/sh
注：这个脚本运行后会每五秒去检测一次 mysql的sleep进程数

while :
do
  n=`/usr/bin/mysqladmin processlist | grep -i sleep | wc -l`
  date=`date +%Y%m%d\[%H:%M:%S]`
  echo $n

  if [ "$n" -gt 10 ]
  then
    for i in `/usr/bin/mysqladmin processlist | grep -i sleep | awk '{print $2}'`
    do
      /usr/bin/mysqladmin kill $i
    done
    echo "sleep is too many i killed it" >> /tmp/sleep.log
    echo "$date : $n" >> /tmp/sleep.log
  fi
sleep 5
done

crontab实现：不会循环的脚本（配合crontab使用）

#!/bin/sh
n=`/usr/bin/mysqladmin processlist | grep -i sleep | wc -l`
date=`date +%Y%m%d\[%H:%M:%S]`
echo $n
if [ "$n" -gt 10 ]
then
for i in `/usr/bin/mysqladmin processlist | grep -i sleep | awk '{print $2}'`
do
/usr/bin/mysqladmin kill $i
done
echo "sleep is too many i killed it" >> /tmp/sleep.log
echo "$date : $n" >> /tmp/sleep.log
fi

你可能还会用到查询mysql当前连接数：
1.show status
   Threads_connected  当前的连接数
   Connections  试图连接到(不管是否成功)MySQL服务器的连接数。
   Max_used_connections  服务器启动后已经同时使用的连接的最大数量。
2.set GLOBAL max_connections=连接数;
   flush privileges
3.修改/etc/my.cnf中的max_connections
4.show processlist   显示当前正在执行的mysql连接
5.mysqladmin -u<user> -p<pwd> -h<host> status
   显示当前mysql状态
   Uptime: 13131  Threads: 1  Questions: 22  Slow queries: 0  Opens: 16  Flush tables: 1  Open tables: 1  Queries per second avg: 0.1
   mysqladmin -u<user> -p<pwd> -h<host> extended-status
   显示mysql的其他状态
+-----------------------------------+----------+
| Variable_name                     | Value    |
+-----------------------------------+----------+
| Aborted_clients                   | 0        |
| Aborted_connects               | 1        |
| Binlog_cache_disk_use       | 0        |
| Binlog_cache_use               | 0        |
| Bytes_received                   | 1152   |
| Bytes_sent                         | 10400 |
| Com ......

参看:
http://www.justwinit.cn/post/2262/
http://www.coolcode.cn/?action=show&id=237
http://www.eb163.com/club/thread-1708-1-1.html
http://hualulu.com/blog/?p=16
http://www.51testing.com/?uid-199-action-viewspace-itemid-76740
补充：

netstat -n | awk '/^tcp/ {++state[$NF]} END {for(key in state) print key,"\t",state[key]}'

会得到类似下面的结果，具体数字会有所不同：

LAST_ACK 1
SYN_RECV 14
ESTABLISHED 79
FIN_WAIT1 28
FIN_WAIT2 3
CLOSING 5
TIME_WAIT 1669

状态：描述
CLOSED：无连接是活动的或正在进行
LISTEN：服务器在等待进入呼叫
SYN_RECV：一个连接请求已经到达，等待确认
SYN_SENT：应用已经开始，打开一个连接
ESTABLISHED：正常数据传输状态
FIN_WAIT1：应用说它已经完成
FIN_WAIT2：另一边已同意释放
ITMED_WAIT：等待所有分组死掉
CLOSING：两边同时尝试关闭
TIME_WAIT：另一边已初始化一个释放
LAST_ACK：等待所有分组死掉

也就是说，这条命令可以把当前系统的网络连接状态分类汇总。

下面解释一下为啥要这样写：

一个简单的管道符连接了netstat和awk命令。

------------------------------------------------------------------

先来看看netstat：

netstat -n

Active Internet connections (w/o servers)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 123.123.123.123:80 234.234.234.234:12345 TIME_WAIT

你实际执行这条命令的时候，可能会得到成千上万条类似上面的记录，不过我们就拿其中的一条就足够了。

------------------------------------------------------------------

再来看看awk：

/^tcp/
滤出tcp开头的记录，屏蔽udp, socket等无关记录。

state[]
相当于定义了一个名叫state的数组

NF
表示记录的字段数，如上所示的记录，NF等于6

$NF
表示某个字段的值，如上所示的记录，$NF也就是$6，表示第6个字段的值，也就是TIME_WAIT

state[$NF]
表示数组元素的值，如上所示的记录，就是state[TIME_WAIT]状态的连接数

++state[$NF]
表示把某个数加一，如上所示的记录，就是把state[TIME_WAIT]状态的连接数加一

END
表示在最后阶段要执行的命令

for(key in state)
遍历数组

print key,"\t",state[key]
打印数组的键和值，中间用\t制表符分割，美化一下。

如发现系统存在大量TIME_WAIT状态的连接，通过调整内核参数解决，
vim /etc/sysctl.conf
编辑文件，加入以下内容：
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 30
然后执行 /sbin/sysctl -p 让参数生效。

net.ipv4.tcp_syncookies = 1 表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少量SYN攻击，默认为0，表示关闭；
net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接，默认为0，表示关闭；
net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收，默认为0，表示关闭。
net.ipv4.tcp_fin_timeout 修改系統默认的 TIMEOUT 时间

下面附上TIME_WAIT状态的意义：

客户端与服务器端建立TCP/IP连接后关闭SOCKET后，服务器端连接的端口
状态为TIME_WAIT

是不是所有执行主动关闭的socket都会进入TIME_WAIT状态呢？
有没有什么情况使主动关闭的socket直接进入CLOSED状态呢？

主动关闭的一方在发送最后一个 ack 后
就会进入 TIME_WAIT 状态停留2MSL（max segment lifetime）时间
这个是TCP/IP必不可少的，也就是“解决”不了的。

也就是TCP/IP设计者本来是这么设计的
主要有两个原因
1。防止上一次连接中的包，迷路后重新出现，影响新连接
（经过2MSL，上一次连接中所有的重复包都会消失）
2。可靠的关闭TCP连接
在主动关闭方发送的最后一个 ack(fin) ，有可能丢失，这时被动方会重新发
fin, 如果这时主动方处于 CLOSED 状态，就会响应 rst 而不是 ack。所以
主动方要处于 TIME_WAIT 状态，而不能是 CLOSED 。

TIME_WAIT 并不会占用很大资源的，除非受到攻击。

还有，如果一方 send 或 recv 超时，就会直接进入 CLOSED 状态

sleep() 和 wait() 有什么区别?
sleep是线程类（Thread）的方法，导致此线程暂停执行指定时间，给执行机会给其他线程，但是监控状态依然保持，到时后会自动恢复。调用sleep不会释放对象锁。在sleep 时间间隔期满后，线程不一定立即恢复执行。这是因为在那个时刻，其它线程可能正在运行而且没有被调度为放弃执行，除非(a)“醒来”的线程具有更高的优先级，(b)正在运行的线程因为其它原因而阻塞。

wait是Object类的方法，对此对象调用wait方法导致本线程放弃对象锁，释放当前线程锁定的任何对象。进入等待此对象的等待锁定池，只有针对此对象发出notify方法（或notifyAll）后本线程才进入对象锁定池准备获得对象锁进入运行状态。

sleep()方法是本地方法，属于Thread类，它有两种定义：

public static native void sleep(long millis) throws InterruptedException;

public static void sleep(long millis, int nanos) throws InterruptedException {

    //other code

}

其中的参数millis代表毫秒数（千分之一秒），nanos代表纳秒数（十亿分之一秒）。这两个方法都可以让调用它的线程沉睡（停止运行）指定的时间，到了这个时间，线程就会自动醒来，变为可运行状态（RUNNABLE），但这并不表示它马上就会被运行，因为线程调度机制恢复线程的运行也需要时间。调用sleep()方法并不会让线程释放它所持有的同步锁；而且在这期间它也不会阻碍其它线程的运行。上面的2个方法都声明抛出一个 InterruptedException类型的异常，这是因为线程在sleep()期间，有可能被持有它的引用的其它线程调用它的 interrupt()方法而中断。中断一个线程会导致一个InterruptedException异常的产生，如果你的程序不捕获这个异常，线程就会异常终止，进入TERMINATED状态，如果你的程序捕获了这个异常，那么程序就会继续执行catch语句块（可能还有finally语句块）以及以后的代码。

为了更好地理解interrupt()效果，我们来看一下下面这个例子：

public class InterruptTest {

    public static void main(String[] args) {

        Thread t = new Thread() {

            public void run() {

                try {

                    System.out.println("我被执行了-在sleep()方法前");

                    // 停止运行10分钟

                    Thread.sleep(1000 * 60 * 60 * 10);

                    System.out.println("我被执行了-在sleep()方法后");

                } catch (InterruptedException e) {

                    System.out.println("我被执行了-在catch语句块中");

                }

                System.out.println("我被执行了-在try{}语句块后");

            }

        };

        // 启动线程

        t.start();

        // 在sleep()结束前中断它

        t.interrupt();

    }

}

运行结果：

我被执行了-在sleep()方法前

我被执行了-在catch语句块中

我被执行了-在try{}语句块后

wait()方法也是本地方法，属于Object类，有三个定义：

public final void wait() throws InterruptedException {

    //do something

}

连接数过多会出现：
root@darkstar:~# mysql
ERROR 1040 (00000): Too many connections
你只有选择：
mysqladmin 执行kill 进程：
./mysqladmin -uroot -p processlist
./mysqladmin -uroot -p kill idnum

假如只有一个哥们A进入mysql，后买的人BCD由于已经连接吃紧咋办？
方法如下：
1.
show processlist \G;
粘贴下来后放入文本：mysqlkillid.txt

cat mysqlkillid.txt |grep Id: |awk '{print "kill "$2";"}'
kill 180414;
kill 180433;
kill 180438;
kill 180446;
kill 180454;
kill 180455;
kill 180456;
kill 180457;
kill 180458;
kill 180460;
kill 180461;
kill 180462;

然后粘贴到mysql里面去杀死的同时让其他同事连接mysql，可能某个时候就可以进入了。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/yakihappy/archive/2009/03/11/3979914.aspx

回忆未来，向东，没时间整理：）
最后编辑： root 编辑于2010/03/17 15:40

posted @ 2010-04-12 12:41 小马歌阅读(5613) | 评论 (2) | 编辑收藏

My Links

Blog Stats

留言簿(26)

随笔分类

文章分类

文章档案

博客连接

搜索

最新评论

阅读排行榜

评论排行榜

max_connect_errors

connect_timeout

skip-name-resolve

slave_net_timeout