理解Load Average做好压力测试

SIP的第四期结束了，因为控制策略的丰富，早先的的压力测试结果已经无法反映在高并发和高压力下SIP的运行状况，因此需要重新作压力测试。跟在测试人员后面做了快一周的压力测试，压力测试的报告也正式出炉，本来也就算是告一段落，但第二天测试人员说要修改报告，由于这次作压力测试的同学是第一次作，有一个指标没有注意，因此需要修改几个测试结果。那个没有注意的指标就是load average，他和我一样开始只是注意了CPU，内存的使用状况，而没有太注意这个指标，这个指标与他们通常的限制（10左右）有差别。重新测试的结果由于这个指标被要求压低，最后的报告显然不如原来的好看。自己也没有深入过压力测试，但是觉得不搞明白对将来机器配置和扩容都会有影响，因此去问了DBA和SA，得到的结果相差很大，看来不得不自己去找找问题的根本所在了。

通过下面的几个部分的了解，可以一步一步的找出Load Average在压力测试中真正的作用。

CPU时间片

为了提高程序执行效率，大家在很多应用中都采用了多线程模式，这样可以将原来的序列化执行变为并行执行，任务的分解以及并行执行能够极大地提高程序的运行效率。但这都是代码级别的表现，而硬件是如何支持的呢？那就要靠CPU的时间片模式来说明这一切。程序的任何指令的执行往往都会要竞争CPU这个最宝贵的资源，不论你的程序分成了多少个线程去执行不同的任务，他们都必须排队等待获取这个资源来计算和处理命令。先看看单CPU的情况。下面两图描述了时间片模式和非时间片模式下的线程执行的情况：

图 1 非时间片线程执行情况

图 2 非时间片线程执行情况

在图一中可以看到，任何线程如果都排队等待CPU资源的获取，那么所谓的多线程就没有任何实际意义。图二中的CPU Manager只是我虚拟的一个角色，由它来分配和管理CPU的使用状况，此时多线程将会在运行过程中都有机会得到CPU资源，也真正实现了在单CPU的情况下实现多线程并行处理。

多CPU的情况只是单CPU的扩展，当所有的CPU都满负荷运作的时候，就会对每一个CPU采用时间片的方式来提高效率。

在Linux的内核处理过程中，每一个进程默认会有一个固定的时间片来执行命令（默认为1/100秒），这段时间内进程被分配到CPU，然后独占使用。如果使用完，同时未到时间片的规定时间，那么就主动放弃CPU的占用，如果到时间片尚未完成工作，那么CPU的使用权也会被收回，进程将会被中断挂起等待下一个时间片。

CPU利用率和Load Average的区别

压力测试不仅需要对业务场景的并发用户等压力参数作模拟，同时也需要在压力测试过程中随时关注机器的性能情况，来确保压力测试的有效性。当服务器长期处于一种超负荷的情况下运行，所能接收的压力并不是我们所认为的可接受的压力。就好比项目经理在给一个人估工作量的时候，每天都让这个人工作12个小时，那么所制定的项目计划就不是一个合理的计划，那个人迟早会垮掉，而影响整体的项目进度。

CPU利用率在过去常常被我们这些外行认为是判断机器是否已经到了满负荷的一个标准，看到50%-60%的使用率就认为机器就已经压到了临界了。CPU利用率，顾名思义就是对于CPU的使用状况，这是对一个时间段内CPU使用状况的统计，通过这个指标可以看出在某一个时间段内CPU被占用的情况，如果被占用时间很高，那么就需要考虑CPU是否已经处于超负荷运作，长期超负荷运作对于机器本身来说是一种损害，因此必须将CPU的利用率控制在一定的比例下，以保证机器的正常运作。

Load Average是CPU的Load，它所包含的信息不是CPU的使用率状况，而是在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息，也就是CPU使用队列的长度的统计信息。为什么要统计这个信息，这个信息的对于压力测试的影响究竟是怎么样的，那就通过一个类比来解释CPU利用率和Load Average的区别以及对于压力测试的指导意义。

我们将CPU就类比为电话亭，每一个进程都是一个需要打电话的人。现在一共有4个电话亭（就好比我们的机器有4核），有10个人需要打电话。现在使用电话的规则是管理员会按照顺序给每一个人轮流分配1分钟的使用电话时间，如果使用者在1分钟内使用完毕，那么可以立刻将电话使用权返还给管理员，如果到了1分钟电话使用者还没有使用完毕，那么需要重新排队，等待再次分配使用。

图 3 电话使用场景

上图中对于使用电话的用户又作了一次分类，1min的代表这些使用者占用电话时间小于等于1min，2min表示使用者占用电话时间小于等于2min，以此类推。根据电话使用规则，1min的用户只需要得到一次分配即可完成通话，而其他两类用户需要排队两次到三次。

电话的利用率 = sum (active use cpu time)/period

每一个分配到电话的使用者使用电话时间的总和去除以统计的时间段。这里需要注意的是是使用电话的时间总和(sum(active use cpu time))，这与占用时间的总和(sum(occupy cpu time))是有区别的。（例如一个用户得到了一分钟的使用权，在10秒钟内打了电话，然后去查询号码本花了20秒钟，再用剩下的30秒打了另一个电话，那么占用了电话1分钟，实际只是使用了40秒）

电话的Average Load体现的是在某一统计时间段内，所有使用电话的人加上等待电话分配的人一个平均统计。

电话利用率的统计能够反映的是电话被使用的情况，当电话长期处于被使用而没有的到足够的时间休息间歇，那么对于电话硬件来说是一种超负荷的运作，需要调整使用频度。而电话Average Load却从另一个角度来展现对于电话使用状态的描述，Average Load越高说明对于电话资源的竞争越激烈，电话资源比较短缺。对于资源的申请和维护其实也是需要很大的成本，所以在这种高Average Load的情况下电话资源的长期“热竞争”也是对于硬件的一种损害。

低利用率的情况下是否会有高Load Average的情况产生呢？理解占有时间和使用时间就可以知道，当分配时间片以后，是否使用完全取决于使用者，因此完全可能出现低利用率高Load Average的情况。由此来看，仅仅从CPU的使用率来判断CPU是否处于一种超负荷的工作状态还是不够的，必须结合Load Average来全局的看CPU的使用情况和申请情况。

所以回过头来再看测试部对于Load Average的要求，在我们机器为8个CPU的情况下，控制在10 Load左右，也就是每一个CPU正在处理一个请求，同时还有2个在等待处理。看了看网上很多人的介绍一般来说Load简单的计算就是2* CPU个数减去1-2左右（这个只是网上看来的，未必是一个标准）。

补充几点：

1．对于CPU利用率和CPU Load Average的结果来判断性能问题。首先低CPU利用率不表明CPU不是瓶颈，竞争CPU的队列长期保持较长也是CPU超负荷的一种表现。对于应用来说可能会去花时间在I/O,Socket等方面，那么可以考虑是否后这些硬件的速度影响了整体的效率。

这里最好的样板范例就是我在测试中发现的一个现象：SIP当前在处理过程中，为了提高处理效率，将控制策略以及计数信息都放置在Memcached Cache里面，当我将Memcached Cache配置扩容一倍以后，CPU的利用率以及Load都有所下降，其实也就是在处理任务的过程中，等待Socket的返回对于CPU的竞争也产生了影响。

2．未来多CPU编程的重要性。现在服务器的CPU都是多CPU了，我们的服务器处理能力已经不再按照摩尔定律来发展。就我上面提到的电话亭场景来看，对于三种不同时间需求的用户来说，采用不同的分配顺序，我们可看到的Load Average就会有不同。假设我们统计Load的时间段为2分钟，如果将电话分配的顺序按照：1min的用户，2min的用户，3min的用户来分配，那么我们的Load Average将会最低，采用其他顺序将会有不同的结果。所以未来的多CPU编程可以更好的提高CPU的利用率，让程序跑的更快。

以上所提到的内容未必都是很准确或者正确，如果有任何的偏差也请大家指出，可以纠正一些不清楚的概念。

posted on 2008-06-30 17:35 岑文初阅读(37487) 评论(17) 编辑收藏

# re: 理解Load Average做好压力测试 2008-06-30 22:44 yeshucheng

通俗易懂，很不错！
很多场景可能真的要在像阿里这样的公司才能亲身体会深刻回复更多评论

# re: 理解Load Average做好压力测试 2008-10-29 15:32 xiao

很好！
回复更多评论

# re: 理解Load Average做好压力测试 2009-05-15 22:15 鸭嘴

好文章。回复更多评论

# re: 理解Load Average做好压力测试[未登录] 2009-07-09 16:42 Brian

好文好文好文回复更多评论

# re: 理解Load Average做好压力测试 2009-07-27 12:29 吾同树

很好，这次解决一些疑惑了，以前总是不明白CPU 利用率很底可是load average 却一直很高的原因。回复更多评论

# re: 理解Load Average做好压力测试 2010-05-17 15:12 dreamail

对于在I/O和Wait的进程来说，应该不在竞争队列里的。
不过确实好文，学习了。回复更多评论

# re: 理解Load Average做好压力测试 2011-01-06 14:43 sealcomeback

写的不错，很专业回复更多评论

# re: 理解Load Average做好压力测试 2011-05-12 10:31 小丫头

好文章回复更多评论

# re: 理解Load Average做好压力测试 2011-07-01 17:02 f

跟阿里有个P关系啊，2B@yeshucheng
回复更多评论

# re: 理解Load Average做好压力测试 2011-08-16 20:44 淘宝实习生

很好的文章，放翁表达能力确实很强
不过看了后，有两个不是很明白的点，希望解答。
首先，多线程模式并不是在单CPU模式下就提高不了效率了吧？多线程提高性能个人感觉还是很明显的，一是大部分应用都会有较多IO/SOCKET等阻塞，此时多线程可以极大的提高性能，关键看IO和CPU计算的比例。
二是，在cpu load average中，被IO和socket阻塞的线程，此时根据线程、进程切换模型，他们应该是属于阻塞的，不在cpu load 队列范围内吧？
而且，以1min打电话的例子，如果20秒翻电话本（IO），貌似调度进程中，此时会将CPU调度给另外一个进程？
可是，如果有多个任务（多个人在排队打电话，），一有IO就调度（有人翻电话本时，就让另外一个人先打）的话，那么CPU的消耗应该只有调度线程的上下文切换开销（进出电话亭），那么CPU的利用率，应该还是会比较高吧？

回复更多评论

# re: 理解Load Average做好压力测试[未登录] 2011-12-13 08:54 will

请问在Ubuntu下Gnome上有个监视器，其中有内存、CPU、Net、磁盘读写、Swap Space 及 System Load Average. 这里的System Load Average 是指什么呢？它一般在刚启动后值会比较高，是指CPU的等待队列还是系统尚未加载的服务之类的等待队列呢？感觉有点像就是指CPU Load Average, 不知是不是这样？回复更多评论

# re: 理解Load Average做好压力测试 2012-09-04 07:21 froth

请问一下，load average中指cpu，还是指核心数？回复更多评论

# re: 理解Load Average做好压力测试 2013-03-29 09:20 测试

一头雾水，想看懂费劲回复更多评论

# re: 理解Load Average做好压力测试[未登录] 2013-09-06 10:16 leo

@淘宝实习生，对于第一个问题，放翁是站在cpu的角度来讲的，意思就是说，在单个cpu情况下，管你多少个线程，只能串行化，一个一个来。站在业务的角度，多线程肯定是有必要的。
对于第二个问题，你只说明了在某种特点的情况下，不足以表征整个问题。例如，cpu给我了时间片，我没有执行任务，也是sleep掉，那么有可能其他线程也还是执行不了回复更多评论

# re: 理解Load Average做好压力测试 2013-12-10 11:45 simia

好像有些懂了,谢谢回复更多评论

# re: 理解Load Average做好压力测试 2014-11-17 17:40 Tomato

“一有IO就调度（有人翻电话本时，就让另外一个人先打）的话，“我认为不会有这种情况发生，CPU在某个时间片内处理数据的话，会先把数据加载到内存的@淘宝实习生回复更多评论

# re: 理解Load Average做好压力测试 2015-08-18 18:10 show

怎么看cpu的使用率和占用率回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

放翁（文初）的一亩三分地

常用链接

留言簿(34)

随笔档案

淘宝同学的blog

搜索

最新评论

阅读排行榜

评论排行榜

评论