gdb

基础：
http://blog.csai.cn/user3/50125/archives/2009/35140.html

多进程：
http://www.ibm.com/developerworks/cn/linux/l-cn-gdbmp/index.html

多线程：
http://www.91linux.com/html/article/program/20070406/1441.html

break [linespec] thread [threadno]
http://www.linuxforum.net/forum/gshowflat.php?Cat=&Board=program&Number=692404&page=0&view=collapsed&sb=5&o=all

posted @ 2009-05-25 13:45 Picasso 阅读(344) | 评论 (0) | 编辑收藏

sonmame - used to provide version backwards-compatibility information.

In Unix operating systems, a soname is a field of data in a shared object file. The soname is a string (typically the filename of the library) which is used as a "logical name" describing the functionality of the object. This is often used to provide version backwards-compatibility information. For instance, if versions 1.0 through 1.9 of the shared library libx provide identical interface, they would all have the same soname, e.g. libx.so.1. If the system only includes version 1.3 of that shared object, libx.so.1.3, the soname field of the shared object tells the system that it can be used to fill the dependency for a binary which was originally compiled using version 1.2.

posted @ 2009-05-05 15:13 Picasso 阅读(366) | 评论 (0) | 编辑收藏

转载：Linux内存管理(上)

摘要: http://blog.csdn.net/kanghua/archive/2007/10/22/1837876.aspx http://blog.csdn.net/kanghua/archive/2007/10/22/1837872.aspx 摘要：本章首先以应用程序开发者的角度审视Linux的进程内存管理，在此基础上逐步深入到内核中讨论系统物理内存管理和内核内存地使用方法。力求从外自内、... 阅读全文

posted @ 2009-03-17 17:21 Picasso 阅读(1028) | 评论 (0) | 编辑收藏

Linux 关于动态链接库以及静态链接库的一些概念

From http://os.rdxx.com/Linux/LinuxRudiment/2008/5/17017197011.shtml

库有动态与静态两种，动态通常用.so为后缀，静态用.a为后缀。例如：libhello.so libhello.a
为了在同一系统中使用不同版本的库，可以在库文件名后加上版本号为后缀,例如： libhello.so.1.0,由于程序连接默认以.so为文件后缀名。所以为了使用这些库，通常使用建立符号连接的方式。
ln -s libhello.so.1.0 libhello.so.1
ln -s libhello.so.1 libhello.so
使用库
当要使用静态的程序库时，连接器会找出程序所需的函数，然后将它们拷贝到执行文件，由于这种拷贝是完整的，所以一旦连接成功，静态程序库也就不再需要了。然而，对动态库而言，就不是这样。动态库会在执行程序内留下一个标记‘指明当程序执行时，首先必须载入这个库。由于动态库节省空间，linux下进行连接的缺省操作是首先连接动态库，也就是说，如果同时存在静态和动态库，不特别指定的话，将与动态库相连接。
现在假设有一个叫hello的程序开发包，它提供一个静态库libhello.a 一个动态库libhello.so,一个头文件hello.h,头文件中提供sayhello()这个函数
/* hello.h */
void sayhello();
另外还有一些说明文档。这一个典型的程序开发包结构
1.与动态库连接
linux默认的就是与动态库连接，下面这段程序testlib.c使用hello库中的sayhello()函数
/*testlib.c*/
#include
#include
int main()
{
sayhello();
return 0;
}
使用如下命令进行编译
$gcc -c testlib.c -o testlib.o
用如下命令连接：
$gcc testlib.o -lhello -o testlib
在连接时要注意，假设libhello.o 和libhello.a都在缺省的库搜索路径下/usr/lib下，如果在其它位置要加上-L参数
与与静态库连接麻烦一些，主要是参数问题。还是上面的例子：
$gcc testlib.o -o testlib -WI,-Bstatic -lhello
注：这个特别的"-WI，-Bstatic"参数，实际上是传给了连接器ld.
指示它与静态库连接，如果系统中只有静态库当然就不需要这个参数了。
如果要和多个库相连接，而每个库的连接方式不一样，比如上面的程序既要和libhello进行静态连接，又要和libbye进行动态连接，其命令应为：
$gcc testlib.o -o testlib -WI,-Bstatic -lhello -WI,-Bdynamic -lbye
3.动态库的路径问题
为了让执行程序顺利找到动态库，有三种方法：
(1)把库拷贝到/usr/lib和/lib目录下。
(2)在LD_LIBRARY_PATH环境变量中加上库所在路径。例如动态库libhello.so在/home/ting/lib目录下，以bash为例，使用命令：
$export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/ting/lib
(3) 修改/etc/ld.so.conf文件，把库所在的路径加到文件末尾，并执行ldconfig刷新。这样，加入的目录下的所有库文件都可见、
4.查看库中的符号
有时候可能需要查看一个库中到底有哪些函数，nm命令可以打印出库中的涉及到的所有符号。库既可以是静态的也可以是动态的。nm列出的符号有很多，常见的有三种，一种是在库中被调用，但并没有在库中定义(表明需要其他库支持)，用U表示；一种是库中定义的函数，用T表示，这是最常见的；另外一种是所谓的“弱态”符号，它们虽然在库中被定义，但是可能被其他库中的同名符号覆盖，用W表示。例如，假设开发者希望知道上央提到的hello库中是否定义了 printf():
$nm libhello.so |grep printf
U printf
U表示符号printf被引用，但是并没有在函数内定义，由此可以推断，要正常使用hello库，必须有其它库支持，再使用ldd命令查看hello依赖于哪些库：
$ldd hello
libc.so.6=>/lib/libc.so.6(0x400la000)
/lib/ld-linux.so.2=>/lib/ld-linux.so.2 (0x40000000)
从上面的结果可以继续查看printf最终在哪里被定义，有兴趣可以go on
生成库
第一步要把源代码编绎成目标代码。以下面的代码为例，生成上面用到的hello库：

/* hello.c */
#include
void sayhello()
{
printf("hello,world\n");
}
用gcc编绎该文件，在编绎时可以使用任何全法的编绎参数，例如-g加入调试代码等：
gcc -c hello.c -o hello.o
1.连接成静态库
连接成静态库使用ar命令，其实ar是archive的意思
$ar cqs libhello.a hello.o
2.连接成动态库
生成动态库用gcc来完成，由于可能存在多个版本，因此通常指定版本号：
$gcc -shared -Wl,-soname,libhello.so.1 -o libhello.so.1.0 hello.o
另外再建立两个符号连接：
$ln -s libhello.so.1.0 libhello.so.1
$ln -s libhello.so.1 libhello.so
这样一个libhello的动态连接库就生成了。最重要的是传gcc -shared 参数使其生成是动态库而不是普通执行程序。
-Wl 表示后面的参数也就是-soname,libhello.so.1直接传给连接器ld进行处理。实际上，每一个库都有一个soname，当连接器发现它正在查找的程序库中有这样一个名称，连接器便会将soname嵌入连结中的二进制文件内，而不是它正在运行的实际文件名，在程序执行期间，程序会查找拥有 soname名字的文件，而不是库的文件名，换句话说，soname是库的区分标志。
这样做的目的主要是允许系统中多个版本的库文件共存，习惯上在命名库文件的时候通常与soname相同
libxxxx.so.major.minor
其中，xxxx是库的名字，major是主版本号，minor 是次版本号

=====================

摘要：动态链接库技术实现和设计程序常用的技术，在Windows和Linux系统中都有动态库的概念，采用动态库可以有效的减少程序大小，节省空间，提高效率，增加程序的可扩展性，便于模块化管理。但不同操作系统的动态库由于格式不同，在需要不同操作系统调用时需要进行动态库程序移植。本文分析和比较了两种操作系统动态库技术，并给出了将Visual C++编制的动态库移植到Linux上的方法和经验。
　　
　　1、引言
　　
　　动态库（Dynamic Link Library abbr，DLL）技术是程序设计中经常采用的技术。其目的减少程序的大小，节省空间，提高效率，具有很高的灵活性。采用动态库技术对于升级软件版本更加容易。与静态库（Static Link Library）不同，动态库里面的函数不是执行程序本身的一部分，而是根据执行需要按需载入，其执行代码可以同时在多个程序中共享。
　　
　　在Windows和Linux操作系统中，都可采用这种方式进行软件设计，但他们的调用方式以及程序编制方式不尽相同。本文首先分析了在这两种操作系统中通常采用的动态库调用方法以及程序编制方式，然后分析比较了这两种方式的不同之处，最后根据实际移植程序经验，介绍了将VC++编制的Windows动态库移植到Linux下的方法。
　　
　　2、动态库技术
　　
　　2.1 Windows动态库技术
　　
　　动态链接库是实现Windows应用程序共享资源、节省内存空间、提高使用效率的一个重要技术手段。常见的动态库包含外部函数和资源，也有一些动态库只包含资源，如Windows字体资源文件，称之为资源动态链接库。通常动态库以.dll，.drv、.fon等作为后缀。相应的windows静态库通常以.lib结尾，Windows自己就将一些主要的系统功能以动态库模块的形式实现。
　　
　　Windows动态库在运行时被系统加载到进程的虚拟空间中，使用从调用进程的虚拟地址空间分配的内存，成为调用进程的一部分。DLL也只能被该进程的线程所访问。DLL的句柄可以被调用进程使用；调用进程的句柄可以被DLL使用。DLL模块中包含各种导出函数，用于向外界提供服务。DLL可以有自己的数据段，但没有自己的堆栈，使用与调用它的应用程序相同的堆栈模式；一个DLL在内存中只有一个实例；DLL实现了代码封装性；DLL的编制与具体的编程语言及编译器无关，可以通过DLL来实现混合语言编程。DLL函数中的代码所创建的任何对象（包括变量）都归调用它的线程或进程所有。
　　
　　根据调用方式的不同，对动态库的调用可分为静态调用方式和动态调用方式。
　　
　　(1)静态调用，也称为隐式调用，由编译系统完成对DLL的加载和应用程序结束时DLL卸载的编码（Windows系统负责对DLL调用次数的计数），调用方式简单，能够满足通常的要求。通常采用的调用方式是把产生动态连接库时产生的.LIB文件加入到应用程序的工程中，想使用DLL中的函数时，只须在源文件中声明一下。 LIB文件包含了每一个DLL导出函数的符号名和可选择的标识号以及DLL文件名，不含有实际的代码。Lib文件包含的信息进入到生成的应用程序中，被调用的DLL文件会在应用程序加载时同时加载在到内存中。
　　
　　(2)动态调用，即显式调用方式，是由编程者用API函数加载和卸载DLL来达到调用DLL的目的，比较复杂，但能更加有效地使用内存，是编制大型应用程序时的重要方式。在Windows系统中，与动态库调用有关的函数包括：
　　
　　①LoadLibrary（或MFC 的AfxLoadLibrary），装载动态库。
　　②GetProcAddress，获取要引入的函数，将符号名或标识号转换为DLL内部地址。
　　③FreeLibrary（或MFC的AfxFreeLibrary），释放动态链接库。
　　
　　在windows中创建动态库也非常方便和简单。在Visual C++中，可以创建不用MFC而直接用C语言写的DLL程序，也可以创建基于MFC类库的DLL程序。每一个DLL必须有一个入口点，在VC++中，DllMain是一个缺省的入口函数。DllMain负责初始化(Initialization)和结束(Termination)工作。动态库输出函数也有两种约定，分别是基于调用约定和名字修饰约定。DLL程序定义的函数分为内部函数和导出函数，动态库导出的函数供其它程序模块调用。通常可以有下面几种方法导出函数：
　　
　　①采用模块定义文件的EXPORT部分指定要输入的函数或者变量。
　　②使用MFC提供的修饰符号_declspec(dllexport)。
　　③以命令行方式，采用/EXPORT命令行输出有关函数。
　　
　　在windows动态库中，有时需要编写模块定义文件(.DEF)，它是用于描述DLL属性的模块语句组成的文本文件。
　　
　　2.2 Linux共享对象技术
　　
　　在Linux操作系统中，采用了很多共享对象技术（Shared Object），虽然它和Windows里的动态库相对应，但它并不称为动态库。相应的共享对象文件以.so作为后缀，为了方便，在本文中，对该概念不进行专门区分。Linux系统的/lib以及标准图形界面的/usr/X11R6/lib等目录里面，就有许多以so结尾的共享对象。同样，在Linux下，也有静态函数库这种调用方式，相应的后缀以.a结束。Linux采用该共享对象技术以方便程序间共享，节省程序占有空间，增加程序的可扩展性和灵活性。Linux还可以通过LD-PRELOAD变量让开发人员可以使用自己的程序库中的模块来替换系统模块。
　　
　　同Windows系统一样，在Linux中创建和使用动态库是比较容易的事情，在编译函数库源程序时加上-shared选项即可，这样所生成的执行程序就是动态链接库。通常这样的程序以so为后缀，在Linux动态库程序设计过程中，通常流程是编写用户的接口文件，通常是.h文件，编写实际的函数文件，以.c或.cpp为后缀，再编写makefile文件。对于较小的动态库程序可以不用如此，但这样设计使程序更加合理。
　　
　　编译生成动态连接库后，进而可以在程序中进行调用。在Linux中，可以采用多种调用方式，同Windows的系统目录(..\system32等)一样，可以将动态库文件拷贝到/lib目录或者在/lib目录里面建立符号连接，以便所有用户使用。下面介绍Linux调用动态库经常使用的函数，但在使用动态库时，源程序必须包含dlfcn.h头文件，该文件定义调用动态链接库的函数的原型。
　　
　　(1)_打开动态链接库：dlopen，函数原型void *dlopen (const char *filename, int flag);
　　dlopen用于打开指定名字(filename)的动态链接库，并返回操作句柄。
　　
　　(2)取函数执行地址：dlsym，函数原型为: void *dlsym(void *handle, char *symbol);
　　dlsym根据动态链接库操作句柄(handle)与符号(symbol)，返回符号对应的函数的执行代码地址。
　　
　　(3)关闭动态链接库：dlclose，函数原型为: int dlclose (void *handle);
　　dlclose用于关闭指定句柄的动态链接库，只有当此动态链接库的使用计数为0时,才会真正被系统卸载。
　　
　　(4)动态库错误函数：dlerror，函数原型为: const char *dlerror(void); 当动态链接库操作函数执行失败时，dlerror可以返回出错信息，返回值为NULL时表示操作函数执行成功。
　　
　　在取到函数执行地址后，就可以在动态库的使用程序里面根据动态库提供的函数接口声明调用动态库里面的函数。在编写调用动态库的程序的makefile文件时，需要加入编译选项-rdynamic和-ldl。
　　
　　除了采用这种方式编写和调用动态库之外，Linux操作系统也提供了一种更为方便的动态库调用方式，也方便了其它程序调用，这种方式与Windows系统的隐式链接类似。其动态库命名方式为“lib*.so.*”。在这个命名方式中，第一个*表示动态链接库的库名，第二个*通常表示该动态库的版本号，也可以没有版本号。在这种调用方式中，需要维护动态链接库的配置文件/etc/ld.so.conf来让动态链接库为系统所使用，通常将动态链接库所在目录名追加到动态链接库配置文件中。如具有X window窗口系统发行版该文件中都具有/usr/X11R6/lib，它指向X window窗口系统的动态链接库所在目录。为了使动态链接库能为系统所共享，还需运行动态链接库的管理命令./sbin/ldconfig。在编译所引用的动态库时，可以在gcc采用 ?l或-L选项或直接引用所需的动态链接库方式进行编译。在Linux里面，可以采用ldd命令来检查程序依赖共享库。
　　
　　3、两种系统动态库比较分析
　　
　　Windows和Linux采用动态链接库技术目的是基本一致的，但由于操作系统的不同，他们在许多方面还是不尽相同，下面从以下几个方面进行阐述。
　　
　　(1)动态库程序编写，在Windows系统下的执行文件格式是PE格式，动态库需要一个DllMain函数作为初始化的人口，通常在导出函数的声明时需要有_declspec(dllexport)关键字。Linux下的gcc编译的执行文件默认是ELF格式，不需要初始化入口，亦不需要到函数做特别声明，编写比较方便。
　　
　　(2)动态库编译，在windows系统下面，有方便的调试编译环境，通常不用自己去编写makefile文件，但在linux下面，需要自己动手去编写makefile文件，因此，必须掌握一定的makefile编写技巧，另外，通常Linux编译规则相对严格。
　　
　　(3)动态库调用方面，Windows和Linux对其下编制的动态库都可以采用显式调用或隐式调用，但具体的调用方式也不尽相同。
　　
　　(4)动态库输出函数查看，在Windows中，有许多工具和软件可以进行查看DLL中所输出的函数，例如命令行方式的dumpbin以及VC++工具中的DEPENDS程序。在Linux系统中通常采用nm来查看输出函数，也可以使用ldd查看程序隐式链接的共享对象文件。
　　
　　(5)对操作系统的依赖，这两种动态库运行依赖于各自的操作系统，不能跨平台使用。因此，对于实现相同功能的动态库，必须为两种不同的操作系统提供不同的动态库版本。
　　
　　4、动态库移植方法
　　
　　如果要编制在两个系统中都能使用的动态链接库，通常会先选择在Windows的VC++提供的调试环境中完成初始的开发，毕

posted @ 2009-01-21 15:56 Picasso 阅读(14923) | 评论 (0) | 编辑收藏

转贴：ORA-01034 ORA-27121 错误

ORA-01034: ORACLE not available
ORA-27121: unable to determine size of shared memory segment
Linux Error: 13: Permission denied

主要是因为oracle安装程序没有给oracle这个可执行程序设置正确的setuid。这样设置一下：

$ cd $ORACLE_HOME/bin
$ chmod 6751 oracle

结果类似这样就行了。

$ ls -l $ORACLE_HOME/bin/oracle
-rwsr-s--x 1 oracle oinstall 23352783 Aug 14 2001 /home/oracle/app/oracle/product/8.1.6/bin/oracle

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

ORA-01034 ORA-27121 13: Permission denied

ORA-01034

ORA-27121

Error: 13: Permission denied

双实例两个实例

日月明王 http://sunmoonking.spaces.live.com

环境

HP-UX jmc080 B.11.11 U 9000/800 1805586595 unlimited-user license

SQL*Plus: Release 9.2.0.1.0 - Production on Mon Oct 16 16:48:45 2006

Connected to:

Oracle9i Enterprise Edition Release 9.2.0.1.0 - 64bit Production

With the Partitioning, OLAP and Oracle Data Mining options

JServer Release 9.2.0.1.0 – Production

装两个数据库db1和db2,分别有两个用户db1user和db2user，分别属于ORADBA1,ORADBA2,共同属于oragroup安装组。装好两个库后出现如下错误

现象

SQL> connect db2user/db2user@db2

ERROR:

ORA-01034: ORACLE not available

ORA-27121: unable to determine size of shared memory segment

HP-UX Error: 13: Permission denied

此时

$ ls -alt $ORACLE_HOME/bin/oracle

Warning! One or more of your selected locales are not available.

Please invoke the commands "locale" and "locale -a" to verify your

selections and the available locales.

Continuing processing using the "C" locale.

-rwsrwsrwx 1 oracle1 oragroup 77765688 Sep 7 16:00 /usr/sap3/oracle/product/920/bin/oracle （原权限是6751）

如果把/usr/sap3/oracle/product/920/bin/oracle的所有者改成oracle2则可以启动DB2，但是DB1却出现同样错误，无法连接。于是判断是某个文件的权限不对。于是一步一步检查。

看谁拥有内存

$ ipcs -a

IPC status from /dev/kmem as of Mon Oct 16 18:05:13 2006

T ID KEY MODE OWNER GROUP CREATOR CGROUP CBYTES QNUM QBYTES LSPID LRPID STIME RTIME CTIME

Message Queues:

q 0 0x3c200731 -Rrw--w--w- root root root root 0 0 65535 0 0 no-entry no-entry 19:46:07

q 1 0x3e200731 --rw-r--r-- root root root root 0 0 264 0 0 no-entry no-entry 19:46:07

T ID KEY MODE OWNER GROUP CREATOR CGROUP NATTCH SEGSZ CPID LPID ATIME DTIME CTIME

Shared Memory:

m 0 0x412007a8 --rw-rw-rw- root root root root 0 348 607 607 19:46:17 19:46:17 19:46:11

m 1 0x4e0c0002 --rw-rw-rw- root root root root 1 61760 607 607 19:46:13 19:46:17 19:46:11

m 2 0x411809a4 --rw-rw-rw- root root root root 1 8192 607 619 19:46:13 19:46:11 19:46:11

m 3 0x30203ebc --rw-rw-rw- root root root root 2 1048576 1282 1302 19:49:19 no-entry 19:48:40

m 17412 0x5e14045d --rw------- root root root root 1 512 1667 1667 19:49:13 no-entry 19:49:13

m 312325 0x7bf2fe68 --rw------- oracle1 users oracle1 users 13 873955328 20914 22016 18:04:49 18:04:49 16:22:30

m 4102 0x36ba48e8 --rw-rw---- oracle2 users oracle2 users 14 706183168 21014 21991 18:03:37 18:03:37 16:26:16

T ID KEY MODE OWNER GROUP CREATOR CGROUP NSEMS OTIME CTIME

Semaphores:

s 0 0x412007a8 --ra-ra-ra- root root root root 1 19:46:17 19:46:11

s 1 0x4e0c0002 --ra-ra-ra- root root root root 2 19:46:13 19:46:11

s 2 0x411809a4 --ra-ra-ra- root root root root 2 no-entry 19:46:11

s 3 0x00446f6e --ra-r--r-- root root root root 1 no-entry 19:46:50

s 4 0x00446f6d --ra-r--r-- root root root root 1 no-entry 19:46:50

s 5 0x01090522 --ra-r--r-- root root root root 1 no-entry 19:47:09

s 6 0x41207339 --ra-ra-ra- root root root root 1 19:48:35 19:48:35

s 7 0x31203ebc --ra-ra-ra- root root root root 1 19:49:19 19:48:40

s 8 0x611804f5 --ra-ra-ra- root root root root 1 19:53:03 19:49:04

s 9 0x731804f5 --ra-ra-ra- root root root root 1 19:59:47 19:49:04

s 10 0x701804f5 --ra-ra-ra- root root root root 1 19:53:43 19:49:04

s 11 0x691804f5 --ra-ra-ra- root root root root 1 19:53:01 19:49:04

s 12 0x751804f5 --ra-ra-ra- root root root root 1 19:49:04 19:49:04

s 13 0x631804f5 --ra-ra-ra- root root root root 1 19:49:04 19:49:04

s 14 0x641804f5 --ra-ra-ra- root root root root 1 19:53:04 19:49:04

s 15 0x661804f5 --ra-ra-ra- root root root root 1 no-entry 19:49:04

s 16 0x6c1804f5 --ra-ra-ra- root root root root 1 19:53:03 19:49:04

s 17 0x6d1804f5 --ra-ra-ra- root root root root 1 19:59:47 19:49:04

s 18 0x6f1804f5 --ra-ra-ra- root root root root 1 no-entry 19:49:04

s 19 0x410c01e0 --ra-ra-ra- root root root root 1 19:49:09 19:49:09

s 20 0x00000001 --ra-ra-ra- root root root root 1 19:49:49 19:49:13

s 21 0x4528e5bf --ra-ra-ra- root root root root 1 no-entry 19:49:19

s 22 0x4528e5c0 --ra-ra-ra- root root root root 1 19:49:19 19:49:19

s 23 0x521804f5 --ra-ra-ra- root root root root 1 19:59:47 19:53:04

s 182624 0xfc6c0898 --ra------- oracle1 users oracle1 users 154 18:05:06 16:22:32

s 49825 0xa01e08b0 --ra-ra---- oracle2 users oracle2 users 154 18:04:44 16:26:17

没看出什么明显问题。

首先设置UMAKS 000

在设置/var/opt/oracle/oratab为

DB1:/usr/sap3/oracle/product/920:Y

DB2:/usr/sap3/oracle/product/920:Y

再

chown -R oracle1:oragroup $ORACLE_BASE

chmod -R 777 $ORACLE_BASE

chmod 6777 $ORACLE_HOME/bin/oracle

posted @ 2009-01-11 14:55 Picasso 阅读(2319) | 评论 (0) | 编辑收藏

转贴：让进程在后台可靠运行的几种方法

让进程在后台可靠运行的几种方法

想让进程在断开连接后依然保持运行？如果该进程已经开始运行了该如何补救？如果有大量这类需求如何简化操作？

我们经常会碰到这样的问题，用 telnet/ssh 登录了远程的 Linux 服务器，运行了一些耗时较长的任务，结果却由于网络的不稳定导致任务中途失败。如何让命令提交后不受本地关闭终端窗口/网络断开连接的干扰呢？下面举了一些例子，您可以针对不同的场景选择不同的方式来处理这个问题。

nohup/setsid/&

场景：

如果只是临时有一个命令需要长时间运行，什么方法能最简便的保证它在后台稳定运行呢？

解决方法：

我们知道，当用户注销（logout）或者网络断开时，终端会收到 HUP（hangup）信号从而关闭其所有子进程。因此，我们的解决办法就有两种途径：要么让进程忽略 HUP 信号，要么让进程运行在新的会话里从而成为不属于此终端的子进程。

1. nohup

nohup 无疑是我们首先想到的办法。顾名思义，nohup 的用途就是让提交的命令忽略 hangup（在 Unix 的早期版本中，每个终端都会通过 modem 和系统通讯。当用户 logout 时，modem 就会挂断（hang up）电话。同理，当 modem 断开连接时，就会给终端发送 hangup 信号来通知其关闭所有子进程。）信号。让我们先来看一下 nohup 的帮助信息
NOHUP(1) User Commands NOHUP(1)

NAME
nohup - run a command immune to hangups, with output to a non-tty

SYNOPSIS
nohup COMMAND [ARG]...
nohup OPTION

DESCRIPTION
Run COMMAND, ignoring hangup signals.

--help display this help and exit

--version
output version information and exit

可见，nohup 的使用是十分方便的，只需在要处理的命令前加上 nohup 即可，标准输出和标准错误缺省会被重定向到 nohup.out 文件中。一般我们可在结尾加上"&"来将命令同时放入后台运行，也可用">filename 2>&1"来更改缺省的重定向文件名。

nohup 示例

   [root@pvcent107 ~]# nohup ping www.ibm.com &
[1] 3059
nohup: appending output to `nohup.out'
[root@pvcent107 ~]# ps -ef |grep 3059
root      3059   984 0 21:06 pts/3    00:00:00 ping www.ibm.com
root      3067   984 0 21:06 pts/3    00:00:00 grep 3059
[root@pvcent107 ~]#

2。setsid

nohup 无疑能通过忽略 HUP 信号来使我们的进程避免中途被中断，但如果我们换个角度思考，如果我们的进程不属于接受 HUP 信号的终端的子进程，那么自然也就不会受到 HUP 信号的影响了。setsid 就能帮助我们做到这一点。让我们先来看一下 setsid 的帮助信息：

SETSID(8) Linux Programmer’s Manual SETSID(8) NAME setsid - run a program in a new session SYNOPSIS setsid program [ arg ... ] DESCRIPTION setsid runs a program in a new session.

可见 setsid 的使用也是非常方便的，也只需在要处理的命令前加上 setsid 即可。

setsid 示例

[root@pvcent107 ~]# setsid ping www.ibm.com
[root@pvcent107 ~]# ps -ef |grep www.ibm.com
root     31094     1 0 07:28 ?        00:00:00 ping www.ibm.com
root     31102 29217 0 07:29 pts/4    00:00:00 grep www.ibm.com
[root@pvcent107 ~]#

值得注意的是，上例中我们的进程 ID(PID)为31094，而它的父 ID（PPID）为1（即为 init 进程 ID），并不是当前终端的进程 ID。请将此例与nohup 例中的父 ID 做比较。

3。&
这里还有一个关于 subshell 的小技巧。我们知道，将一个或多个命名包含在“()”中就能让这些命令在子 shell 中运行中，从而扩展出很多有趣的功能，我们现在要讨论的就是其中之一。

当我们将"&"也放入“()”内之后，我们就会发现所提交的作业并不在作业列表中，也就是说，是无法通过jobs来查看的。让我们来看看为什么这样就能躲过 HUP 信号的影响吧。

subshell 示例

     [root@pvcent107 ~]# (ping www.ibm.com &)
[root@pvcent107 ~]# ps -ef |grep www.ibm.com
root     16270     1 0 14:13 pts/4    00:00:00 ping www.ibm.com
root     16278 15362 0 14:13 pts/4    00:00:00 grep www.ibm.com
[root@pvcent107 ~]#

从上例中可以看出，新提交的进程的父 ID（PPID）为1（init 进程的 PID），并不是当前终端的进程 ID。因此并不属于当前终端的子进程，从而也就不会受到当前终端的 HUP 信号的影响了
screen

场景：

我们已经知道了如何让进程免受 HUP 信号的影响，但是如果有大量这种命令需要在稳定的后台里运行，如何避免对每条命令都做这样的操作呢？

解决方法：

此时最方便的方法就是 screen 了。简单的说，screen 提供了 ANSI/VT100 的终端模拟器，使它能够在一个真实终端下运行多个全屏的伪终端。screen 的参数很多，具有很强大的功能，我们在此仅介绍其常用功能以及简要分析一下为什么使用 screen 能够避免 HUP 信号的影响。我们先看一下 screen 的帮助信息：

SCREEN(1) SCREEN(1)

NAME
screen - screen manager with VT100/ANSI terminal emulation

SYNOPSIS
       screen [ -options ] [ cmd [ args ] ]
       screen -r [[pid.]tty[.host]]
       screen -r sessionowner/[[pid.]tty[.host]]

DESCRIPTION
       Screen is a full-screen window manager that multiplexes a physical
       terminal between several processes (typically interactive shells).
       Each virtual terminal provides the functions of a DEC VT100 terminal
       and, in addition, several control functions from the ISO 6429 (ECMA
       48, ANSI X3.64) and ISO 2022 standards (e.g. insert/delete line and
       support for multiple character sets). There is a scrollback history
       buffer for each virtual terminal and a copy-and-paste mechanism that
       allows moving text regions between windows.

使用 screen 很方便，有以下几个常用选项：

    用screen -dmS session name 来建立一个处于断开模式下的会话（并指定其会话名）。
    用screen -list 来列出所有会话。
    用screen -r session name 来重新连接指定会话。
    用快捷键CTRL-a d 来暂时断开当前会话。

screen 示例

[root@pvcent107 ~]# screen -dmS Urumchi
[root@pvcent107 ~]# screen -list
There is a screen on:
12842.Urumchi (Detached)
1 Socket in /tmp/screens/S-root.

[root@pvcent107 ~]# screen -r Urumchi

当我们用“-r”连接到 screen 会话后，我们就可以在这个伪终端里面为所欲为，再也不用担心 HUP 信号会对我们的进程造成影响，也不用给每个命令前都加上“nohup”或者“setsid”了。这是为什么呢？让我来看一下下面两个例子吧。

1. 未使用 screen 时新进程的进程树

     [root@pvcent107 ~]# ping www.google.com &
[1] 9499
[root@pvcent107 ~]# pstree -H 9499
init─┬─Xvnc
     ├─acpid
     ├─atd
     ├─2*[sendmail]
     ├─sshd─┬─sshd───bash───pstree
     │      └─sshd───bash───ping

我们可以看出，未使用 screen 时我们所处的 bash 是 sshd 的子进程，当 ssh 断开连接时，HUP 信号自然会影响到它下面的所有子进程（包括我们新建立的 ping 进程）。

2. 使用了 screen 后新进程的进程树

     [root@pvcent107 ~]# screen -r Urumchi
[root@pvcent107 ~]# ping www.ibm.com &
[1] 9488
[root@pvcent107 ~]# pstree -H 9488
init─┬─Xvnc
     ├─acpid
     ├─atd
     ├─screen───bash───ping
     ├─2*[sendmail]

而使用了 screen 后就不同了，此时 bash 是 screen 的子进程，而 screen 是 init（PID为1）的子进程。那么当 ssh 断开连接时，HUP 信号自然不会影响到 screen 下面的子进程了。

总结

现在几种方法已经介绍完毕，我们可以根据不同的场景来选择不同的方案。nohup/setsid 无疑是临时需要时最方便的方法，disown 能帮助我们来事后补救当前已经在运行了的作业，而 screen 则是在大批量操作时不二的选择了

posted @ 2009-01-10 13:48 Picasso 阅读(279) | 评论 (0) | 编辑收藏

成长空间

导航

留言簿(3)

随笔分类

文章分类

随笔档案

文章档案

阅读排行榜

评论排行榜

常用链接

统计

积分与排名

Automation Testing Development

最新评论

gdb

sonmame - used to provide version backwards-compatibility information.

转载：Linux内存管理(上)

Linux 关于动态链接库以及静态链接库的一些概念

转贴：ORA-01034 ORA-27121 错误

ORA-01034 ORA-27121 13: Permission denied

ORA-01034

ORA-27121

Error: 13: Permission denied

双实例两个实例

转贴：让进程在后台可靠运行的几种方法

让进程在后台可靠运行的几种方法

成长空间

导航

留言簿(3)

随笔分类

文章分类

随笔档案

文章档案

阅读排行榜

评论排行榜

常用链接

统计

积分与排名

Automation Testing Development

最新评论

gdb

sonmame - used to provide version backwards-compatibility information.

转载：Linux内存管理(上)

Linux 关于动态链接库以及静态链接库的一些概念

转贴：ORA-01034 ORA-27121 错误

ORA-01034 ORA-27121 13: Permission denied

ORA-01034

ORA-27121

Error: 13: Permission denied

双实例 两个实例

转贴： 让进程在后台可靠运行的几种方法

让进程在后台可靠运行的几种方法

双实例两个实例

转贴：让进程在后台可靠运行的几种方法