[分享]个人总结-理解和使用aix的日志系统
通常我们在进行服务器的健康性检查,和在出现问题的时候都会去考虑查看系统的日志。 <br>我在学习aix的过程中发现,aix的日志跟solaris或linux的日志存储和查看的方式有着相当大的区别,为了使自己对aix的日志认识的更系统就总结了一下。 <br>
相当一部分是参考的 于宁斌《AIX 5L系统管理技术》 <br>
<br>
1.一旦系统的某个功能模块检测到一个错误或定义的需要记录日志的事件,则记录到/dev/error设备,把它保存在NVRAM中,这样可以保证即使在系统崩溃的情况下也不会丢失最新的错误日志。 <br>
2.同时,错误日志进程errdemon从/dev/error文件中读取错误日志,然后根据错误模版库(/var/adm/ras/errtmpit)和错误消息库(/usr/lib/nls/msg/$LANGcodepoint.cat) 对其进行处理后写入系统的错误日志/var/adm/ras/errlog中。 <br>
错误日志进程由/usr/lib/errdemon命令启动,/usr/lib/errstop停止,默认是启动的。 <br>
以上并不是重点,了解过程而已 <br>
<br>
<br>
errdemon进程: <br>
从/dev/error逻辑设备文件中读取纪录,然后在系统错误日志中创建错误日志纪录,显然这才是重点。 <br>
Errdemon的配置: <br>
/usr/lib/errdemon 命令可以启动errdemon进程,同样我们也可以通过使用参数来修改我们的errdemon,显然如果我们不是太了解还是系统初始的配置更适合我们! <br>
例如: <br>
/usr/lib/errdemon –s 20000 设定我们的日志文件大小为20000bytes <br>
最可能用到的可能就是-l参数了 <br>
/usr/lib/errdemon –l <br>
# /usr/lib/errdemon -l <br>
Error Log Attributes <br>
-------------------------------------------- <br>
Log File /var/adm/ras/errlog <br>
Log Size 1048576 bytes <br>
Memory Buffer Size 16384 bytes <br>
Duplicate Removal true <br>
Duplicate Interval 100 milliseconds <br>
Duplicate Error Maximum 1000 <br>
上面显示我的错误日志文件是/var/adm/ras/errlog,这也是系统默认的错误日志的存放位置。 <br>
具体其他的参数可以参看man 手册。 <br>
<br>
<br>
<br>
<br>
查看错误日志:errpt命令 <br>
用more或者其他文本的查看命令来打开errlog文件我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令。 <br>
使用errpt命令查看日志,可能根据使用的参数来确定输出什么样的日志,甚至排序的方式,这是使用纯文本的日志不能做到的,或者说不能轻易做到的。 <br>
下面我们来看errpt命令的使用。 <br>
<br>
# errpt <br>
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION <br>
9DBCFDEE 0109034400 T O errdemon ERROR LOGGING TURNED ON <br>
192AC071 0109034300 T O errdemon ERROR LOGGING TURNED OFF <br>
C092AFE4 0109033500 I O ctcasd ctcasd Daemon Started <br>
A6DF45AA 0109033500 I O RMCdaemon The daemon is started. <br>
9DBCFDEE 0109033400 T O errdemon ERROR LOGGING TURNED ON <br>
192AC071 0106130900 T O errdemon ERROR LOGGING TURNED OFF <br>
369D049B 0106082400 I O SYSPFS UNABLE TO ALLOCATE SPACE IN FILE SYSTE <br>
这里的输出分为六列依次为: <br>
1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。 <br>
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。 <br>
3.类型TYPE:错误的类型,或者说严重的程度。 <br>
分为6个: <br>
PEND 设备或功能组件可能丢失 简写P <br>
PERF 性能严重下降 P <br>
PERM 硬件设备或软件模块损坏,确诊了的 P <br>
TEMP 临时性错误,经过重试后已经恢复正常 T <br>
INFO 一般消息,不是错误 I <br>
UNKN 不能确定错误的严重性 U <br>
4.种类CLASS c:指出错误源 <br>
H 硬件或介质故障 <br>
S 软件故障 <br>
O 人为错误 <br>
U 不能确定 <br>
5. 资源名RESOURCE_NAME <br>
最初检测到错误的资源名软件或者硬件,并不代表这个资源有问题,而只是最先在它发现的。 <br>
6.描述 <br>
<br>
显示详细的日志信息 <br>
# errpt -a|more <br>
Standard input <br>
--------------------------------------------------------------------------- <br>
Standard input <br>
LABEL: ERRLOG_ON <br>
IDENTIFIER: 9DBCFDEE <br>
Date/Time: Sun Jan 9 03:44:04 BEIS <br>
Sequence Number: 309 <br>
Machine Id: 004250B94C00 <br>
Node Id: ibm-5L <br>
Class: O <br>
Type: TEMP <br>
Resource Name: errdemon <br>
Description <br>
ERROR LOGGING TURNED ON <br>
Probable Causes <br>
ERRDEMON STARTED AUTOMATICALLY <br>
User Causes <br>
/USR/LIB/ERRDEMON COMMAND <br>Recommended Actions <br>NONE <br>
<br>
<br>
其它 <br>
指定日志文件 –I可以用来查看一个非errdemon指定位置的日志文件,例如某个日志文件备份。 <br>
-t 参数,只显示-t参数指定的错误类型TYPE。 <br>
-s 显示指定时间之后的日志文件. <br>
-d 指定种类CLASS. <br>
详细的参数只能看man 手册了 <br>
<br>
# errpt -a -j 74533D1A <br>
# errpt -s 0108100100 <br>
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION <br>
9DBCFDEE 0109034400 T O errdemon ERROR LOGGING TURNED ON <br>
192AC071 0109034300 T O errdemon ERROR LOGGING TURNED OFF <br>
C092AFE4 0109033500 I O ctcasd ctcasd Daemon Started <br>
A6DF45AA 0109033500 I O RMCdaemon The daemon is started. <br>
9DBCFDEE 0109033400 T O errdemon ERROR LOGGING TURNED ON <br>
<br>
<br>
<br>
<br>
<br>
日志的清理 <br>
errclear命令可以用来清理错误日志 <br>
并且默认情况下cron会每天清理错误日志 <br>
# crontab -l <br>
0 11 * * * /usr/bin/errclear -d S,O 30 <br>
0 12 * * * /usr/bin/errclear -d H 90 <br>
0 15 * * * /usr/lib/ras/dumpcheck >/dev/null 2>&1 <br>
显然,找上面的例子,S,O 类的错误会保留30天,而H的错误会保留90天 <br>
errclear 0 删除多有记录 <br>
errclear 7 删除7天以前的记录 <br>
smit errclear <br>
<br>
<br>
<br>
<br>
<br>
<br>
syslogd <br>
unix普遍用到的日志系统,配置文件/etc/syslog.conf <br>
没有什么多说的,比较普遍,定义的话是修改syslog.conf,保存的日志为文本格式 <br>
syslog.conf配置文件格式 <br>
信息类别.错误等级 记录的位置 <br>
<br>
其中,各项的含义 <br>
信息类别 <br>
auth used by authorization systems (login) <br>
cron used for the cron and at systems <br>
daemon system/netword daemon <br>
kern produced by kernel messages <br>
lpr printing system <br>
mail mail system <br>
mark internally used for time stamps <br>
news reserved for the news system <br>
user default facility, used for any program <br>
uucp reserved for the uucp system <br>
<br>
错误等级 <br>
debug normally used for debugging <br>
info informational messages <br>
notice conditions that may require attention <br>
Warning any warnings <br>
err any errors <br>
crit critical conditions like hardware problems <br>
Alert any condition that demand immediate attention <br>
emerg any emergency condition <br>
none Do not send messages from the indicated f <br>
acility to the selected file. <br>
<br>
记录的位置 <br>
可以是本地的文件(包括设备文件如/dev/console)或远程syslog日志服务器。 <br>
<br>
假如我要记录cron的所有错误信息,则可以在/etc/syslog.conf加入下面一行 <br>
cron.err /var/cronerr.log <br>
定义记录cron的err信息到/var/cronerr.log文件 <br>
<br>
具体syslog的具体配置,网上遍地都是。<br>
页:
[1]