Oracle数据库日常维护手册

在Oracle数据库运行期间，DBA应该对数据库的运行日志及表空间的使用情况进行监控，及早发现数据库中存在的问题。

一、Oracle警告日志文件监控

Oracle在运行过程中，会在警告日志文件(alert_SID.log)中记录数据库的一些运行情况:

●数据库的启动、关闭，启动时的非缺省参数;

●数据库的重做日志切换情况，记录每次切换的时间，及如果因为检查点(checkpoint)操作没有执行完成造成不能切换，会记录不能切换的原因;

●对数据库进行的某些操作，如创建或删除表空间、增加数据文件;

●数据库发生的错误，如表空间不够、出现坏块、数据库内部错误(ORA-600)

DBA应该定期检查日志文件，根据日志中发现的问题及时进行处理

问题处理

启动参数不对检查初始化参数文件

因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况，可以考虑增加重做日志文件组;想办法提高检查点或归档操作的效率;

有人未经授权删除了表空间检查数据库的安全问题，是否密码太简单;如有必要，撤消某些用户的系统权限

出现坏块检查是否是硬件问题(如磁盘本生有坏块)，如果不是，检查是那个数据库对象出现了坏块，对这个对象进行重建

表空间不够增加数据文件到相应的表空间

出现ORA-600根据日志文件的内容查看相应的TRC文件，如果是Oracle的bug，要及时打上相应的补丁

二、数据库表空间使用情况监控(字典管理表空间)

数据库运行了一段时间后，由于不断的在表空间上创建和删除对象，会在表空间上产生大量的碎片，DBA应该及时了解表空间的碎片和可用空间情况，以决定是否要对碎片进行整理或为表空间增加数据文件。

select tablespace_name,
count(*) chunks ,
max(bytes/1024/1024) max_chunk
from dba_free_space
group by tablespace_name;

上面的SQL列出了数据库中每个表空间的空闲块情况

其中，CHUNKS列表示表空间中有多少可用的空闲块(每个空闲块是由一些连续的Oracle数据块组成)，如果这样的空闲块过多，比如平均到每个数据文件上超过了100个，那么该表空间的碎片状况就比较严重了，可以尝试用以下的SQL命令进行表空间相邻碎片的接合:

alter tablespace 表空间名 coalesce;

对表空间的扩充对表空间的数据文件大小进行扩展，或向表空间增加数据文件，例如：

alter database datafile ‘filename’ resize 2g;

alter tablespace add datafile ‘filename’ size 2g;

三、查看数据库的连接情况

DBA要定时对数据库的连接情况进行检查，看与数据库建立的会话数目是不是正常，如果建立了过多的连接，会消耗数据库的资源。同时，对一些“挂死”的连接，可能会需要DBA手工进行清理。

以下的SQL语句列出当前数据库建立的会话情况:

select sid,serial#,username,program,machine,status
from v$session;

如果DBA要手工断开某个会话，则执行:

alter system kill session 'SID,SERIAL#';

四、备份

控制文件的备份：

在数据库结构发生变化时，如增加了表空间，增加了数据文件或重做日志文件这些操作，都会造成Oracle数据库控制文件的变化，DBA应及进行控制文件的备份，备份方法是:

执行SQL语句:

alter database
backup controlfile to '/home/backup/control.bak';
或:

alter database
backup controlfile to trace;
这样，会在USER_DUMP_DEST(初始化参数文件中指定)目录下生成创建控制文件的SQL命令。

数据逻辑备份：

导出：exp wd/******* file=***.dmp owner=wd

导入：imp wd/******* file=***.dmp fromuser=wd touser=wd

五、检查数据库文件的状态

DBA要及时查看数据库中数据文件的状态(如被误删除)，根据实际情况决定如何进行处理，检查数据文件的状态的SQL如下:

select file_name,status
from dba_data_files;

如果数据文件的STATUS列不是AVAILABLE，那么就要采取相应的措施，如对该数据文件进行恢复操作，或重建该数据文件所在的表空间。

六、检查数据库定时作业的完成情况

如果数据库使用了Oracle的JOB来完成一些定时作业，要对这些JOB的运行情况进行检查:

select job,log_user,last_date,failures
from dba_jobs;

如果FAILURES列是一个大于0的数的话，说明JOB运行失败，要进一步的检查。

七、数据库坏块的处理

当Oracle数据库出现坏块时，Oracle会在警告日志文件(alert_SID.log)中记录坏块的信息:

ORA-01578: ORACLE data block corrupted (file # 7, block # )

ORA-01110: data file : '/oracle1/oradata/V920/oradata/V816/users01.dbf'

其中，代表坏块所在数据文件的绝对文件号，代表坏块是数据文件上的第几个数据块

出现这种情况时，应该首先检查是否是硬件及操作系统上的故障导致Oracle数据库出现坏块。在排除了数据库以外的原因后，再对发生坏块的数据库对象进行处理。

1.确定发生坏块的数据库对象

SELECT tablespace_name,
segment_type,
owner,
segment_name
FROM dba_extents
WHERE file_id =
AND
between block_id AND block_id+blocks-1;

2.决定修复方法

如果发生坏块的对象是一个索引，那么可以直接把索引DROP掉后，再根据表里的记录进行重建;

如果发生坏块的表的记录可以根据其它表的记录生成的话，那么可以直接把这个表DROP掉后重建;

如果有数据库的备份，则恢复数据库的方法来进行修复;

如果表里的记录没有其它办法恢复，那么坏块上的记录就丢失了，只能把表中其它数据块上的记录取出来，然后对这个表进行重建。

3.用Oracle提供的DBMS_REPAIR包标记出坏块

exec DBMS_REPAIR.SKIP_CORRUPT_BLOCKS(' ','');

4.使用Create table as select命令将表中其它块上的记录保存到另一张表上

create table corrupt_table_bak
as
select * from corrupt_table;

5.用DROP TABLE命令删除有坏块的表

drop table corrup_tatble;

6.用alter table rename命令恢复原来的表

alter table corrupt_table_bak
rename to corrupt_table;

7.如果表上存在索引，则要重建表上的索引

八、操作系统相关维护

DBA要注意对操作系统的监控:

●文件系统的空间使用情况(df -k)，必要时对Oracle的警告日志及TRC文件进行清理

●如果Oracle提供网络服务，检查网络连接是否正常

●检查操作系统的资源使用情况是否正常

●检查数据库服务器有没有硬件故障，如磁盘、内存报错

九、数据库背景知识

配置文件

spfile，位于$ORACLE_HOME/dbs/spfile.ora,是一个二进制文件，不能直接编辑，Oracle9i之后默认使用spfile。可以通过alter system set ×××=×××;来修改参数，大部分参数修改后不用重启数据库。可以通过执行show parameter spfile来查看是否使用了spfile，如果执行结果为空，则数据库没有使用spfile。执行create spfile from pfile; 然后重启数据库就启用了spfile。

pfile，位于$ORACLE_HOME/dbs/init.ora，是一个ASCII文件可以编辑，修改参数后需要重启数据库。

tnsnames.ora, 位于$ORACLE_HOME/network/admin/tnsnames.ora, 记录了服务明的信息。

listener.ora, 位于$ORACLE_HOME/network/admin/listener.ora，记录了listener的信息。

日志文件

alert, 位于$ORACLE_BASE/admin/$ORACLE_SID/bdump/alert<$ORACLE_SID>.log, Oracle的报警日志，如数据库出错可以在此文件中查看。

redo, 位于$ORACLE_BASE/oradata/redo××.log，Orale重做日志。

启动/停止ORACLE：

以sysdba权限登陆sqlplus，

停止：shutdown immediate

启动：startup