新接手一个双节点rac后,日常维护时要注意的地方

标签: 节点 rac 日常 | 发表时间:2014-08-25 17:17 | 作者:Appleses
出处:http://www.iteye.com
在Oracle数据库运行期间,DBA应该对数据库的运行日志及表空间的使用情况进行监控,及早发现数据库中存在的问题。
一、Oracle警告日志文件监控
Oracle在运行过程中,会在警告日志文件(alert_SID.log)中记录数据库的一些运行情况:
●数据库的启动、关闭,启动时的非缺省参数;
●数据库的重做日志切换情况,记录每次切换的时间,及如果因为检查点(checkpoint)操作没有执行完成造成不能切换,会记录不能
切换的原因;
●对数据库进行的某些操作,如创建或删除表空间、增加数据文件;
●数据库发生的错误,如表空间不够、出现坏块、数据库内部错误(ORA-600)
DBA应该定期检查日志文件,根据日志中发现的问题及时进行处理
问题处理
启动参数不对检查初始化参数文件
因为检查点操作或归档操作没有完成造成重做日志不能切换如果经常发生这样的情况,可以考虑增加重做日志文件组;想办法提高检
查点或归档操作的效率;
有人未经授权删除了表空间检查数据库的安全问题,是否密码太简单;如有必要,撤消某些用户的系统权限
出现坏块检查是否是硬件问题(如磁盘本生有坏块),如果不是,检查是那个数据库对象出现了坏块,对这个对象进行重建
表空间不够增加数据文件到相应的表空间
出现ORA-600根据日志文件的内容查看相应的TRC文件,如果是Oracle的bug,要及时打上相应的补丁
二、数据库表空间使用情况监控(字典管理表空间)
数据库运行了一段时间后,由于不断的在表空间上创建和删除对象,会在表空间上产生大量的碎片,DBA应该及时了解表空间的碎片
和可用空间情况,以决定是否要对碎片进行整理或为表空间增加数据文件。
select tablespace_name,
count(*) chunks ,
max(bytes/1024/1024) max_chunk
from dba_free_space
group by tablespace_name;
上面的SQL列出了数据库中每个表空间的空闲块情况,如下所示:
TABLESPACE_NAME CHUNKS MAX_CHUNK
-------------------- ---------- ----------
INDX 1 57.9921875
RBS 3 490.992188
RMAN_TS 1 16.515625
SYSTEM 1 207.296875
TEMP 20 70.8046875
TOOLS 1 11.8359375
USERS 67 71.3671875
其中,CHUNKS列表示表空间中有多少可用的空闲块(每个空闲块是由一些连续的Oracle数据块组成),如果这样的空闲块过多,比如平
均到每个数据文件上超过了100个,那么该表空间的碎片状况就比较严重了,可以尝试用以下的SQL命令进行表空间相邻碎片的接合:
alter tablespace 表空间名 coalesce;
然后再执行查看表空间碎片的SQL语句,看表空间的碎片有没有减少。如果没有效果,并且表空间的碎片已经严重影响到了数据库的
运行,则考虑对该表空间进行重建。
MAX_CHUNK列的结果是表空间上最大的可用块大小,如果该表空间上的对象所需分配的空间(NEXT值)大于可用块的大小的话,就会提
示ORA-1652、ORA-1653、ORA-1654的错误信息,DBA应该及时对表空间的空间进行扩充,以避免这些错误发生。
对表空间的扩充对表空间的数据文件大小进行扩展,或向表空间增加数据文件,具体操作见“存储管理”部份。
三、查看数据库的连接情况
DBA要定时对数据库的连接情况进行检查,看与数据库建立的会话数目是不是正常,如果建立了过多的连接,会消耗数据库的资源。
同时,对一些“挂死”的连接,可能会需要DBA手工进行清理。
以下的SQL语句列出当前数据库建立的会话情况:
select sid,serial#,username,program,machine,status
from v$session;
输出结果为:
SID SERIAL# USERNAME PROGRAM MACHINE STATUS
---- ------- ---------- ----------- --------------- --------
1 1 ORACLE.EXE WORK3 ACTIVE
2 1 ORACLE.EXE WORK3 ACTIVE
3 1 ORACLE.EXE WORK3 ACTIVE
4 1 ORACLE.EXE WORK3 ACTIVE
5 3 ORACLE.EXE WORK3 ACTIVE
6 1 ORACLE.EXE WORK3 ACTIVE
7 1 ORACLE.EXE WORK3 ACTIVE
8 27 SYS SQLPLUS.EXE WORKGROUP\WORK3 ACTIVE
11 5 DBSNMP dbsnmp.exe WORKGROUP\WORK3 INACTIVE
其中,
SID 会话(session)的ID号;
SERIAL# 会话的序列号,和SID一起用来唯一标识一个会话;
USERNAME 建立该会话的用户名;
PROGRAM 这个会话是用什么工具连接到数据库的;
STATUS 当前这个会话的状态,ACTIVE表示会话正在执行某些任务,INACTIVE表示当前会话没有执行任何操作;
如果DBA要手工断开某个会话,则执行:
alter system kill session 'SID,SERIAL#';
注意,上例中SID为1到7(USERNAME列为空)的会话,是Oracle的后台进程,不要对这些会话进行任何操作。
四、控制文件的备份
在数据库结构发生变化时,如增加了表空间,增加了数据文件或重做日志文件这些操作,都会造成Oracle数据库控制文件的变化,
DBA应及进行控制文件的备份,备份方法是:
执行SQL语句:
alter database
backup controlfile to '/home/backup/control.bak';
或:
alter database
backup controlfile to trace;
这样,会在USER_DUMP_DEST(初始化参数文件中指定)目录下生成创建控制文件的SQL命令。
五、检查数据库文件的状态
DBA要及时查看数据库中数据文件的状态(如被误删除),根据实际情况决定如何进行处理,检查数据文件的状态的SQL如下:
select file_name,status
from dba_data_files;
如果数据文件的STATUS列不是AVAILABLE,那么就要采取相应的措施,如对该数据文件进行恢复操作,或重建该数据文件所在的表空
间。
六、检查数据库定时作业的完成情况
如果数据库使用了Oracle的JOB来完成一些定时作业,要对这些JOB的运行情况进行检查:
select job,log_user,last_date,failures
from dba_jobs;
如果FAILURES列是一个大于0的数的话,说明JOB运行失败,要进一步的检查。
七、数据库坏块的处理
当Oracle数据库出现坏块时,Oracle会在警告日志文件(alert_SID.log)中记录坏块的信息:
ORA-01578: ORACLE data block corrupted (file # 7, block #)
ORA-01110: data file: '/oracle1/oradata/V920/oradata/V816/users01.dbf'
其中,代表坏块所在数据文件的绝对文件号,代表坏块是数据文件上的第几个数据块
出现这种情况时,应该首先检查是否是硬件及操作系统上的故障导致Oracle数据库出现坏块。在排除了数据库以外的原因后,再对发
生坏块的数据库对象进行处理。
1.确定发生坏块的数据库对象
SELECT tablespace_name,
segment_type,
owner,
segment_name
FROM dba_extents
WHERE file_id =
AND
between block_id AND block_id+blocks-1;
2.决定修复方法
如果发生坏块的对象是一个索引,那么可以直接把索引DROP掉后,再根据表里的记录进行重建;
如果发生坏块的表的记录可以根据其它表的记录生成的话,那么可以直接把这个表DROP掉后重建;
如果有数据库的备份,则恢复数据库的方法来进行修复;
如果表里的记录没有其它办法恢复,那么坏块上的记录就丢失了,只能把表中其它数据块上的记录取出来,然后对这个表进行重建。
3.用Oracle提供的DBMS_REPAIR包标记出坏块
exec DBMS_REPAIR.SKIP_CORRUPT_BLOCKS('','');
4.使用Create table as select命令将表中其它块上的记录保存到另一张表上
create table corrupt_table_bak
as
select * from corrupt_table;
5.用DROP TABLE命令删除有坏块的表
drop table corrup_tatble;
6.用alter table rename命令恢复原来的表
alter table corrupt_table_bak
rename to corrupt_table;
7.如果表上存在索引,则要重建表上的索引
八、操作系统相关维护
DBA要注意对操作系统的监控:
●文件系统的空间使用情况(df -k),必要时对Oracle的警告日志及TRC文件进行清理
●如果Oracle提供网络服务,检查网络连接是否正常
●检查操作系统的资源使用情况是否正常
●检查数据库服务器有没有硬件故障,如磁盘、内存报错
常用命令
crs
最常用命令:
crs_stat –t          以缩略形式查看crs状态
crs_start –all        启动crs所有资源
crs_stop –all        停止crs所有资源
        crsctl start resources  启动crs所有资源(比crs_start层次深)
        crsctl stop resources  停止crs所有资源(比crs_start层次深)
        crsctl start crs       启动crs
        crsctl start crs       停止crs
查看当前数据库状态
select instance_number, instance_name ,host_name, version, status from v$instance;
查看表空间使用情况
select a.tablespace_name,nvl(sum(a.bytes),0)/1024/1024 total_space,
nvl(sum(b.bytes),0)/1024/1024 free_space
from dba_data_files a,dba_free_space b
where a.tablespace_name=b.tablespace_name
group by a.tablespace_name;
每天维护工作
1.检查crs状态
  命令使用示例: 主机名:db1/db2  State为online为正常
# /opt/oracle/product/10.2/crs/bin/crs_stat -t
Name           Type           Target    State     Host       
------------------------------------------------------------
ora....SM1.asm application    ONLINE    ONLINE    db1        
ora....B1.lsnr application    ONLINE    ONLINE    db1        
ora.db1.gsd    application    ONLINE    ONLINE    db1        
ora.db1.ons    application    ONLINE    ONLINE    db1        
ora.db1.vip    application    ONLINE    ONLINE    db1        
ora....SM2.asm application    ONLINE    ONLINE    db2        
ora....B2.lsnr application    ONLINE    ONLINE    db2        
ora.db2.gsd    application    ONLINE    ONLINE    db2        
ora.db2.ons    application    ONLINE    ONLINE    db2        
ora.db2.vip    application    ONLINE    ONLINE    db2        
ora.orcl.db    application    ONLINE    ONLINE    db1        
ora....l1.inst application    ONLINE    ONLINE    db1        
ora....l2.inst application    ONLINE    ONLINE    db2       
2.检查数据库状态  sid=orcl1  status为open是正常
   
SQL> select instance_number, instance_name ,host_name, version, status from v$instance;
INSTANCE_NUMBER INSTANCE_NAME    HOST_NAME                                                        VERSION          
STATUS                                                                                                              
                                                                  
--------------- ---------------- ---------------------------------------------------------------- -----------------
------------                                                                                                        
                                                                  
              1 orcl1            db1                                                          10.2.0.1.0        OPEN
                  
3.检查监听程序状态 
$ lsnrctl status
LSNRCTL for IBM/AIX RISC System/6000: Version 10.2.0.3.0 - Production on 27-AUG-2007 11:06:50
Copyright (c) 1991, 2006, Oracle.  All rights reserved.
Connecting to (ADDRESS=(PROTOCOL=tcp)(HOST=)(PORT=1521))
STATUS of the LISTENER
------------------------
Alias                     LISTENER
Version                   TNSLSNR for IBM/AIX RISC System/6000: Version 10.2.0.3.0 - Production
Start Date                15-JUN-2007 16:13:58
Uptime                    72 days 18 hr. 52 min. 52 sec
Trace Level               off
Security                  ON: Local OS Authentication
SNMP                      ON
Listener Parameter File   /opt/oracle/product/10.2/db_1/network/admin/listener.ora
Listener Log File         /opt/oracle/product/10.2/db_1/network/log/listener.log
Listening Endpoints Summary...
  (DESCRIPTION=(ADDRESS=(PROTOCOL=tcp)(HOST=hldzjdb01)(PORT=1521)))
Services Summary...
Service "+ASM" has 1 instance(s).
  Instance "+ASM1", status BLOCKED, has 1 handler(s) for this service...
Service "+ASM_XPT" has 1 instance(s).
  Instance "+ASM1", status BLOCKED, has 1 handler(s) for this service...
Service "hljdb" has 1 instance(s).
  Instance "hljdb1", status READY, has 1 handler(s) for this service...
Service "hljdb1XDB" has 1 instance(s).
  Instance "hljdb1", status READY, has 1 handler(s) for this service...
Service "hljdb_XPT" has 1 instance(s).
  Instance "hljdb1", status READY, has 1 handler(s) for this service...
The command completed successfully
4.检查oracle 警告日志(在ORACLE_BASE/ADMIN/SID/BDUMP/ALTER_SID.LOG)中是否有报错,如果有报错进行检查,并且进行处理
操作以下以orcl1为sid作例)
su – oracle
$ cd $ORACLE_BASE/admin/orcl1/bdump
$ ls al*
alert_db1.log
$ more alert_orcl1.log
然后对显示内容进行查看即可,按空格翻页
5.检查监听日志(在ORACLE_HOME/NETWORK/LOG/)检查是否有报错
操作:
$ cd $ORACLE_HOME/network/log 
$ ls
listener.log            listener_db1.log  sqlnet.log
$ more listener.log
然后对显示内容进行查看即可,按空格翻页
6.数据库运行过程中是否有异常的数据库启动停止
操作以下以orcl1为sid作例)
su – oracle
$ cd $ORACLE_BASE/admin/hljdb/bdump
$ ls al*
alert_orcl1.log
$ more alert_hljdb1.log
查看日志中是否有
ALTER DATABASE OPEN
This instance was first to open
内容显示,确认显示的时间确实是数据库手工启动的时间
查看日志中是否有
Completed: ALTER DATABASE CLOSE NORMAL
内容显示,确认显示的时间是否是数据库手工关闭的时间


转自:http://zhangyafeng0917.blog.163.com/blog/static/44436412201161111363478/

已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [节点 rac 日常] 推荐:

新接手一个双节点rac后,日常维护时要注意的地方

- - Oracle - 数据库 - ITeye博客
在Oracle数据库运行期间,DBA应该对数据库的运行日志及表空间的使用情况进行监控,及早发现数据库中存在的问题. 一、Oracle警告日志文件监控. Oracle在运行过程中,会在警告日志文件(alert_SID.log)中记录数据库的一些运行情况:. ●数据库的启动、关闭,启动时的非缺省参数;.

Oracle RAC Failover 详解

- - CSDN博客数据库推荐文章
Oracle  RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是 Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用,连接到故障节点的用户会被自动转移到健康节点,从用户感受而言, 是感觉不到这种切换.

RAC环境下的sequence详解(原创)

- - ITeye博客
在RAC环境中,序列的Cache问题可能会对性能有着决定性的影响,缺省的序列Cache值为20,这对RAC环境远远不够. 如果存在序列号使用的竞争,就可能在数据库中看到明显的队列等待:. 在RAC情况下,可以将使用频繁的序列Cache值增加到10000,或者更高到50000,这些值在客户的环境中都有采用.

Oracle 双机/RAC/Dataguard的区别

- - 数据库 - ITeye博客
  Data Guard 是Oracle的远程复制技术,它有物理和逻辑之分,但是总的来说,它需要在异地有一套独立的系统,这是两套硬件配置可以不同的系统,但是这两套系统的软件结构保持一致,包括软件的版本,目录存储结构,以及数据的同步(其实也不是实时同步的),这两套系统之间只要网络是通的就可以了,是一种异地容灾的解决方案.

配置oracle10g rac使用过的一些脚本

- - CSDN博客数据库推荐文章
#10.2.0.1修改内核. #hangcheck模块. 作者:u011538954 发表于2014-2-23 17:57:55 原文链接. 阅读:87 评论:0 查看评论.

RAC系统巡检过程详细解释

- - CSDN博客数据库推荐文章
二 模拟两个节点内联网不通,观察RAC会出现什么现象. 本小题会模拟RAC的私有网络不通现象,然后定位故障原因,最后排除故障. 1.首先RAC是一个非常健康的状态. 检查CRS进程状态(CRS  CSS  EVM). 检查OCR磁盘状态,没有问题. 检查vote disk状态. 0.     0    /dev/raw/raw2                      显示2号裸设备为表决磁盘.

因asm sga_target设置不当导致11gr2 rac无法正常启动

- - 惜分飞
2014年第一个故障排查和解决:同事反馈给我说solaris 11.2 两节点rac无法启动,让我帮忙看下. 通过分析是因为sga_target参数设置不合理导致asm无法正常启动. 2014-01-01 00:41:02.016 [ctssd(1483)]CRS-2408:The clock on host zwq-rpt1 has been updated by the Cluster Time Synchronization Service to be synchronous with the mean cluster time.

Js删除节点

- - JavaScript - Web前端 - ITeye博客
 方式一:传this参数调用方法:.  方式二:js方法中通过选择器获取节点:. //此处删除的是a节点 }. 方式三:通过jQuery方式获取节点:(尚未测试,有待测试. 此处a标签传this到js中,js通过this(即a节点)取parent(即p节点). (1)p.remove();可直接删除整个p节点.

Hadoop添加节点datanode

- - 企业架构 - ITeye博客
1.部署hadoop 和普通的datanode一样. 安装jdk,ssh 2.修改host 和普通的datanode一样. 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

Instagram成功的关键节点

- - 互联网日报
[核心提示] 从 2010 年秋天诞生至今的不到两年时间里,Instagram 从创始人最初设想中的类 Foursquare 地理信息分享应用,发展到今天最受欢迎的移动图片分享平台,Android 版的推出必将其推向又一个高潮. 下面是我个人眼中,Instagram 的成功之路上,最重要的关键节点.