SUSE Linux HA双机搭建

标签: suse linux ha | 发表时间:2013-05-02 22:39 | 作者:laven54
出处:http://blog.csdn.net

 

项目背景:

原来的数据库服务器运行在HP DL388G7服务器上面,内存32G,由于业务增长,内存吃紧,加上时不时出现服务器硬件故障,由于是单实例单服务器,存在单点发现,于是打算采取一些措施改善一下:

1)升级服务器内存

2)并搭建服务器操作系统级别的双机

3)迁移数据库数据到新服务器

 

前面已经写过数据迁移相关的文章,题目为“ EXP/IMP迁移数据”,链接如下: http://blog.csdn.net/laven54/article/details/8877940

前面已经写过升级服务器内存相关的文章,题目为“ 数据库服务器升级内存需要考虑的问题”,链接如下: http://blog.csdn.net/laven54/article/details/8738698

——————————————————————————————————————————

 

一、准备工作

1 服务器网络规划

l  主机至少有两个网卡可用;(一个网卡用作心跳网卡);

l  将两主机用网线直接连接(注意主备机服务器的位置需要靠近才可以),另一块网卡连接交换机;

l  3个ip地址,2个主机地址1个浮动IP,均在一个网段内

2 安装操作系统,准备好root账户密码

l  将服务器安装好操作系统,最好是全新安装的系统,需要具备图形化界面

l  准备好root账户密码

3 连接存储

l  将两台主机与存储连接,并保证两台主机能正确识别到存储上的硬盘。

l  保证应用相关的需要切换的资源目录均在存储上

4 准备HA软件光盘

购买suselinux enterprise high availability软件的授权并获得sleha软件,以及系统安装盘

5其他双机配置信息准备

服务器型号:

服务器配置:

操作系统及版本:

存储型号:

服务器应用:

安装服务器的语言:

对操作系统的分区要求:

浮动IP地址:

 

主备机信息表:

主机1:

主机名

 

心跳IP

192.168.200.10

服务器IP

 

业务类型

 

共享磁盘

 

挂载点

 

服务启动及停止方法

 

主机2:

主机名

 

心跳IP

192.168.200.20

服务器IP

 

业务类型

 

共享磁盘

 

挂载点

 

服务启动及停止方法

 

 

二、操作前核实内容

1、停止应用

2、检查文档是否具备:

1)双机配置操作文档

2)双机准备工作文档

3)主备机ILO信息

3、心跳线连接

1)连接心跳线,并记录是网卡位置

4、主备机连接存储,核实一下

合适存储端的WWN号码与主机操作系统上查到的是否一致:

callcenter-1:~ # cd /sys/class/fc_host/

callcenter-1:/sys/class/fc_host # pwd

/sys/class/fc_host

callcenter-1:/sys/class/fc_host # ls

host3  host4

callcenter-1:/sys/class/fc_host # more host3/port_name

0x500143800631c422

callcenter-1:/sys/class/fc_host # more host4/port_name

0x500143800631ca1a

三、操作系统层面

1.hosts文件,同步

包括主备机配置IP地址等,统一host文件 

/etc/HOSTNAME文件也要和当前hostname一致。

注意,要先连接心跳线,先配置心跳IP,在进行hosts文件同步和配置。

 

2.修改oracle用户相关信息,用户ID和组ID

节点1:

callcenter-1:~ # id oracle

uid=502(oracle) gid=511(oinstall) groups=512(dba),514(asmdba),516(oper),511(oinstall)

 

节点2:

srv-callcenter-2:~ # id oracle

uid=105(oracle) gid=108(oinstall) groups=109(dba),108(oinstall)

 

修改信息:

srv-callcenter-2:~ # groupmod -g 511 oinstall

srv-callcenter-2:~ # groupmod -g 512 dba

srv-callcenter-2:~ # groupadd -g 514 asmdba

srv-callcenter-2:~ # groupadd -g 516 oper

srv-callcenter-2:~ # usermod -u 502 -g oinstall -G dba,asmdba,oper  oracle

srv-callcenter-2:~ # id oracle

uid=502(oracle) gid=511(oinstall) groups=512(dba),514(asmdba),516(oper),511(oinstall)

srv-callcenter-2:~ #

3.拷贝主机上所有跟oracle有关的文件和目录到备机相同位置上

举例如下:

/etc/profile.d/oracle.sh,

/opt/oracle目录及文件,

$ORACLE_BASE/admin的sid文件夹,

$ORACLE_HOME/dbs/spfile[sid].ora

 

4.执行两个脚本

/oracle/product/10.2/db_1/root.sh

/opt/oracle/oraInventory/orainstRoot.sh

 

5、监听和tns配置

监听中直接用浮动IP;

TNS需要做配置。

 

6、修改文件分区表

原来是单机的生产系统,oracle所在分区如果是自动挂载的,现在需要注释掉。

7、开机启动项里排除oracle相关内容:

 chkconfig --l | grep ora

oracle                    0:off  1:off  2:off  3:off  4:off  5:off  6:off

oracle_script.sh          0:off  1:off  2:off  3:off  4:off  5:off  6:off

8、多路径开机启动和lvm过滤

1 ) 确保多路径服务为开机启动

2 )  lvm过滤

/etc/lvm/lvm.conf

 

 filter = [ "a|/dev/cciss/.*|", "a|/dev/disk/by-id/dm-uuid-.*mpath-.*|", "r|.*|" ]

9、跟SP2版本升级有关的注意事项

lvm.conf  有可能会改变,解决办法,在进行升级之前,先停止应用,关机,拔掉光纤线,然后在开机进行升级。

 

重要的生产系统使用光盘方式进行系统升级,不要使用zypper。

 

四、双机层面

1、安装HA软件

2、配置心跳

yast2  cluster

配置心跳IP、组播地址等

 

3、配置HA组件

可以从已经配置好的双机系统中,利用crm configure进入命令行,利用 edit看到配置信息,然后直接拷贝内容即可。

目前已经有截图配置文档,但是博客里更新那么多图片太麻烦了,命令行配置的详细配置步骤,等我做完测试再上传上来。

4、切换测试

详细配置步骤,等我做完测试再上传上来。

5、常见问题和故障解决办法

详细配置步骤,等我做完测试再上传上来。

suse双机系统中oracle监听死活起不来,解决办法

背景如下:

原有操作系统为SUSE LINUX 11 SP1版本,双机系统正常运行,oracle监听可以正常启停;

升级操作系统到11SP2版本,HA组件升级到SP2对应版本,oracle监听死活起不来,文件系统也有部分异常。

 

解决办法如下:

具体情况如下:

1、监听和oracle服务启动时间太长,做了延长。

primitive oralsnr ocf:heartbeat:oralsnr \

        params sid="ebai" \

        operations $id="oralsnr-operations" \

        op monitor interval="20" timeout="120" \

        op start interval="0" timeout="180"

2、hosts文件

/etc/hosts 

/etc/HOSTNAME

suse下修改主机名的方法:/etc/HOSTNAME,重启服务器生效

redhat下修改主机名的方法:/etc/sysconfig/network, 重启服务service network restart立即生效

3、开机启动项里:

 chkconfig --l | grep ora

oracle                    0:off  1:off  2:off  3:off  4:off  5:off  6:off

oracle_script.sh          0:off  1:off  2:off  3:off  4:off  5:off  6:off

 

4、多路径开机启动和lvm过滤

4.1确保多路径服务为开机启动

4.2 lvm过滤

/etc/lvm/vi lvm.conf

 

 filter = [ "a|/dev/cciss/.*|", "a|/dev/disk/by-id/dm-uuid-.*mpath-.*|", "r|.*|" ]

 

5、跟SP2版本升级有关的注意事项

lvm.conf  有可能会改变,解决办法,在进行升级之前,先停止应用,关机,拔掉光纤线,然后在开机进行升级。

 

重要的生产系统使用光盘方式进行系统升级,不要使用zypper。

 

 

 

 

作者:laven54 发表于2013-5-2 22:39:13 原文链接
阅读:87 评论:0 查看评论

相关 [suse linux ha] 推荐:

SUSE Linux HA双机搭建

- - CSDN博客数据库推荐文章
原来的数据库服务器运行在HP DL388G7服务器上面,内存32G,由于业务增长,内存吃紧,加上时不时出现服务器硬件故障,由于是单实例单服务器,存在单点发现,于是打算采取一些措施改善一下:. 2)并搭建服务器操作系统级别的双机. 3)迁移数据库数据到新服务器. 前面已经写过数据迁移相关的文章,题目为“ EXP/IMP迁移数据”,链接如下: http://blog.csdn.net/laven54/article/details/8877940.

Linux-HA实战(1)— Heartbeat安装

- - ZJD'S NOTES
接触Heartbeat主要是因为之前项目中使用了TFS,最近想给nameserver做HA,因为TFS官方用的Heartbeat,所以刚好了解下,参考了网络上很多内容,这里简单记录下. 我的机器是两台64位的CentOS,其它Linux机器应该差不多可以参考 官方的说明. 从Heartbeat 2.1.4之后原先的项目被拆分成了三个子项目: cluster-glue、 resource-agents和 heartbeat,导致了配置更加复杂.

HA-JDBC -

- -
The state manager component is responsible for storing the active status of each database in the cluster, as well as any durability state.

MySQL HA 的選擇…

- - Gea-Suan Lin's BLOG
Percona 把常見的 MySQL High Availability 選擇整理後發表成 Webinar,投影片在這裡可以看到 (以及下載):「 Choosing a MySQL High Availability Solution」. 沒有太多新的東西,主要還是再次描述 MySQL HA 這塊目前沒有萬靈丹,常見的這幾個方案各有自己的優缺點,會依照環境與需求而產生不同的選擇.

nginx + keepalive 实现HA

- - CSDN博客编程语言推荐文章
主nginx负载均衡器 192.168.166.203. 辅nginx负载均衡器 192.168.166.177. VIP地址 192.168.166.178. 二.修改配置文件为以下内容: [master slave].  state MASTER #(主机为MASTER,备用机为BACKUP).

hdfs-ha热备原理

- - 开源软件 - ITeye博客
下面的总结来自于: http://dongxicheng.org/hadoop-hdfs/hdfs-ha-federation-deploy/ .            Hadoop 2.0中的HDFS增加了两个重大特性,HA和Federaion. HA即为High Availability,用于解决NameNode单点故障问题,该特性通过热备的方式为主NameNode提供一个备用者,一旦主NameNode出现故障,可以迅速切换至备NameNode,从而实现不间断对外提供服务.

MySQL HA Solution 2019(3)MyCat

- - 企业架构 - ITeye博客
0  . 0  .       .

MySQL HA Solution 2019(4)MaxScale

- - 企业架构 - ITeye博客
已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

MySQL HA Solution 2019(2)ProxySQL

- - 企业架构 - ITeye博客
| hostgroup_id | hostname      | port | gtid_port | status | weight | compression | max_connections | max_replication_lag | use_ssl | max_latency_ms | comment |.

Hadoop Namenode HA 合并到主干

- - NoSQLFan
Hadoop 的 Namenode 单点问题一直广受诟病,而这个问题最近将会得到解决,对Namenode 的HA方案已经完成实施并合并到主干,经过严格的测试后将会在后续版本中发布. HA方案中,主要进行了如下的一些工作:. 其主要原理是将NameNode分为两种角色,Active和Standby,Active就是正在进行服务的NameNode,而Standby又分三种情况.