VERITA备份日常监控及维护
[color=#000000][font=Arial]VERITA[/font][font=黑体]备份日常监控[/font][/color][font=Times New Roman][size=3][color=#000000] [/color][/size][/font][color=#000000][b][font=宋体][size=12pt]1[/size][/font][/b][b][font=宋体][size=12pt]. 日常检查流程[/size][/font][/b][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]1)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]确认VERITAS NBU进程状态[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]2)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]确认备份任务状态[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]3)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]确认磁带、磁带机的工作状态[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]4)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]确认文件系统状态[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]5)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]磁带机清洗[/size][/b][/size][/font][/color]
[font=宋体][size=12pt][b][color=#000000] [/color][/b][/size][/font]
[color=#000000][b][font=宋体][size=12pt]2[/size][/font][/b][b][font=宋体][size=12pt]. 相关检查命令[/size][/font][/b][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]启动NBU的图形管理界面:[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]/usr/openv/netbackup/bin/jnbSA &[/color][/size][/b][/size][/font]
[align=center][align=center][font=宋体][size=12pt][b][color=#000000] [/color][/b][/size][/font][/align][/align][b][font=宋体][size=12pt][color=#000000] [/color][/size][/font][/b]
[color=#000000][b][font=宋体][size=12pt]1) [/size][/font][/b][b][font=宋体][size=12pt]检查[/size][/font][/b][b][font=宋体][size=12pt]NBU[/size][/font][/b][b][font=宋体][size=12pt]进程状态[/size][/font][/b][b][font=宋体][size=12pt]:[/size][/font][/b][/color]
[size=3][color=#000000][font=宋体][size=10.5pt][b]需要每天监控[/b][/size][/font][font=宋体][size=10.5pt][b]activity monitor[/b][/size][/font][font=宋体][size=10.5pt][b],[/b][/size][/font][font=宋体][size=10.5pt][b]确认在备份服务器上运行的进程有[/b][/size][/font][font=宋体][size=10.5pt][b]:avrd[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]vmd[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]tldd[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]ltid[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]bprd[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]nbdbd[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]bpdbm[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]bpsched[/b][/size][/font][font=宋体][size=10.5pt][b]、[/b][/size][/font][font=宋体][size=10.5pt][b]bpjobd[/b][/size][/font][font=宋体][size=10.5pt][b]。[/b][/size][/font][font=宋体][size=10.5pt][b][/b][/size][/font][/color][/size]
[font=宋体][size=10.5pt][b][size=3][color=#000000]如果前四个进程avrd、vmd、tldd、ltid有一个没有运行,则备份系统工作不正常。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]简单的处理方法:重新启动NBU服务器进程[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]方法如下:[/color][/size][/b][/size][/font]
[color=#000000][font=宋体][size=10.5pt][b][size=3]a)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]退出NBU的java管理界面,以root身份在命令行状态下输入:netbackup stop[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]b)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]使用bpps –a检查上述进程的状态[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]c)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]如果进程没有被kill干净,继续执行netbackup stop命令。[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]d)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]如果无法结束所有的进程,需要使用bp.kill_all来进行终结。[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]e)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]当使用bpps –a看到没有NBU的进程输出时,表明所有的NBU进程已经结束。使用命令:netbackup start启动NBU进程,并用bpps –a确认。[/size][/b][/size][/font][/color]
[color=#000000][font=宋体][size=10.5pt][b][size=3]f)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]如果问题依然存在,请与厂家联系检查VERITAS工作状态。[/size][/b][/size][/font][/color]
[font=宋体][size=12pt][b][color=#000000] [/color][/b][/size][/font]
[color=#000000][b][font=宋体][size=12pt]2) [/size][/font][/b][b][font=宋体][size=12pt]检查备份任务状态。[/size][/font][/b][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]需要每天监控activity monitor,观察已经发生备份的任务状态返回值,返回值为0表明备份成功;如果返回值不为0,表明备份失败。对于数据库Archivelog的备份,由于备份的频率目前设置为每一小时一次,因此如果在下面的备份作业中,如果Archivelog的备份成功,可以忽略上面错误的备份。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]典型的备份错误有:[/color][/size][/b][/size][/font]
[color=#000000][font=宋体][size=10.5pt][b][size=3]a)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]Archivelog[/size][/b][/size][/font][font=宋体][size=10.5pt][b][size=3]备份返回值为1,而且后续的备份均返回1。[/size][/b][/size][/font][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]通常情况,需要进行Oracle 数据库的Archivelog同步。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[b][i][font=宋体][size=12pt]Oracle[/size][/font][/i][/b][b][i][font=宋体][size=12pt]数据库Archivelog同步的方法为:[/size][/font][/i][/b]
[b][i][font=宋体][size=12pt]以Oracle数据库用户登录到Oracle数据库服务上,通过RMAN来运行下面的命令:[/size][/font][/i][/b]
[b][i][font=宋体][size=12pt]$ su – oracle[/size][/font][/i][/b]
[b][i][font=宋体][size=12pt]$ rman[/size][/font][/i][/b]
[b][i][font=宋体][size=12pt]RMAN> connect target /[/size][/font][/i][/b]
[b][i][font=宋体][size=12pt]RMAN> change archivelog all validate;[/size][/font][/i][/b]
[b][i][font=宋体][size=12pt]RMAN> exit[/size][/font][/i][/b]
[font=宋体][size=12pt][b][color=#000000] [/color][/b][/size][/font]
[color=#000000][font=宋体][size=10.5pt][b][size=3]b)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]备份作业返回值为41、54。[/size][/b][/size][/font][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]检查服务器网络工作状态:[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]首先找到备份失败的服务器IP地址,确认IP地址可以ping通。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]使用telnet工具,进行如下操作:[/color][/size][/b][/size][/font]
[size=3][color=#000000][font=宋体][size=10.5pt][b]# telnet [/b][/size][/font][font=宋体][size=10.5pt][b]服务器IP地址 13782[/b][/size][/font][/color][/size]
[font=宋体][size=10.5pt][b][size=3][color=#000000]如果返回信息如下,表明VERITAS NBU通信正常。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]Trying...[/color][/size][/b][/size][/font]
[size=3][color=#000000][font=宋体][size=10.5pt][b]Connected to [/b][/size][/font][font=宋体][size=10.5pt][b]服务器IP地址.[/b][/size][/font][/color][/size]
[font=宋体][size=10.5pt][b][size=3][color=#000000]Escape character is '^]'.[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]如果系统直接返回到命令行状态,请检查问题服务器的service和inetd设置,确保bpcd进程存在。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]并使用如下命令检查bpcd的工作状态:[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]# netstat |grep bpcd[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[color=#000000][font=宋体][size=10.5pt][b][size=3]c)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]备份作业返回96、219。[/size][/b][/size][/font][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]请检查磁带机、磁带的工作状态[/color][/size][/b][/size][/font]
[font=宋体][size=12pt][b][color=#000000] [/color][/b][/size][/font]
[color=#000000][b][font=宋体][size=12pt]3) [/size][/font][/b][b][font=宋体][size=12pt]检查磁带和磁带机状态:[/size][/font][/b][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]磁带机和磁带常见的错误为96、219,需要确认磁带机状态是否up,磁带库是否闪红灯,使用bpmedialist命令查看是否磁带已经写满或者处于frozen状态,磁带是否卡在了磁带机里。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]如果磁带显示frozen,可以使用bpmedia –unfreeze –m labelid来清除此状态,如果磁带反复显示frozen,可能磁带坏,请与厂家联系磁盘检查。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]补充:可以在java界面中选择“Media and Device Management”来查看现在media分配的情况。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]观察磁带机工作状态的方式有2种:Java GUI界面和命令行。[/color][/size][/b][/size][/font]
[color=#000000][font=宋体][size=10.5pt][b][size=3]a)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]Java GUI[/size][/b][/size][/font][font=宋体][size=10.5pt][b][size=3]界面方式:[/size][/b][/size][/font][/color]
[size=3][color=#000000][font=宋体][size=10.5pt][b]在Java GUI界面下,可以在Media and Device Management[/b][/size][/font][font=Wingdings][size=10.5pt][b][font=Wingdings]à[/font][/b][/size][/font][font=宋体][size=10.5pt][b]Device Monitor[/b][/size][/font][font=宋体][size=10.5pt][b]选项中,观察到磁带机的状态。例如磁带机正在使用中、磁带机DOWN、磁带机空闲等。[/b][/size][/font][/color][/size]
[color=#000000][font=宋体][size=10.5pt][b][size=3]b)[/size]
[/b][/size][/font][font=宋体][size=10.5pt][b][size=3]命令行方式:[/size][/b][/size][/font][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]使用命令行方式观察磁带机的状态,相关的命令有vmdareq、vmoprcmd。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]如果观察到磁带机DOWN,建议先检查是否有卡带现象。确定没有卡带现象后,可以做简单的磁带机UP操作。磁带机UP操作可以通过上面所述的Java GUI界面和命令行方式来执行。命令行方式举例如下:[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]# vmoprcmd –h [i]hostID [/i]–up [i]driveID[/i][/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]其中,hostID是SSO服务器名称,driveID是磁带机的序号,目前备份系统中2台磁带机的序号取值为0和1。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]经过简单UP后,如果磁带机仍然出现DOWN现象,请与厂家联系解决。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[color=#000000][b][font=宋体][size=12pt]4) [/size][/font][/b][b][font=宋体][size=12pt]检查文件系统状态[/size][/font][/b][/color]
[font=宋体][size=10.5pt][b][size=3][color=#000000]在备份服务器和其它服务器上使用如下命令[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]# df –k[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000]确认文件系统有可以使用的空间。文件系统如果写满,备份系统将工作不正常。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[b][font=宋体][size=10.5pt][size=3][color=#000000]备注:[/color][/size][/size][/font][/b]
[font=宋体][size=10.5pt][b][size=3][color=#000000]如果经过了很长时间(如7,8个小时)一个备份任务一直处于active或者queued状态,同时显示此任务的字节数没有增长,需要把此任务kill掉。因为这样会阻止下一个任务的执行。[/color][/size][/b][/size][/font]
[font=宋体][size=10.5pt][b][size=3][color=#000000] [/color][/size][/b][/size][/font]
[font=Times New Roman][size=3][color=#000000] [/color][/size][/font] 晕,全是黑色的粗体字,看着好难受…… 内容还是很不错了,学习了! 好帖,想不支持都不行:lol: 不错,楼主能把自己的巡检单摆出来,学习了,以后我做dba,有很大参考价值。 好东西,但LZ要是把字体设置变一下就好了,看的好晕!:lol: 这个字体的确应该改下了 领教,谢谢
页:
[1]