Samba環境のnmb停止タイムアウトについて (Linux-ha-jp) - Linux-HA Japan

原田さん

こんにちは、山内です。

何かわかりましたら、情報共有して頂けると助かります。
corosync/Pacemakerなどの不具合などであれば、コミュニティの方へも報告したいと思います。

以上、宜しくお願いいたします。

----- Original Message -----

From: "harada" <ljpgh****@gmail*****>
To: "renay****@ybb*****" <renay****@ybb*****>
Date: 2021/12/21 火 11:44
Subject: Re: Re: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて

山内様

詳細にご確認、ご説明いただきありがとうございます！！
本番リリース前は、このような事象は発生しておりませんでした。
しかし、本番稼働後、リソース追加でNFSなどを入れたため、
構成変更後のテストは初めてでした。あと、IPも本番稼働前は、IPを入れられないため、
仮の3つほどのテストIPでテストしていました。

 3) /usr/lib/ocf/resource.d/IPaddr2に-xオプションを指定して、２重起動と判定される場合の詳細を見てみる。(これが一番有効かと思います) 
こちらをまず確認してみようと思います！
ありがとうございました！

2021年12月21日(火) 9:05 renay****@ybb***** <renay****@ybb*****>:
(すいません、メール送信先をミスしていましたので、再送します）

 原田さん

 おはようございます。山内です。

 再度、ログを見て見ましたが、serv1のフェンシングはうまく動作しているようです。

 ---
 ★rebootは成功
 Dec 15 20:14:46 [2102] serv2 stonith-ng:  notice: remote_op_done:   Operation 'reboot' targeting serv1 on serv2 for crmd.****@serv2*****: OK

 [1932] serv2 corosyncnotice [TOTEM ] A processor failed, forming new configuration.
 [1932] serv2 corosyncnotice [TOTEM ] A new membership (192.168.X.XXX:583) was formed. Members left: 1
 [1932] serv2 corosyncnotice [TOTEM ] Failed to receive the leave message. failed: 1
 [1932] serv2 corosyncwarning [CPG  ] downlist left_list: 1 received

 ★serv1側も再起動
 [1977] serv1 corosyncnotice [MAIN ] Corosync Cluster Engine ('2.4.5'): started and ready to provide service.
 [1977] serv1 corosyncinfo  [MAIN ] Corosync built-in features: dbus systemd xmlconf qdevices qnetd snmp libcgroup pie relro bindnow
 [1977] serv1 corosyncnotice [TOTEM ] Initializing transport (UDP/IP Unicast).
 [1977] serv1 corosyncnotice [TOTEM ] Initializing transmit/receive security (NSS) crypto: none hash: none
 [1977] serv1 corosyncnotice [TOTEM ] Initializing transport (UDP/IP Unicast).
 [1977] serv1 corosyncnotice [TOTEM ] Initializing transmit/receive security (NSS) crypto: none hash: none

 ★serv1側もクラスタに再参加
 [1932] serv2 corosyncnotice [TOTEM ] A new membership (192.168.X.XXX:588) was formed. Members joined: 1
 [1932] serv2 corosyncwarning [CPG  ] downlist left_list: 0 received
 [1932] serv2 corosyncwarning [CPG  ] downlist left_list: 0 received
 [1932] serv2 corosyncnotice [QUORUM] Members[2]: 1 2
 [1932] serv2 corosyncnotice [MAIN ] Completed service synchronization, ready to provide service.

 ★serv2にFOしたが、serv1も参加してきたので、serv1側のリソースの起動状態を確認
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_online_status_fencing:   Node serv2 is active
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_online_status:   Node serv2 is online
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_online_status_fencing:   Node serv1 is active
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_online_status:   Node serv1 is online
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource VirtualIP active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource res_NFS active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource VirtualIP2 active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource VirtualIP3 active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource VirtualIP4 active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource VirtualIP5 active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource VirtualIP6 active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor found resource VirtualIP7 active on serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: unpack_node_loop:  Node 2 is already processed
 Dec 15 20:10:19 [2129] serv2  pengine:   info: unpack_node_loop:  Node 1 is already processed
 Dec 15 20:10:19 [2129] serv2  pengine:   info: unpack_node_loop:  Node 2 is already processed
 Dec 15 20:10:19 [2129] serv2  pengine:   info: unpack_node_loop:  Node 1 is already processed
 Dec 15 20:10:19 [2129] serv2  pengine:   info: clone_print: Clone Set: ping-clone [ping]
 Dec 15 20:10:19 [2129] serv2  pengine:   info: short_print:   Started: [ serv2 ]
 Dec 15 20:10:19 [2129] serv2  pengine:   info: short_print:   Stopped: [ serv1 ]
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:    prd_fence    (stonith:fence_ilo5):  Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:    prd2_fence   (stonith:fence_ilo5):  Stopped
 Dec 15 20:10:19 [2129] serv2  pengine:   info: group_print: Resource Group: rg01
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       ShareDir  (ocf::heartbeat:Filesystem):  Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       res_NFS  (systemd:nfs-server):  Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       res_exportfs_NFS  (ocf::heartbeat:exportfs):   Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP (ocf::heartbeat:IPaddr2):    Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP2 (ocf::heartbeat:IPaddr2):    Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP3 (ocf::heartbeat:IPaddr2):    Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP4 (ocf::heartbeat:IPaddr2):    Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP5 (ocf::heartbeat:IPaddr2):    Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP6 (ocf::heartbeat:IPaddr2):    Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP7 (ocf::heartbeat:IPaddr2):    Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       Samba   (systemd:smb): Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       Named   (systemd:nmb): Started serv2
 Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       res_Mailto (ocf::heartbeat:MailTo):    Started serv2

 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation ping:1_monitor_0 on serv1 | action 16
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation prd_fence_monitor_0 on serv1 | action 17
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation prd2_fence_monitor_0 on serv1 | action 18
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation ShareDir_monitor_0 on serv1 | action 19
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation res_NFS_monitor_0 on serv1 | action 20
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation res_exportfs_NFS_monitor_0 on serv1 | action 21
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP_monitor_0 on serv1 | action 22
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP2_monitor_0 on serv1 | action 23
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP3_monitor_0 on serv1 | action 24
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP4_monitor_0 on serv1 | action 25
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP5_monitor_0 on serv1 | action 26
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP6_monitor_0 on serv1 | action 27
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP7_monitor_0 on serv1 | action 28
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation Samba_monitor_0 on serv1 | action 29
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation Named_monitor_0 on serv1 | action 30
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation res_Mailto_monitor_0 on serv1 | action 31

 ★serv1側の起動確認でも、VIPは起動済と判定、res_MailToは未起動と判定。
 Dec 15 20:10:19 [2216] serv1    crmd:  notice: process_lrm_event:  Result of probe operation for VirtualIP on serv1: 0 (ok) | call=30 key=VirtualIP_monitor_0 confirmed=true cib-update=37
 Dec 15 20:10:19 [2211] serv1    cib:   info: cib_process_request: Forwarding cib_modify operation for section status to all (origin=local/crmd/37)
 Dec 15 20:10:19 [2216] serv1    crmd:  notice: process_lrm_event:  Result of probe operation for res_Mailto on serv1: 7 (not running) | call=66 key=res_Mailto_monitor_0 confirmed=true cib-update=38
 (他のVIPも起動済と判定)

 ★すでにVIPの起動がserv1で確認
 Dec 15 20:16:20 [2106] serv2    crmd: warning: status_from_rc:   Action 23 (VirtualIP2_monitor_0) on serv1 failed (target: 7 vs. rc: 0): Error
 Dec 15 20:16:20 [2106] serv2    crmd:  notice: abort_transition_graph:   Transition aborted by operation VirtualIP2_monitor_0 'modify' on serv1: Event failed | magic=0:0;23:2:7:d2b6e786-2b16-40b7-869b-5abbd404ced1 cib=0.240.370 source=match_graph_event:299 complete=false
 Dec 15 20:16:20 [2106] serv2    crmd:   info: match_graph_event:  Action VirtualIP2_monitor_0 (23) confirmed on serv1 (rc=0)
 Dec 15 20:16:20 [2106] serv2    crmd:   info: process_graph_event: Detected action (2.23) VirtualIP2_monitor_0.34=ok: failed
 (他のVIPも同様)

 ★重複起動となっている
 Dec 15 20:10:20 [2129] serv2  pengine:   info: clone_print: Clone Set: ping-clone [ping]
 Dec 15 20:10:20 [2129] serv2  pengine:   info: short_print:   Started: [ serv1 serv2 ]
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:    prd_fence    (stonith:fence_ilo5):  Started serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:    prd2_fence   (stonith:fence_ilo5):  Started serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: group_print: Resource Group: rg01
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       ShareDir  (ocf::heartbeat:Filesystem):  Started serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       res_NFS  (systemd:nfs-server):  Started serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       res_exportfs_NFS  (ocf::heartbeat:exportfs):   Started serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP (ocf::heartbeat:IPaddr2):    Started
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP2 (ocf::heartbeat:IPaddr2):    Started
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP3 (ocf::heartbeat:IPaddr2):    Started
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP4 (ocf::heartbeat:IPaddr2):    Started
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP5 (ocf::heartbeat:IPaddr2):    Started
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP6 (ocf::heartbeat:IPaddr2):    Started
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP7 (ocf::heartbeat:IPaddr2):    Started
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       Samba   (systemd:smb): Started serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       Named   (systemd:nmb): Started serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       res_Mailto (ocf::heartbeat:MailTo):    Started serv2
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for ping:1 on serv1
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (3600s) for prd2_fence on serv1
 Dec 15 20:10:20 [2129] serv2  pengine:  error: native_create_actions:    Resource VirtualIP is active on 2 nodes (attempting recovery)
 Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for VirtualIP on serv2
 Dec 15 20:10:20 [2129] serv2  pengine:  error: native_create_actions:    Resource VirtualIP2 is active on 2 nodes (attempting recovery)
 Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for VirtualIP2 on serv2
 Dec 15 20:10:20 [2129] serv2  pengine:  error: native_create_actions:    Resource VirtualIP3 is active on 2 nodes (attempting recovery)
 Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for VirtualIP3 on serv2
 Dec 15 20:10:20 [2129] serv2  pengine:  error: native_create_actions:    Resource VirtualIP4 is active on 2 nodes (attempting recovery)
 Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for VirtualIP4 on serv2
 Dec 15 20:10:20 [2129] serv2  pengine:  error: native_create_actions:    Resource VirtualIP5 is active on 2 nodes (attempting recovery)
 Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for VirtualIP5 on serv2
 Dec 15 20:10:20 [2129] serv2  pengine:  error: native_create_actions:    Resource VirtualIP6 is active on 2 nodes (attempting recovery)
 Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for VirtualIP6 on serv2
 Dec 15 20:10:20 [2129] serv2  pengine:  error: native_create_actions:    Resource VirtualIP7 is active on 2 nodes (attempting recovery)
 Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information
 Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) for VirtualIP7 on serv2
 ---

 serv1が再起動した後にIPaddr2(VIPリソース）が全て起動済として判定している事が問題となっているようです。
 ※VIP以外は問題はない模様。

 この事象ですが？必ず再現するのでしょうか？あまり、見たことがない事象です。

 以下のような確認をされると良いと思います。

 1) IPaddr2リソースのパラメータを見直してみる。(※通常は起動しているので、問題はないと思いますが）
 2) OS起動時にcorosync/Pacemakerを自動起動にしている場合は、自動起動を一旦やめて、serv1が再起動した後、手動でcorosync/Pacemakerを起動してみる
 3) /usr/lib/ocf/resource.d/IPaddr2に-xオプションを指定して、２重起動と判定される場合の詳細を見てみる。(これが一番有効かと思います)

 以上、宜しくお願いいたします。

 ----- Original Message -----

 From: "harada" <ljpgh****@gmail*****>
 To: "renay****@ybb*****" <renay****@ybb*****>
 Date: 2021/12/21 火 00:07
 Subject: Re: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて

 山内様

 ご確認いただき、ありがとうございます。
 また、再度見ていただけるとのことで、 大変申し訳ございません。

 当日の動きですが、
 1号機で20:07にシャットダウンを実施したあと、
 sarコマンドのログから、20:10にサーバ再起動した履歴がありました。
 その後、2号機で20:13に再起動され、
 20:16に1号機でまた再起動され、
 20:19に2号機で再起動された履歴がありました。
 その後なんとか自力で止めました。。

 たしかに山内様の仰るように2重でリソースが起動しているようなログがありました。
 起動のタイミングなどに問題がありそうでしょうか。

 フェンシングの設定は下記にように設定しております。

 # pcs stonith create prd_fence fence_ilo5 \
 pcmk_host_list=serv1 ipaddr=192.168.X.XXX \
 login=XXXXX passwd="XXXXXXX" \
 pcmk_reboot_action=reboot pcmk_monitor_timeout=60s \
 op start timeout=60s on-fail=restart monitor timeout=60s interval=3600s on-fail=restart \
 stop timeout=60s on-fail=ignore

 # pcs stonith create prd2_fence fence_ilo5 \
 pcmk_host_list=serv2 ipaddr=192.168.X.XXX \
 login=XXXXX passwd="XXXXXXX" \
 pcmk_reboot_action=reboot pcmk_monitor_timeout=60s \
 op start timeout=60s on-fail=restart monitor timeout=60s interval=3600s on-fail=restart \
 stop timeout=60s on-fail=ignore

 申し訳ございませんが、何かわかりましたらアドバイスいただけますと幸いです。

 2021年12月20日(月) 19:33 <renay****@ybb*****>:
 原田さん

 こんばんは、山内です。

 ざっと見ただけですが、srv1が停止時のエラーからフェンシングされて再参加した時、リソースの２重起動が検知されているようです。

 fence_ilo5は使ったことがないのですが、ちゃんと、serv1は、再起動されているのでしょうか？

 ※明日、もう少し見てみる予定ですが、ちゃんとserv1が再起動されて、その後、リソースが解放されているのか気になります。

 以上です。

 ----- Original Message -----

 From: "harada" <ljpgh****@gmail*****>
 To: "renay****@ybb*****" <renay****@ybb*****>
 Date: 2021/12/20 月 17:46
 Subject: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて

 山内様

 ご返信ありがとうございます！
 1つ誤りがございました。申し訳ございません。
 今回のマシン2台は、仮想マシンでございませんでした。
 そのため、フェンシングは、fence_ilo5を利用しています。
 ログも自分なりに見たのですが、判断ができず、、重いですが、お送りしますので、
 何かアドバイスいただけますと幸いです。
 1号機と2号機のログです。

 2021年12月20日(月) 13:50 <renay****@ybb*****>:
 原田さん

 こんにちは、山内です。

 >下記の環境で、切り替え試験をするために、1号機をシャットダウンしたところ、nmbが停止しない状態が続き、フェンス処理が走りました。
 >その後、2号機にフェイルオーバーしたかと思ったら、再度2号機でフェンスが走り、1号機へとフェイルオーバのような事象が繰り返され、何とかメンテナンスモードを実行することで、いったりきたりするリソースを止めることができました。

 ログを見ないと何とも言えませんが。。。
 この部分で、「再度２号機でフェンスが走り。。。」とありますので、何か２号機で故障が起きている為、再度、参加してきた１号機でフェンシングが実行されたのではないでしょうか？

 フェンシングリソースには何をお使いでしょうか？fence_vmware_restやfence_vmware_soapでしょうか？
 ※もしかすると、ACT/STBの相打ちのような状況が起きているのかも。。とも思いますが・・・

 >どのあたりを観点に調査すればよろしいでしょうか。
 >また、考えられる原因などありましたら アドバイスいただけますと幸いです。

 まずは、ログからお互いのフェンシングが実行される原因となった辺りを確認することから始めるのが良いと思います。

 クラスタ設定やログを開示できる範囲で、お見せ頂ければ、もう少しわかるかも知れません。

 以上、宜しくお願いいたします。

 ----- Original Message -----

 From: "harada" <ljpgh****@gmail*****>
 To: "linux****@lists*****" <linux****@lists*****>
 Date: 2021/12/20 月 12:47
 Subject: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて

 原田と申します。

 下記の環境で、切り替え試験をするために、1号機をシャットダウンしたところ、nmbが停止しない状態が続き、フェンス処理が走りました。
 その後、2号機にフェイルオーバーしたかと思ったら、再度2号機でフェンスが走り、1号機へとフェイルオーバのような事象が繰り返され、何とかメンテナンスモードを実行することで、いったりきたりするリソースを止めることができました。

 ■環境
 ・VMware ESXi 上の仮想サーバ
 ・サーバ台数は2台(Act - Syb 構成)
 ・ 共有ディスク(SCSI)
 ・OS：CentOS7
 ・Pacemakerバージョン想定：1.1.23

 リソース(起動順番)
 ・Filesystem 
 ・nfs-server
 ・exportfs
 ・VIP　7個
 ・Samba
 ・nmb
 ・Mail

 何度か検証環境でテストするうちに、sambaとnmbの順番を変えることで、nmbの停止タイムアウトが発生しなくなることは分かったのですが、
 nmbのstop のタイムアウトが発生して、その後、フェンスが走った場合は、1号機を強制停止することになるので、2号機にフェイルオーバーして終わりなはずなのに、今回、なぜいったり来たりしてしまったのかが原因が分からない状態です。

 どのあたりを観点に調査すればよろしいでしょうか。
 また、考えられる原因などありましたら アドバイスいただけますと幸いです。

 宜しくお願いいたします。

 _______________________________________________
 Linux-ha-japan mailing list
 Linux****@lists*****
 https://lists.osdn.me/mailman/listinfo/linux-ha-japan

Linux-HA Japan Forkpm_logconv-cspm_diskdpm_logconv-hbpm_extrasdocpm_crmgenvm-ctlpm_kvm_tools

[Linux-ha-jp] Samba環境のnmb停止タイムアウトについて

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools