山内さん お世話になっております。辻です。 お返事ありがとうございます。 > 申し訳ありません、今までのお話とnodeの表記が逆になっていますね。 > ここで言っているのは、Masterに昇格したnode2を停止せずに、node1を停止 > した状態です。 承知しました。 > > 「pcs resource cleanup r_pgsqlを実行すること」が > > エラー発生後の正しい対処という理解であっているでしょうか? > はい。正しいと思います。 > クラスタ構成後に、リソースの故障自体のクリアは、cleanup操作で問題ありま > せん。 承知しました。 > もし、45000をtokenに意図的に設定されているのであれば、何かその経緯があ > るのではないでしょうか? そうですね。意図があるのか確認してみますが、わからなければ 検証の上で推奨値(3s)の適用を検討してみようと思います。 > ①再参加したnode1は、元々のクラスタは2ノード構成の為、Quorumを持た > ない状態(2ノード構成なので、node1の起動だけではQuorumを持たない)にな > って、pgsqlのリソースを起動(start)しない。 つまり、2度startしている場合は、node1の起動だけでQuorumを持って しまっているということですね。 (本来、この時点でQuorumを持った状態になってはいけない) > いえ、本来は、クラスタ間のリソース状態は、うまく同期し認識しますが、お > 互いのノードが単ノードのDCノード(リソースを制御するノード)として動作 > した後の > クラスタが統合されるような動作ですので、何かリソース状態の同期がうまく > いっていない可能性はあります。 「リソース状態の同期がうまくいっていない」ことと、上記の「Quorumを持って しまっている」ことの理由を、以前お渡ししたログから確認するのは難しそうでしょうか? > 正直なところ、tokenを45000まで伸ばす設定での、動作ケースをあまり見たことはありません。 > よって、上記で回答した内容以外でも、何か動作に問題が起きる可能性はあります。 承知しました。 以上、よろしくお願いいたします。 > -----Original Message----- > From: renay****@ybb***** <> > Sent: Sunday, June 19, 2022 8:04 PM > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA > <linux****@lists*****> > Cc: d-ike****@ryobi***** > Subject: Re: RE: Re: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード > 組込みについて > > 辻さん > > こんばんは、山内です。 > > > > この為、node1がクラスタとして残っている状態で、node2を起動する > と。。。。 > > > 1)node2は自ノードだけでクラスタを組む ※この時点では、node2も > node1とのクラスタは組んでおらず、単一ノードとして認識しています。 > > > 2)node2とnode1は、45s x 1.2秒後に確認が取れれクラスタになっている > ことを認識する。 > > > > ここで言われている「node1がクラスタとして残っている状態」というのは、 > > どのような状態でしょうか? > > node1のpgsqlの一度目のstartを実施した状態でしょうか? > > それとも、ここでは、node1はフェールオーバー発生後の昇格したノードの > ことを > > 指しているのでしょうか? > > (これまでの会話上、フェールオーバー発生後の状態として、昇格した新マ > スタをnode2、 > > 再度組込む新スレーブをnode1として会話してきたと思いますので、念の > ため確認です) > > 申し訳ありません、今までのお話とnodeの表記が逆になっていますね。 > ここで言っているのは、Masterに昇格したnode2を停止せずに、node1を停止 > した状態です。 > そして、その後で、node1を起動した直後は、1)の状態となっています。 > > > > このcleanupというのは、startがエラーになったリソースを正常に組み込 > めるということでしょうか? > > > それとも別の意味でしょうか? > > > > はい。startがエラーになったリソースを正常に組み込めるという意味です。 > > (cleanupは「pcs resource cleanup r_pgsql」で実行しています) > > > > > cleanupは、クラスタ構成後にエラーが発生した後で実際されているとの認 > 識ですので、 > > > この時は、node1/node2は認識済です。 > > > 起動時のpgsqlのstartの2度のお話とは異なりますね。 > > つまり、2度startのエラー発生後のnode1/node2を認識済みの状態であれば、 > > そこからノードを正常に組込むための対処は、 > > 「pcs resource cleanup r_pgsqlを実行すること」が > > エラー発生後の正しい対処という理解であっているでしょうか? > > はい。正しいと思います。 > クラスタ構成後に、リソースの故障自体のクリアは、cleanup操作で問題ありま > せん。 > ※ただし、SlaveとしてのMasterノードとのリソースの同期が終わっているこ > とが条件です。 > > > > 3000(3s)あたりが良いのでないでしょうか? > > > #なお、設定変更後は、十分テストは行ってください。 > > > > 45sは長すぎるのですね。 > > 承知しました。検討してみます。 > > はい。かなり、長い値です。 > もし、45000をtokenに意図的に設定されているのであれば、何かその経緯があ > るのではないでしょうか? > > > > この部分は、正確な回答にはログを拝見する必要があると思いますが、 > > > スレーブ側の誤ったリソース認識がファイル削除により無くなった為、組 > み込めたのだと思います。 > > > > ログを提示していない状態での質問で申し訳ありませんが、 > > 誤ったリソース認識がなければ、tokenが45sでも下記の⑤は発生しなくな > る > > ということでしょうか? > > ⑤の状態が発生していないかも知れませんが、相手ノードを認識せずにリソー > ス制御を開始する可能があると思います。 > まずは、クラスタ構築時に相手ノードを認識していない状況を回避する事が、 > まずは大事だと思います。 > 今回の構成では、まず、45sの設定の見直しを先にして頂いた方が良いと思いま > す。 > > ログを拝見していませんが、多分、/var/lib/pacemaker配下のファイルを削除 > した事によって、 > ①再参加したnode1は、元々のクラスタは2ノード構成の為、Quorumを持た > ない状態(2ノード構成なので、node1の起動だけではQuorumを持たない)にな > って、pgsqlのリソースを起動(start)しない。 > ②その後、node2を45s後に認識して、ようやく、Quorumを持ってクラスタと > しての制御が始まって、node2からの制御によりstart動作 > ③よって、2重のstartは起きない > のではないかと思います。 > > > > > ・今回の場合 > > > > > > 順番| ノード2 | ノード1 > > > > -------------------------------------------------------------------------- > > > ①| 単ノードでクラスタ構成 | > > > ②| | 再起動(こちらも単ノードでクラ > スタ構成を取る) > > > ③| ノード1の存在すら知らない | > > > ④| | DCノードとしてクラスタを制御(こ > こでは、少しの間pacemakerのDCノードになるまで、余裕がありますが、 > 45sx1.2前にDCノードになります。) > > > ⑤| | pgsqlはクラスタで起動していない > と判断して、pgsqlのstartを実行 > > > ⑥| ---- ノード1の再起動後、45s x 1.2経過後にようやく2ノード > でクラスタを構築 ----- > > > ⑦| DCノードとしてクラスタを制御 | DCノードではなくなる > > > ⑧| pgsqlのノード1のstartを知らないので、ノード1にstartを指示 > | > > > ⑨| | すでに一旦startしているのでエ > ラー > > > > -------------------------------------------------------------------------- > > > > 上の順番ですと、④、⑤が動作してしまっているため、異常事象が発生して > いるということですね。 > > (⑤のpgsqlの起動が動作しなければ、2度startにはならない) > > はい。ご認識の通りです。 > > > ⑧でノード1のstartを知らないのは、そういう仕様でしょうか? > > いえ、本来は、クラスタ間のリソース状態は、うまく同期し認識しますが、お > 互いのノードが単ノードのDCノード(リソースを制御するノード)として動作 > した後の > クラスタが統合されるような動作ですので、何かリソース状態の同期がうまく > いっていない可能性はあります。 > > > ちなみに、他の環境でも試したところ、tokenを45sにしても異常事象が発 > 生しないサーバもありました。 > > ②から④,⑤までの間の時間は一定ではなく、タイミングにより④、⑤は実行 > が遅れる、 > > もしくは、動作しない場合もあるということでしょうか。 > > ノード間のクラスタ構成のメッセージのやり取りによって、若干、④⑤のタイ > ミングはずれることはありますが、2ノード構成であれば、⑥のノードでのク > ラスタ認識まで掛かる時間は変わらない認識です。 > また、マシンスペックやリソースの種類(リソースの起動時間)などによって > も、⑤のstartが完了するか?起動途中かどうかは異なります。 > > 正直なところ、tokenを45000まで伸ばす設定での、動作ケースをあまり見たこ > とはありません。 > よって、上記で回答した内容以外でも、何か動作に問題が起きる可能性はあり > ます。 > > 以上です > > > > ----- Original Message ----- > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > To: "renay****@ybb*****" <renay****@ybb*****>; > "LINUX-HA" <linux****@lists*****> > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > Date: 2022/06/19 日 10:22 > > Subject: RE: Re: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード > 組込みについて > > > > > > 山内さん > > > > お世話になっております。辻です。 > > > > ご回答ありがとうございます。 > > > > > この為、node1がクラスタとして残っている状態で、node2を起動する > と。。。。 > > > 1)node2は自ノードだけでクラスタを組む ※この時点では、node2も > node1とのクラスタは組んでおらず、単一ノードとして認識しています。 > > > 2)node2とnode1は、45s x 1.2秒後に確認が取れれクラスタになっている > ことを認識する。 > > > > ここで言われている「node1がクラスタとして残っている状態」というのは、 > > どのような状態でしょうか? > > > > node1のpgsqlの一度目のstartを実施した状態でしょうか? > > > > それとも、ここでは、node1はフェールオーバー発生後の昇格したノードの > ことを > > 指しているのでしょうか? > > (これまでの会話上、フェールオーバー発生後の状態として、昇格した新マ > スタをnode2、 > > 再度組込む新スレーブをnode1として会話してきたと思いますので、念の > ため確認です) > > > > > このcleanupというのは、startがエラーになったリソースを正常に組み込 > めるということでしょうか? > > > それとも別の意味でしょうか? > > > > はい。startがエラーになったリソースを正常に組み込めるという意味です。 > > (cleanupは「pcs resource cleanup r_pgsql」で実行しています) > > > > > cleanupは、クラスタ構成後にエラーが発生した後で実際されているとの認 > 識ですので、 > > > この時は、node1/node2は認識済です。 > > > 起動時のpgsqlのstartの2度のお話とは異なりますね。 > > > > つまり、2度startのエラー発生後のnode1/node2を認識済みの状態であれば、 > > そこからノードを正常に組込むための対処は、 > > 「pcs resource cleanup r_pgsqlを実行すること」が > > エラー発生後の正しい対処という理解であっているでしょうか? > > > > > 3000(3s)あたりが良いのでないでしょうか? > > > #なお、設定変更後は、十分テストは行ってください。 > > > > 45sは長すぎるのですね。 > > 承知しました。検討してみます。 > > > > > この部分は、正確な回答にはログを拝見する必要があると思いますが、 > > > スレーブ側の誤ったリソース認識がファイル削除により無くなった為、組 > み込めたのだと思います。 > > > > ログを提示していない状態での質問で申し訳ありませんが、 > > 誤ったリソース認識がなければ、tokenが45sでも下記の⑤は発生しなくな > る > > ということでしょうか? > > > > > ・今回の場合 > > > > > > 順番| ノード2 | ノード1 > > > > -------------------------------------------------------------------------- > > > ①| 単ノードでクラスタ構成 | > > > ②| | 再起動(こちらも単ノードでクラ > スタ構成を取る) > > > ③| ノード1の存在すら知らない | > > > ④| | DCノードとしてクラスタを制御(こ > こでは、少しの間pacemakerのDCノードになるまで、余裕がありますが、 > 45sx1.2前にDCノードになります。) > > > ⑤| | pgsqlはクラスタで起動していない > と判断して、pgsqlのstartを実行 > > > ⑥| ---- ノード1の再起動後、45s x 1.2経過後にようやく2ノード > でクラスタを構築 ----- > > > ⑦| DCノードとしてクラスタを制御 | DCノードではなくなる > > > ⑧| pgsqlのノード1のstartを知らないので、ノード1にstartを指示 > | > > > ⑨| | すでに一旦startしているのでエ > ラー > > > > -------------------------------------------------------------------------- > > > > 上の順番ですと、④、⑤が動作してしまっているため、異常事象が発生して > いるということですね。 > > (⑤のpgsqlの起動が動作しなければ、2度startにはならない) > > > > ⑧でノード1のstartを知らないのは、そういう仕様でしょうか? > > > > ちなみに、他の環境でも試したところ、tokenを45sにしても異常事象が発 > 生しないサーバもありました。 > > ②から④,⑤までの間の時間は一定ではなく、タイミングにより④、⑤は実行 > が遅れる、 > > もしくは、動作しない場合もあるということでしょうか。 > > > > 以上、よろしくお願いいたします。 > > > > > -----Original Message----- > > > From: renay****@ybb***** <> > > > Sent: Saturday, June 18, 2022 9:31 AM > > > To: renay****@ybb*****; linux****@lists*****; 辻 真 > 吾 > > > <tsuji****@ryobi*****> > > > Cc: d-ike****@ryobi***** > > > Subject: Re: Re: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード > 組込 > > > みについて > > > > > > 辻さん > > > > > > こんにちは、山内です。 > > > > > > ご参考までに、もう少しクラスタ構成の部分の流れを書くと以下になりま > す。 > > > (テキストですので、見ずらいかも知れません) > > > > > > ・今回の場合 > > > > > > 順番| ノード2 | ノード1 > > > > -------------------------------------------------------------------------- > > > ①| 単ノードでクラスタ構成 | > > > ②| | 再起動(こちらも単ノードでクラ > スタ > > > 構成を取る) > > > ③| ノード1の存在すら知らない | > > > ④| | DCノードとしてクラスタを制御(こ > こで > > > は、少しの間pacemakerのDCノードになるまで、余裕がありますが、 > 45sx1.2 > > > 前にDCノードになります。) > > > ⑤| | pgsqlはクラスタで起動していない > と判 > > > 断して、pgsqlのstartを実行 > > > ⑥| ---- ノード1の再起動後、45s x 1.2経過後にようやく2ノード > でク > > > ラスタを構築 ----- > > > ⑦| DCノードとしてクラスタを制御 | DCノードではなくなる > > > ⑧| pgsqlのノード1のstartを知らないので、ノード1にstartを指示 > | > > > ⑨| | すでに一旦startしているのでエ > ラー > > > > -------------------------------------------------------------------------- > > > > > > ・tokenを1000ms(1s)にした場合 > > > > > > 順番| ノード2 | ノード1 > > > > -------------------------------------------------------------------------- > > > ①| 単ノードでクラスタ構成 | > > > ②| | 再起動(こちらも単ノードでクラ > スタ > > > 構成を取る) > > > ③| ノード1の存在すら知らない | > > > ④| ---- ノード1の再起動後、1s x 1.2経過後にクラスタを構築 > ----- > > > ⑤| DCノードとしてクラスタを制御 | > > > ⑥| pgsqlのノード1のstartを知らないので、ノード1にstartを指示 > | > > > ⑦| | start成功 > > > > -------------------------------------------------------------------------- > > > > > > 以上です。 > > > > > > > ----- Original Message ----- > > > > > > > > From: "renay****@ybb*****" <renay****@ybb*****> > > > > To: "辻 真吾" <tsuji****@ryobi*****>; "LINUX-HA" > > > <linux****@lists*****> > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > > > Date: 2022/06/17 金 15:50 > > > > Subject: Re: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード > 組込 > > > みについて > > > > > > > > > > > > 辻さん > > > > > > > > こんにちは、山内です。 > > > > > > > > 以下に回答しますが、不明点についてはご確認ください。 > > > > > > > > > 動作確認を行いましたので、結果をご連絡します。 > > > > > また、何点かご教授いただきたいものがありますので、 > > > > > お手数ですがご回答をお願いいたします。 > > > > > > > > > > > token設定などが大きい場合、認識が遅れる事があります。 > > > > > > > > > > 元々、tokenに45000を設定した状態で2度startが実行されて失敗す > る動 > > > 作 > > > > > (以降、「異常事象」と記載します)が発生していましたが、 > > > > > tokenを1000に変更したところ、正常に動作しました。 > > > > > > > > かなり、長い45秒のtoken設定だったのですね。 > > > > 正常に動作した旨、承知しました。 > > > > > > > > > > > > > > 以下の点をご教授ください。 > > > > > ・tokenの意味をネットで調べると、「Corosync間の通信のタイムアウ > ト値」 > > > > > となっています。 > > > > > このタイムアウト値というのは、相手ノードとのハートビートの > > > > > インターバルみたいなものでしょうか? > > > > > > > > 厳密にいえば、違います。 > > > > 通信インターバルというよりも、tokenはクラスタ構成後のノード間通 > 信の > > > 正常性(token時間、corosync層のノード間の通信が遮断されるとエラー) > をチェ > > > ックするパラメータになります。 > > > > > > > > > ・token設定が大きいと、なぜ相手ノードの認識が遅れるのでしょう > か? > > > > > > > > corosyncの制御の中でtoken値は、上記のノード間通信の正常性のチェ > ック > > > に使いますが、この設定値を元にして、クラスタの初期構成時(corosync > の起動 > > > 直後)の確認も行っています。 > > > > 今回の場合、tokenを45000(45s)に設定されていたとのことですので、 > その > > > 1.2倍の時間をクラスタの初期構成時の待ち時間として処理しています。 > > > > > > > > この為、node1がクラスタとして残っている状態で、node2を起動する > と。。。。 > > > > 1)node2は自ノードだけでクラスタを組む ※この時点では、node2も > node1 > > > とのクラスタは組んでおらず、単一ノードとして認識しています。 > > > > 2)node2とnode1は、45s x 1.2秒後に確認が取れれクラスタになってい > るこ > > > とを認識する。 > > > > > > > > となり、tokenが大きいと、お互いのノードを含めたクラスタの構築は > 遅れ > > > ることになります。 > > > > > > > > pacemakerは、corosyncから2)の確認が取れる前にも処理を実行します > ので、 > > > node1は一旦、自ノードのみの構成しか認識していない為、pgsqlを起動し > てい > > > ないので、起動を開始することになります。 > > > > 一方、node2は、node1の参加に気づきますが、node1のpgsqlのstart > が実 > > > 行されている状態を認識していない為、node2がリソースの制御を開始し > て、 > > > 未起動のnode1のpgsqlのstartを実行してしまいます。 > > > > > > > > > 異常事象の発生時に、node2がnode1を上がってないと判断して、 > > > > > 再度起動しているとのことでしたが、node2の何がどうやって判断 > して > > > いる > > > > > のでしょうか? > > > > > (RAのmonitor処理が持っている情報をtokenの間隔で監視してい > る。 > > > > > 等でしょうか?) > > > > > > > > node2のpacemaker-cibというプロセスが管理している、cib情報を元に > して > > > リソースの起動や停止を制御しています。 > > > > ※クラスタ起動中にcibadmin -Qで表示される内容が相当します。 > > > > > > > > ですので、「(RAのmonitor処理が持っている情報をtokenの間隔で監視 > して > > > いる。等でしょうか?)」のようなことは行っていません。 > > > > > > > > > > > > > また、起動失敗後にcleanupを実行すると組込めますが、起動と > cleanup > > > で > > > > > 内部的な動作にどのような違いがあるのでしょうか? > > > > > (ネットワーク遅延であれば、cleanup後も失敗しそうに思えまし > て) > > > > > 2度startになる仕組みをもう少し詳細に教えていただけると幸いで > す。 > > > > > > > > すいません。このcleanupというのは、startがエラーになったリソース > を正 > > > 常に組み込めるということでしょうか? > > > > それとも別の意味でしょうか? > > > > > > > > cleanupは、クラスタ構成後にエラーが発生した後で実際されているとの > 認識 > > > ですので、この時は、node1/node2は認識済です。 > > > > 起動時のpgsqlのstartの2度のお話とは異なりますね。 > > > > > > > > > > > > > > ・tokenの値を小さくするとどのような影響があるものでしょうか? > > > > > また、一般的に推奨される値はどの程度でしょうか? > > > > > > > > corosyncの少し前のバージョンまでは、1000(1s)がデフォルトでしたが、 > 新 > > > しめのバージョンでは、3000(3s)がデフォルトのようです。 > > > > 短いと、クラスタの離脱を負荷などで誤って検知する場合がありますの > で、 > > > 3000(3s)あたりが良いのでないでしょうか? > > > > #なお、設定変更後は、十分テストは行ってください。 > > > > > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょうか? > > > > > > 3.でpacemaker,corosync停止後に、/var/lib/pacemaker/配下の > ファ > > > イルを一旦削除する。 > > > > > > > > > > 異常事象が発生する状態(=tokenに45000を設定した状態)で > > > > > 上記手順をとった場合、スレーブの組み込みは正常に動作しました。 > > > > > このことから、どのようなことが言えそうでしょうか? > > > > > > > > この部分は、正確な回答にはログを拝見する必要があると思いますが、 > > > > スレーブ側の誤ったリソース認識がファイル削除により無くなった為、 > 組み > > > 込めたのだと思います。 > > > > > > > > > > > > > > 質問が多くなり恐縮ですが、よろしくお願いいたします。 > > > > > > > > 以上です。l > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > > > > To: "renay****@ybb*****" <renay****@ybb*****>; > > > "LINUX-HA" <linux****@lists*****> > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > > > > Date: 2022/06/17 金 12:00 > > > > > Subject: RE: RE: RE: RE: Re: [Linux-ha-jp] Pacemakerのフェールオ > ーバ > > > ー後のノード組込みについて > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > お世話になっております。辻です。 > > > > > > > > > > 動作確認を行いましたので、結果をご連絡します。 > > > > > また、何点かご教授いただきたいものがありますので、 > > > > > お手数ですがご回答をお願いいたします。 > > > > > > > > > > > token設定などが大きい場合、認識が遅れる事があります。 > > > > > > > > > > 元々、tokenに45000を設定した状態で2度startが実行されて失敗す > る動 > > > 作 > > > > > (以降、「異常事象」と記載します)が発生していましたが、 > > > > > tokenを1000に変更したところ、正常に動作しました。 > > > > > > > > > > 以下の点をご教授ください。 > > > > > ・tokenの意味をネットで調べると、「Corosync間の通信のタイムアウ > ト値」 > > > > > となっています。 > > > > > このタイムアウト値というのは、相手ノードとのハートビートの > > > > > インターバルみたいなものでしょうか? > > > > > > > > > > ・token設定が大きいと、なぜ相手ノードの認識が遅れるのでしょう > か? > > > > > 異常事象の発生時に、node2がnode1を上がってないと判断して、 > > > > > 再度起動しているとのことでしたが、node2の何がどうやって判断 > して > > > いる > > > > > のでしょうか? > > > > > (RAのmonitor処理が持っている情報をtokenの間隔で監視してい > る。 > > > > > 等でしょうか?) > > > > > また、起動失敗後にcleanupを実行すると組込めますが、起動と > cleanup > > > で > > > > > 内部的な動作にどのような違いがあるのでしょうか? > > > > > (ネットワーク遅延であれば、cleanup後も失敗しそうに思えまし > て) > > > > > 2度startになる仕組みをもう少し詳細に教えていただけると幸いで > す。 > > > > > > > > > > ・tokenの値を小さくするとどのような影響があるものでしょうか? > > > > > また、一般的に推奨される値はどの程度でしょうか? > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょうか? > > > > > > 3.でpacemaker,corosync停止後に、/var/lib/pacemaker/配下の > ファ > > > イルを一旦削除する。 > > > > > > > > > > 異常事象が発生する状態(=tokenに45000を設定した状態)で > > > > > 上記手順をとった場合、スレーブの組み込みは正常に動作しました。 > > > > > このことから、どのようなことが言えそうでしょうか? > > > > > > > > > > 質問が多くなり恐縮ですが、よろしくお願いいたします。 > > > > > 以上です。 > > > > > > > > > > > -----Original Message----- > > > > > > From: renay****@ybb***** <> > > > > > > Sent: Friday, June 10, 2022 2:31 PM > > > > > > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA > > > > > > <linux****@lists*****> > > > > > > Cc: d-ike****@ryobi***** > > > > > > Subject: Re: RE: RE: RE: Re: [Linux-ha-jp] Pacemakerのフェールオ > ーバ > > > ー後の > > > > > > ノード組込みについて > > > > > > > > > > > > 辻さん > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > 承知いたしました。 > > > > > > 宜しくお願いいたします。 > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > > > > > > To: "renay****@ybb*****" > <renay****@ybb*****>; > > > > > > "LINUX-HA" <linux****@lists*****> > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > > > > > > Date: 2022/06/10 金 11:38 > > > > > > > Subject: RE: RE: RE: Re: [Linux-ha-jp] Pacemakerのフェールオ > ーバ > > > ー後の > > > > > > ノード組込みについて > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > お世話になっております。辻です。 > > > > > > > > > > > > > > ご回答ありがとうございます。回答内容について、承知しました。 > > > > > > > ネットワーク周りを確認して、後日、確認結果をお知らせさせて > いた > > > だきま > > > > > > す。 > > > > > > > > > > > > > > また、スコアやSTONITHの設定に関しても、アドバイスをありが > とう > > > ござい > > > > > > ます。 > > > > > > > 設定周りについて、もう少し検討してみます。 > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > From: renay****@ybb***** <> > > > > > > > > Sent: Friday, June 10, 2022 11:24 AM > > > > > > > > To: tsuji****@ryobi*****; LINUX-HA > > > <linux****@lists*****> > > > > > > > > Cc: d-ike****@ryobi***** > > > > > > > > Subject: Re: RE: RE: Re: [Linux-ha-jp] Pacemakerのフェールオ > ーバ > > > ー後の > > > > > > ノー > > > > > > > > ド組込みについて > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > > > > > > > ①再参加したnode1がnode2を認識していないので、自ノ > ード > > > のみで > > > > > > クラ > > > > > > > > スタ > > > > > > > > > > を構成する為に、pgsqlのstartを実行 > > > > > > > > > > このnode2を認識するのが遅れるのが問題と思います。 > > > > > > > > > > > > > > > > > > pacemakerの設定上、相手ノード(node2)を認識する時間をコ > ント > > > ロール > > > > > > > > > (delayさせる)ような設定はないものでしょうか? > > > > > > > > > > > > > > > > 相手ノードの認識時間をコントロールする設定はないと思いま > す。 > > > > > > > > > > > > > > > > > > ②node1のpgsqlのstartには時間が掛かっている > > > > > > > > > > > > > > > > > > 時間がかかっているのは、pacemaker側ではなく、 > > > > > > > > > Postgres側の要因との理解で正しいでしょうか? > > > > > > > > > もし、pacemaker側の設定でstart時間が変わるような設定が > > > > > > > > > あればご教示ください。 > > > > > > > > > > > > > > > > Postgres側ではないかと思われます。 > > > > > > > > ただし、19s程度ですので、実際には問題にはならないと思い > ます。 > > > > > > > > > > > > > > > > --- > > > > > > > > May 31 07:38:40 pgsql(r_pgsql)[247646]: INFO: > PostgreSQL > > > start > > > > > > > > command sent. > > > > > > > > (snip) > > > > > > > > May 31 07:38:59 pgsql(r_pgsql)[247646]: INFO: > PostgreSQL is > > > > > > started. > > > > > > > > --- > > > > > > > > > > > > > > > > 先ほどの書き方が悪かったかも知れませんが、もっとも大きな > 要因 > > > は、や > > > > > > はり > > > > > > > > node2の参加を認識しないことかと思います。 > > > > > > > > > > > > > > > > > > > > > > > > > > ③node2の参加を認識して、node1とnode2は再度クラス > タを > > > 構成 > > > > > > > > > > ※この時点では、まだ、node2のpgsqlは起動していな > い。 > > > > > > > > > > > > > > > > > > この時、node2はMaster状態のため、pgsqlは起動している > もの > > > と思い > > > > > > ます > > > > > > > > が、 > > > > > > > > > 「node1から見るとnode2のpgsqlが起動していないように > 見え > > > る」と > > > > > > の > > > > > > > > > 意味合いでしょうか? > > > > > > > > > > > > > > > > いえ、node2から見て、node1のpgsqlの起動がまだ未確認と > いう > > > 意味で > > > > > > す。 > > > > > > > > node1は、node2とクラスタを構築した後、リソースの開始・ > 停止 > > > 制御を > > > > > > 行わ > > > > > > > > ない役割に変わりますので、node1側では > > > > > > > > node2側のpgsql起動には関与しません。 > > > > > > > > > > > > > > > > > > > > > > > > > > > 先日ご連絡したネットワークの遅延らしい状態を確認され > た方 > > > が良い > > > > > > かと > > > > > > > > 思います。 > > > > > > > > > > > > > > > > > > 承知しました。ネットワーク周りを確認してみます。 > > > > > > > > > ちなみに、pacemaker関連の設定では、ネットワーク周りの > 設定 > > > は > > > > > > > > > corosync.conf くらいだと認識しておりますが、他にも何か設 > 定が > > > > > > > > > ありますでしょうか? > > > > > > > > > > > > > > > > token設定などが大きい場合、認識が遅れる事があります。 > > > > > > > > corosync/pacemakerの設定で、token以外に関連しそうな場所 > はな > > > いと思 > > > > > > われ > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > PGREX構成の場合、基本的にクラスタを構築する段階では、先 > に起 > > > 動した > > > > > > 方が > > > > > > > > Masterとなり、次にデータ同期した方がSlaveとなります。 > > > > > > > > 以下のMasterスコアの設定をされているようですが、あまり、 > 意味 > > > はない > > > > > > かと > > > > > > > > 思いますし、思わぬMaster移動によるサービス停止を発生させ > るか > > > も知れ > > > > > > ませ > > > > > > > > ん。 > > > > > > > > ---- > > > > > > > > <rsc_location id="location-ms_pgsql" rsc="ms_pgsql"> > > > > > > > > <rule id="location-ms_pgsql-rule" role="Master" > > > score="200"> > > > > > > > > <expression attribute="#uname" > > > > > > id="location-ms_pgsql-rule-expr" > > > > > > > > operation="eq" value="node01"/> > > > > > > > > </rule> > > > > > > > > </rsc_location> > > > > > > > > <rsc_location id="location-ms_pgsql-1" > rsc="ms_pgsql"> > > > > > > > > <rule id="location-ms_pgsql-1-rule" role="Master" > > > > > > score="100"> > > > > > > > > <expression attribute="#uname" > > > > > > > > id="location-ms_pgsql-1-rule-expr" operation="eq" > > > value="node02"/> > > > > > > > > </rule> > > > > > > > > </rsc_location> > > > > > > > > --- > > > > > > > > > > > > > > > > また、STONITHの設定(on-fail=fence)をされていないようです > が、 > > > > > > STONITH > > > > > > > > がない場合、stop故障などが発生するとサービス停止となる可 > 能性 > > > がござ > > > > > > いま > > > > > > > > す。 > > > > > > > > サービス停止を回避する為にも、出来ましたら、STONITHの設 > 定を > > > ご検討 > > > > > > され > > > > > > > > ることをお勧めいたします。 > > > > > > > > > > > > > > > > PGREX構成を取る場合には、運用ツールもございますので、こ > ちら > > > を利用 > > > > > > する > > > > > > > > 事も検討されることをお勧めいたします。 > > > > > > > > (この運用ツールでは、ノード起動に厳格な順序を持たせていま > すし、 > > > デー > > > > > > タ同 > > > > > > > > 期もツール内で実行してくれます) > > > > > > > > https://ja.osdn.net/projects/pg-rex/ > > > > > > > > > > > > > > > > 古いですが、以下の利用されている例などもあります。 > > > > > > > > https://qiita.com/U_ikki/items/5698e2c774f7882e31c0 > > > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > > > > > > > > To: "renay****@ybb*****" > > > <renay****@ybb*****>; > > > > > > > > "LINUX-HA" <linux****@lists*****> > > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > > > > > > > > Date: 2022/06/10 金 10:59 > > > > > > > > > Subject: RE: RE: Re: [Linux-ha-jp] Pacemakerのフェールオ > ーバ > > > ー後の > > > > > > ノー > > > > > > > > ド組込みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > おはようございます。辻です。 > > > > > > > > > > > > > > > > > > ログの解析、丁寧に説明いただき、ありがとうございます。 > > > > > > > > > いただいた内容について、何点か質問させてください。 > > > > > > > > > > > > > > > > > > > ①再参加したnode1がnode2を認識していないので、自ノ > ード > > > のみで > > > > > > クラ > > > > > > > > スタ > > > > > > > > > > を構成する為に、pgsqlのstartを実行 > > > > > > > > > > このnode2を認識するのが遅れるのが問題と思います。 > > > > > > > > > > > > > > > > > > pacemakerの設定上、相手ノード(node2)を認識する時間をコ > ント > > > ロール > > > > > > > > > (delayさせる)ような設定はないものでしょうか? > > > > > > > > > > > > > > > > > > > ②node1のpgsqlのstartには時間が掛かっている > > > > > > > > > > > > > > > > > > 時間がかかっているのは、pacemaker側ではなく、 > > > > > > > > > Postgres側の要因との理解で正しいでしょうか? > > > > > > > > > もし、pacemaker側の設定でstart時間が変わるような設定が > > > > > > > > > あればご教示ください。 > > > > > > > > > > > > > > > > > > > ③node2の参加を認識して、node1とnode2は再度クラス > タを > > > 構成 > > > > > > > > > > ※この時点では、まだ、node2のpgsqlは起動していな > い。 > > > > > > > > > > > > > > > > > > この時、node2はMaster状態のため、pgsqlは起動している > もの > > > と思い > > > > > > ます > > > > > > > > が、 > > > > > > > > > 「node1から見るとnode2のpgsqlが起動していないように > 見え > > > る」と > > > > > > の > > > > > > > > > 意味合いでしょうか? > > > > > > > > > > > > > > > > > > > 先日ご連絡したネットワークの遅延らしい状態を確認され > た方 > > > が良い > > > > > > かと > > > > > > > > 思います。 > > > > > > > > > > > > > > > > > > 承知しました。ネットワーク周りを確認してみます。 > > > > > > > > > ちなみに、pacemaker関連の設定では、ネットワーク周りの > 設定 > > > は > > > > > > > > > corosync.conf くらいだと認識しておりますが、他にも何か設 > 定が > > > > > > > > > ありますでしょうか? > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > From: renay****@ybb***** <> > > > > > > > > > > Sent: Friday, June 10, 2022 10:25 AM > > > > > > > > > > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA > > > > > > > > > > <linux****@lists*****> > > > > > > > > > > Cc: d-ike****@ryobi***** > > > > > > > > > > Subject: Re: RE: Re: [Linux-ha-jp] Pacemakerのフェール > オー > > > バー後 > > > > > > のノ > > > > > > > > ード > > > > > > > > > > 組込みについて > > > > > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > > > > > おはようございます。山内です。 > > > > > > > > > > > > > > > > > > > > 一応、2度startが実行されて失敗する動作については、わ > かり > > > ました > > > > > > ので、 > > > > > > > > お > > > > > > > > > > 知らせします。 > > > > > > > > > > > > > > > > > > > > ①再参加したnode1がnode2を認識していないので、自ノ > ード > > > のみで > > > > > > クラ > > > > > > > > スタ > > > > > > > > > > を構成する為に、pgsqlのstartを実行 > > > > > > > > > > このnode2を認識するのが遅れるのが問題と思います。 > > > > > > > > > > ②node1のpgsqlのstartには時間が掛かっている > > > > > > > > > > ③node2の参加を認識して、node1とnode2は再度クラス > タを > > > 構成 > > > > > > > > > > ※この時点では、まだ、node2のpgsqlは起動していな > い。 > > > > > > > > > > ④node2が自身でMaster起動しているpgsqlを認識してい > るが、 > > > node1 > > > > > > の > > > > > > > > pgsql > > > > > > > > > > は未起動として認識 > > > > > > > > > > ⑤node2がnode1へのpgsqlの実行を指示 > > > > > > > > > > ⑥この時点では、node1のpgsqlも起動を開始しているの > で、 > > > pgsql > > > > > > は起動 > > > > > > > > 済と > > > > > > > > > > してエラーとなる。 > > > > > > > > > > ⑦結果、node1のstopが実行される。 > > > > > > > > > > > > > > > > > > > > ※多分、上記の2回目のstartが実行されなければ、うまく > 再構 > > > 成する > > > > > > かと > > > > > > > > 思い > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > ただし、以下のログの動きは、stop前のnode1のmonitor > 処理 > > > で状態 > > > > > > が変 > > > > > > > > わっ > > > > > > > > > > たと思われます。 > > > > > > > > > > --- > > > > > > > > > > May 31 07:38:59 pgsql(r_pgsql)[248725]: INFO: > Changing > > > > > > > > r_pgsql-status > > > > > > > > > > on node1 : HS:alone->STOP. > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-attrd [247415] > > > > > > > > > > (attrd_peer_update) notice: Setting > > > r_pgsql-status[node1]: > > > > > > > > HS:alone -> > > > > > > > > > > STOP | from node1 > > > > > > > > > > ---- > > > > > > > > > > > > > > > > > > > > 再現性はあるとのことですので、もし、常に上記の動作(2 > 度start) > > > と > > > > > > なり > > > > > > > > 停止し > > > > > > > > > > たノードの再構成に失敗するようであれば、やはり、先日 > ご連 > > > 絡した > > > > > > ネッ > > > > > > > > トワ > > > > > > > > > > ークの遅延らしい状態を確認された方が良いかと思います。 > > > > > > > > > > > > > > > > > > > > 以上、宜しくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > > > > > > > > > > To: "renay****@ybb*****" > > > > > > <renay****@ybb*****>; > > > > > > > > > > "LINUX-HA" <linux****@lists*****> > > > > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > > > > > > > > > > Date: 2022/06/10 金 09:39 > > > > > > > > > > > Subject: RE: Re: [Linux-ha-jp] Pacemakerのフェール > オー > > > バー後 > > > > > > のノ > > > > > > > > ード > > > > > > > > > > 組込みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > > > > > お世話になっております。辻です。 > > > > > > > > > > > > > > > > > > > > > > > restore_command="/bin/cp > /dbfp/pgarch/arc1/%f %p" > > > > > > > > > > > > repuser="repuser" > > > > > > > > > > > > > > > > > > > > > > > > このあたりの設定が影響しているのかも知れません。 > > > > > > > > > > > > > > > > > > > > > > 承知しました。ありがとうございます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > はい、不要なcib情報(クラスタ情報)を削除する > 事が > > > 目的で > > > > > > す。 > > > > > > > > > > > > > 基本的に停止した側(node1)で、クラスタに再参加す > る場 > > > 合、の > > > > > > この > > > > > > > > デー > > > > > > > > > > タは > > > > > > > > > > > > 全く不要となります。 > > > > > > > > > > > > > 逆にいうと、データが残っていると、そのデータを > 利用 > > > してク > > > > > > ラス > > > > > > > > タ情 > > > > > > > > > > 報が > > > > > > > > > > > > 一旦生成される為、不具合を招く場合もあります。 > > > > > > > > > > > > > > > > > > > > > > そういうものなのですね。 > > > > > > > > > > > では、クラスタ起動前の手順として、必ず削除するよう > にし > > > た方が > > > > > > > > > > > よさそうですね。 > > > > > > > > > > > > > > > > > > > > > > > > どういう設定かは失念していますが、設定ミスによ > って、 > > > Slave > > > > > > が参 > > > > > > > > 加で > > > > > > > > > > きな > > > > > > > > > > > > い事はあります。 > > > > > > > > > > > > > 多分、そのケースに当たるのかとは思いますが。。。 > > > > > > > > > > > > > > > > > > > > > > 承知しました。 > > > > > > > > > > > > > > > > > > > > > > > > こちらでも、開示頂いた内容について、手元のPGREX > > > 構成し > > > > > > てい > > > > > > > > る設 > > > > > > > > > > 定と > > > > > > > > > > > > 比較してみたいと思います。 > > > > > > > > > > > > > ※時間があれば、pgsqlの環境でも確認してみようと > 思い > > > ます。 > > > > > > > > > > > > > > > > > > > > > > ありがとうございます。 > > > > > > > > > > > お手数をおかけしますがよろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > > > From: renay****@ybb***** <> > > > > > > > > > > > > Sent: Thursday, June 9, 2022 6:57 PM > > > > > > > > > > > > To: renay****@ybb*****; 辻 真吾 > > > > > > <tsuji****@ryobi*****>; > > > > > > > > > > > > LINUX-HA <linux****@lists*****> > > > > > > > > > > > > Cc: d-ike****@ryobi***** > > > > > > > > > > > > Subject: Re: Re: [Linux-ha-jp] Pacemakerのフェール > オー > > > バー後 > > > > > > のノ > > > > > > > > ード > > > > > > > > > > 組込 > > > > > > > > > > > > みについて > > > > > > > > > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > > > > > > > > > こんばんは、山内です。 > > > > > > > > > > > > > > > > > > > > > > > > 手元の動作するPGREX環境とは、以下の辺りのpgsql > パラ > > > メータ > > > > > > が異 > > > > > > > > なっ > > > > > > > > > > てい > > > > > > > > > > > > るようです。 > > > > > > > > > > > > ※ざっと見ただけですが。。。 > > > > > > > > > > > > > > > > > > > > > > > > restore_command="/bin/cp > /dbfp/pgarch/arc1/%f %p" > > > > > > > > > > > > repuser="repuser" > > > > > > > > > > > > > > > > > > > > > > > > このあたりの設定が影響しているのかも知れません。 > > > > > > > > > > > > > > > > > > > > > > > > また、何かわかりましたら、ご連絡いたします。 > > > > > > > > > > > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > > > > > > > > > From: "renay****@ybb*****" > > > > > > > > <renay****@ybb*****> > > > > > > > > > > > > > To: "辻 真吾" <tsuji****@ryobi*****>; "LINUX-HA" > > > > > > > > > > > > > <linux****@lists*****> > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > > > > > > > > > > > > Date: 2022/06/09 木 18:51 > > > > > > > > > > > > > Subject: Re: [Linux-ha-jp] Pacemakerのフェール > オー > > > バー後 > > > > > > のノ > > > > > > > > ード > > > > > > > > > > 組込 > > > > > > > > > > > > みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > > > > > > > > > > > こんばんは、山内です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょ > うか? > > > > > > > > > > > > > > > 3.でpacemaker,corosync停止後に、 > > > /var/lib/pacemaker/ > > > > > > 配下の > > > > > > > > ファ > > > > > > > > > > イル > > > > > > > > > > > > を一旦削除する。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > すぐに環境を扱えない状況のため、後日試して結 > 果を > > > お伝え > > > > > > しま > > > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > 宜しくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > なお、上記手順を実施するのはどのような狙いで > しょ > > > うか? > > > > > > > > > > > > > > フェールオーバー発生後に、何か不要な情報をク > リア > > > する目 > > > > > > 的で > > > > > > > > しょ > > > > > > > > > > う > > > > > > > > > > > > か? > > > > > > > > > > > > > > また、この手順を実施したときの影響をご教示く > ださ > > > い。 > > > > > > > > > > > > > > > > > > > > > > > > > > はい、不要なcib情報(クラスタ情報)を削除する > 事が > > > 目的で > > > > > > す。 > > > > > > > > > > > > > 基本的に停止した側(node1)で、クラスタに再参加す > る場 > > > 合、の > > > > > > この > > > > > > > > デー > > > > > > > > > > タは > > > > > > > > > > > > 全く不要となります。 > > > > > > > > > > > > > 逆にいうと、データが残っていると、そのデータを > 利用 > > > してク > > > > > > ラス > > > > > > > > タ情 > > > > > > > > > > 報が > > > > > > > > > > > > 一旦生成される為、不具合を招く場合もあります。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > また、頂いた手順にはありませんが、 > > > > > > > > > > /var/lib/pgsql/tmp/PGSQL.lock > > > > > > > > > > > > の削除はどうされていますしょうか? > > > > > > > > > > > > > > > ※通常、pgsqlはファイルが残っていると起動し > ませ > > > んが、 > > > > > > 手順 > > > > > > > > には > > > > > > > > > > ない > > > > > > > > > > > > ようでしたので。。。念の為、確認させて頂きました。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > すみません、手順への記載を割愛していました。 > > > > > > > > > > > > > > このファイルは、corosync、pacemakerの起動前 > に削 > > > 除して > > > > > > いま > > > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > 承知いたしました。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > ちなみに、この事象ですが、再現性はあります > でし > > > ょうか? > > > > > > > > (100%??) > > > > > > > > > > > > > > > > > > > > > > > > > > > > 100%再現しております。 > > > > > > > > > > > > > > > > > > > > > > > > > > こちらも、承知いたしました。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > その場合、通常のpgsqlのリソースエージェン > トを > > > 利用し > > > > > > た場 > > > > > > > > 合で > > > > > > > > > > も、 > > > > > > > > > > > > 問題が再現しますでしょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > 「通常のpgsql=デバッグを仕込んでいないpgsql」 > と > > > いう理 > > > > > > 解で > > > > > > > > よろ > > > > > > > > > > しけ > > > > > > > > > > > > れば、 > > > > > > > > > > > > > > 通常のpgsqlでも再現しております。 > > > > > > > > > > > > > > > > > > > > > > > > > > 承知いたしました。 > > > > > > > > > > > > > どういう設定かは失念していますが、設定ミスによ > って、 > > > Slave > > > > > > が参 > > > > > > > > 加で > > > > > > > > > > きな > > > > > > > > > > > > い事はあります。 > > > > > > > > > > > > > 多分、そのケースに当たるのかとは思いますが。。。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > ネットワークの遅延などが、お使いの環境で起 > きて > > > いるか > > > > > > もと > > > > > > > > 思っ > > > > > > > > > > てい > > > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > 承知しました。 > > > > > > > > > > > > > > ネットワーク遅延も視野に入れて引き続き検証し > てみ > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > 宜しくお願いいたします。 > > > > > > > > > > > > > 通常、node1が再参加した時点で、node2とクラス > タを > > > 組むの > > > > > > が正 > > > > > > > > しい > > > > > > > > > > 動作 > > > > > > > > > > > > となります。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > 問題の無い範囲で、cib.xml(pacemakerに流し > 込ん > > > でいる) > > > > > > を拝 > > > > > > > > 見で > > > > > > > > > > きれ > > > > > > > > > > > > ば、もう少し分かるかも知れません。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > ありがとうございます。 > > > > > > > > > > > > > > 利用しているxmlを以下に提示させていただきま > す。 > > > > > > > > > > > > > > ("r_service_fh"というリソースのRAは、著作権 > の問 > > > 題から > > > > > > ご提 > > > > > > > > 示で > > > > > > > > > > きま > > > > > > > > > > > > せんが、 > > > > > > > > > > > > > > DNSに関する操作を行うRAです。) > > > > > > > > > > > > > > > > > > > > > > > > > > こちらでも、開示頂いた内容について、手元のPGREX > > > 構成し > > > > > > てい > > > > > > > > る設 > > > > > > > > > > 定と > > > > > > > > > > > > 比較してみたいと思います。 > > > > > > > > > > > > > ※時間があれば、pgsqlの環境でも確認してみようと > 思い > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > > > > > > > > > > > > > To: "renay****@ybb*****" > > > > > > > > <renay****@ybb*****>; > > > > > > > > > > > > > > "LINUX-HA" <linux****@lists*****> > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****> > > > > > > > > > > > > > > Date: 2022/06/09 木 18:14 > > > > > > > > > > > > > > Subject: RE: RE: RE: RE: [Linux-ha-jp] > > > > > > > > > > > > > > Pacemakerのフェールオーバー後のノード組込み > につ > > > いて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > お世話になっております。辻です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょ > うか? > > > > > > > > > > > > > > > 3.でpacemaker,corosync停止後に、 > > > /var/lib/pacemaker/ > > > > > > 配下の > > > > > > > > ファ > > > > > > > > > > イル > > > > > > > > > > > > を一旦削除する。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > すぐに環境を扱えない状況のため、後日試して結 > 果を > > > お伝え > > > > > > しま > > > > > > > > す。 > > > > > > > > > > > > > > なお、上記手順を実施するのはどのような狙いで > しょ > > > うか? > > > > > > > > > > > > > > フェールオーバー発生後に、何か不要な情報をク > リア > > > する目 > > > > > > 的で > > > > > > > > しょ > > > > > > > > > > う > > > > > > > > > > > > か? > > > > > > > > > > > > > > また、この手順を実施したときの影響をご教示く > ださ > > > い。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > また、頂いた手順にはありませんが、 > > > > > > > > > > /var/lib/pgsql/tmp/PGSQL.lock > > > > > > > > > > > > の削除はどうされていますしょうか? > > > > > > > > > > > > > > > ※通常、pgsqlはファイルが残っていると起動し > ませ > > > んが、 > > > > > > 手順 > > > > > > > > には > > > > > > > > > > ない > > > > > > > > > > > > ようでしたので。。。念の為、確認させて頂きました。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > すみません、手順への記載を割愛していました。 > > > > > > > > > > > > > > このファイルは、corosync、pacemakerの起動前 > に削 > > > 除して > > > > > > いま > > > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ちなみに、この事象ですが、再現性はあります > でし > > > ょうか? > > > > > > > > (100%??) > > > > > > > > > > > > > > > > > > > > > > > > > > > > 100%再現しております。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > その場合、通常のpgsqlのリソースエージェン > トを > > > 利用し > > > > > > た場 > > > > > > > > 合で > > > > > > > > > > も、 > > > > > > > > > > > > 問題が再現しますでしょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > 「通常のpgsql=デバッグを仕込んでいないpgsql」 > と > > > いう理 > > > > > > 解で > > > > > > > > よろ > > > > > > > > > > しけ > > > > > > > > > > > > れば、 > > > > > > > > > > > > > > 通常のpgsqlでも再現しております。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ネットワークの遅延などが、お使いの環境で起 > きて > > > いるか > > > > > > もと > > > > > > > > 思っ > > > > > > > > > > てい > > > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > 承知しました。 > > > > > > > > > > > > > > ネットワーク遅延も視野に入れて引き続き検証し > てみ > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 問題の無い範囲で、cib.xml(pacemakerに流し > 込ん > > > でいる) > > > > > > を拝 > > > > > > > > 見で > > > > > > > > > > きれ > > > > > > > > > > > > ば、もう少し分かるかも知れません。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > ありがとうございます。 > > > > > > > > > > > > > > 利用しているxmlを以下に提示させていただきま > す。 > > > > > > > > > > > > > > ("r_service_fh"というリソースのRAは、著作権 > の問 > > > 題から > > > > > > ご提 > > > > > > > > 示で > > > > > > > > > > きま > > > > > > > > > > > > せんが、 > > > > > > > > > > > > > > DNSに関する操作を行うRAです。) > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > -------------------------------------------------------------------- > > > > > > > > > > > > > > ----- <cib crm_feature_set="3.11.0" > > > > > > > > validate-with="pacemaker-3.7" > > > > > > > > > > > > > > epoch="14" num_updates="0" admin_epoch="0"> > > > > > > > > > > > > > > <configuration> > > > > > > > > > > > > > > <crm_config> > > > > > > > > > > > > > > <cluster_property_set > > > id="cib-bootstrap-options"> > > > > > > > > > > > > > > <nvpair > > > > > > id="cib-bootstrap-options-no-quorum-policy" > > > > > > > > > > > > name="no-quorum-policy" value="ignore"/> > > > > > > > > > > > > > > <nvpair > > > > > > id="cib-bootstrap-options-stonith-enabled" > > > > > > > > > > > > name="stonith-enabled" value="false"/> > > > > > > > > > > > > > > </cluster_property_set> > > > > > > > > > > > > > > </crm_config> > > > > > > > > > > > > > > <nodes/> > > > > > > > > > > > > > > <resources> > > > > > > > > > > > > > > <primitive class="ocf" id="r_service_fh" > > > > > > provider="local" > > > > > > > > > > > > type="FloatingDNS"> > > > > > > > > > > > > > > <instance_attributes > > > > > > > > > > id="r_service_fh-instance_attributes"> > > > > > > > > > > > > > > <nvpair > > > > > > > > id="r_service_fh-instance_attributes-hostname" > > > > > > > > > > > > name="hostname" value="node00"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > id="r_service_fh-instance_attributes-zonename" > > > > > > > > > > > > name="zonename" value="mynetwork.local"/> > > > > > > > > > > > > > > </instance_attributes> > > > > > > > > > > > > > > <meta_attributes > > > > > > id="r_service_fh-meta_attributes"> > > > > > > > > > > > > > > <nvpair > > > > > > > > > > > > id="r_service_fh-meta_attributes-migration-threshold" > > > > > > > > > > > > name="migration-threshold" value="1"/> > > > > > > > > > > > > > > <nvpair > > > > > > id="r_service_fh-meta_attributes-target-role" > > > > > > > > > > > > name="target-role" value="Started"/> > > > > > > > > > > > > > > </meta_attributes> > > > > > > > > > > > > > > <operations> > > > > > > > > > > > > > > <op > id="r_service_fh-monitor-interval-10s" > > > > > > > > interval="10s" > > > > > > > > > > > > name="monitor" on-fail="restart" timeout="60s"/> > > > > > > > > > > > > > > <op id="r_service_fh-start-interval-0s" > > > > > > interval="0s" > > > > > > > > > > > > name="start" on-fail="stop" timeout="50s"/> > > > > > > > > > > > > > > <op id="r_service_fh-stop-interval-0s" > > > > > > interval="0s" > > > > > > > > > > > > name="stop" on-fail="block" timeout="60s"/> > > > > > > > > > > > > > > </operations> > > > > > > > > > > > > > > </primitive> > > > > > > > > > > > > > > <clone id="ms_pgsql"> > > > > > > > > > > > > > > <primitive class="ocf" id="r_pgsql" > > > > > > provider="linuxhajp" > > > > > > > > > > > > type="pgsql"> > > > > > > > > > > > > > > <instance_attributes > > > > > > > > id="r_pgsql-instance_attributes"> > > > > > > > > > > > > > > <nvpair > > > > > > id="r_pgsql-instance_attributes-master_ip" > > > > > > > > > > > > name="master_ip" value="node00"/> > > > > > > > > > > > > > > <nvpair > > > > > > id="r_pgsql-instance_attributes-node_list" > > > > > > > > > > > > name="node_list" value="node01 node02"/> > > > > > > > > > > > > > > <nvpair > > > id="r_pgsql-instance_attributes-pgctl" > > > > > > > > > > > > name="pgctl" value="/usr/pgsql-14/bin/pg_ctl"/> > > > > > > > > > > > > > > <nvpair > > > > > > id="r_pgsql-instance_attributes-pgdata" > > > > > > > > > > > > name="pgdata" value="/var/lib/pgsql/14/data"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > > > > > > id="r_pgsql-instance_attributes-primary_conninfo_opt" > > > > > > > > > > > > name="primary_conninfo_opt" > value="keepalives_idle=60 > > > > > > > > > > > > keepalives_interval=5 keepalives_count=5"/> > > > > > > > > > > > > > > <nvpair > > > id="r_pgsql-instance_attributes-psql" > > > > > > > > > > name="psql" > > > > > > > > > > > > value="/usr/pgsql-14/bin/psql"/> > > > > > > > > > > > > > > <nvpair > > > > > > id="r_pgsql-instance_attributes-rep_mode" > > > > > > > > > > > > name="rep_mode" value="sync"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > > > id="r_pgsql-instance_attributes-restore_command" > > > > > > > > > > > > name="restore_command" value="false"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > id="r_pgsql-instance_attributes-stop_escalate" > > > > > > > > > > > > name="stop_escalate" value="0"/> > > > > > > > > > > > > > > </instance_attributes> > > > > > > > > > > > > > > <operations> > > > > > > > > > > > > > > <op id="r_pgsql-demote-interval-0s" > > > > > > interval="0s" > > > > > > > > > > > > name="demote" on-fail="block" start-delay="0s" > > > > > > timeout="1200s"/> > > > > > > > > > > > > > > <op > id="r_pgsql-methods-interval-0s" > > > > > > interval="0s" > > > > > > > > > > > > name="methods" timeout="5s"/> > > > > > > > > > > > > > > <op > id="r_pgsql-monitor-interval-30s" > > > > > > > > interval="30s" > > > > > > > > > > > > name="monitor" on-fail="restart" start-delay="10s" > > > > > > > > timeout="480s"/> > > > > > > > > > > > > > > <op id="r_pgsql-monitor-interval-7s" > > > > > > interval="7s" > > > > > > > > > > > > name="monitor" on-fail="restart" role="Master" > > > start-delay="9s" > > > > > > > > > > > > timeout="480s"/> > > > > > > > > > > > > > > <op id="r_pgsql-notify-interval-0s" > > > > > > interval="0s" > > > > > > > > > > > > name="notify" start-delay="0s" timeout="90s"/> > > > > > > > > > > > > > > <op id="r_pgsql-promote-interval-0s" > > > > > > interval="0s" > > > > > > > > > > > > name="promote" on-fail="restart" start-delay="0s" > > > > > > > > timeout="9000s"/> > > > > > > > > > > > > > > <op id="r_pgsql-start-interval-0s" > > > interval="0s" > > > > > > > > > > > > name="start" on-fail="restart" start-delay="0s" > > > > > > > > timeout="1209600s"/> > > > > > > > > > > > > > > <op id="r_pgsql-stop-interval-0s" > > > interval="0s" > > > > > > > > > > > > name="stop" on-fail="block" start-delay="0s" > > > > > > timeout="1200s"/> > > > > > > > > > > > > > > </operations> > > > > > > > > > > > > > > </primitive> > > > > > > > > > > > > > > <meta_attributes > > > id="ms_pgsql-meta_attributes"> > > > > > > > > > > > > > > <nvpair > > > > > > id="ms_pgsql-meta_attributes-promotable" > > > > > > > > > > > > name="promotable" value="true"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > id="ms_pgsql-meta_attributes-promoted-max" > > > > > > > > > > > > name="promoted-max" value="1"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > > > id="ms_pgsql-meta_attributes-promoted-node-max" > > > > > > > > > > > > name="promoted-node-max" value="1"/> > > > > > > > > > > > > > > <nvpair > > > > > > id="ms_pgsql-meta_attributes-clone-max" > > > > > > > > > > > > name="clone-max" value="2"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > id="ms_pgsql-meta_attributes-clone-node-max" > > > > > > > > > > > > name="clone-node-max" value="1"/> > > > > > > > > > > > > > > <nvpair > > > id="ms_pgsql-meta_attributes-notify" > > > > > > > > > > name="notify" > > > > > > > > > > > > value="true"/> > > > > > > > > > > > > > > <nvpair > > > > > > id="ms_pgsql-meta_attributes-target-role" > > > > > > > > > > > > name="target-role" value="Master"/> > > > > > > > > > > > > > > </meta_attributes> > > > > > > > > > > > > > > </clone> > > > > > > > > > > > > > > </resources> > > > > > > > > > > > > > > <constraints> > > > > > > > > > > > > > > <rsc_location id="location-ms_pgsql" > > > > > > rsc="ms_pgsql"> > > > > > > > > > > > > > > <rule id="location-ms_pgsql-rule" > > > role="Master" > > > > > > > > > > score="200"> > > > > > > > > > > > > > > <expression attribute="#uname" > > > > > > > > > > > > id="location-ms_pgsql-rule-expr" operation="eq" > > > > > > value="node01"/> > > > > > > > > > > > > > > </rule> > > > > > > > > > > > > > > </rsc_location> > > > > > > > > > > > > > > <rsc_location id="location-ms_pgsql-1" > > > > > > rsc="ms_pgsql"> > > > > > > > > > > > > > > <rule id="location-ms_pgsql-1-rule" > > > role="Master" > > > > > > > > > > > > score="100"> > > > > > > > > > > > > > > <expression attribute="#uname" > > > > > > > > > > > > id="location-ms_pgsql-1-rule-expr" operation="eq" > > > > > > > > value="node02"/> > > > > > > > > > > > > > > </rule> > > > > > > > > > > > > > > </rsc_location> > > > > > > > > > > > > > > <rsc_colocation > > > > > > > > > > id="colocation-r_service_fh-ms_pgsql-INFINITY" > > > > > > > > > > > > rsc="r_service_fh" rsc-role="Started" > score="INFINITY" > > > > > > > > > > with-rsc="ms_pgsql" > > > > > > > > > > > > with-rsc-role="Master"/> > > > > > > > > > > > > > > <rsc_order first="ms_pgsql" > > > first-action="promote" > > > > > > > > > > > > id="order-ms_pgsql-r_service_fh-Optional" > > > kind="Optional" > > > > > > > > > > > > symmetrical="false" then="r_service_fh" > > > then-action="start"/> > > > > > > > > > > > > > > <rsc_order first="ms_pgsql" > > > first-action="demote" > > > > > > > > > > > > id="order-ms_pgsql-r_service_fh-Optional-1" > > > kind="Optional" > > > > > > > > > > > > symmetrical="false" then="r_service_fh" > > > then-action="stop"/> > > > > > > > > > > > > > > </constraints> > > > > > > > > > > > > > > <rsc_defaults> > > > > > > > > > > > > > > <meta_attributes > > > id="rsc_defaults-meta_attributes"> > > > > > > > > > > > > > > <nvpair > > > > > > > > > > id="rsc_defaults-meta_attributes-resource-stickiness" > > > > > > > > > > > > name="resource-stickiness" value="INFINITY"/> > > > > > > > > > > > > > > <nvpair > > > > > > > > > > id="rsc_defaults-meta_attributes-migration-threshold" > > > > > > > > > > > > name="migration-threshold" value="1"/> > > > > > > > > > > > > > > </meta_attributes> > > > > > > > > > > > > > > </rsc_defaults> > > > > > > > > > > > > > > </configuration> > > > > > > > > > > > > > > <status/> > > > > > > > > > > > > > > </cib> > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > -------------------------------------------------------------------- > > > > > > > > > > > > > > ----- > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > > > > > > From: renay****@ybb***** <> > > > > > > > > > > > > > > > Sent: Thursday, June 9, 2022 3:25 PM > > > > > > > > > > > > > > > To: 辻 真吾 <tsuji****@ryobi*****>; LINUX-HA > > > > > > > > > > > > > > > <linux****@lists*****> > > > > > > > > > > > > > > > Cc: d-ike****@ryobi***** > > > > > > > > > > > > > > > Subject: Re: RE: RE: RE: [Linux-ha-jp] Pacemaker > > > のフェ > > > > > > ール > > > > > > > > オー > > > > > > > > > > バー > > > > > > > > > > > > 後のノ > > > > > > > > > > > > > > > ード組込みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 何かお使いになっているリソースや、手順 > など > > > で、node2 > > > > > > > > から > > > > > > > > > > node1 > > > > > > > > > > > > の > > > > > > > > > > > > > > > r_pgsqlのエラーカウントをクリアするような事 > が起 > > > きてい > > > > > > ませ > > > > > > > > んで > > > > > > > > > > しょ > > > > > > > > > > > > う > > > > > > > > > > > > > > > か? > > > > > > > > > > > > > > > > > もしくは、使ったことはありませんが、 > > > failure-timeout > > > > > > を > > > > > > > > 設定 > > > > > > > > > > して > > > > > > > > > > > > いるな > > > > > > > > > > > > > > > どで、エラーカウントを一定時間で実行するよ > うな > > > 設定を > > > > > > 使っ > > > > > > > > てい > > > > > > > > > > ませ > > > > > > > > > > > > んか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 申し訳ありません。 > > > > > > > > > > > > > > > > 最初のメールでお伝えした手順で記載できて > おり > > > ません > > > > > > でし > > > > > > > > た。 > > > > > > > > > > > > > > > > 実施した手順は、正確には以下になります。(手 > 順 > > > 7を追 > > > > > > 記し > > > > > > > > まし > > > > > > > > > > た) > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 実施手順 > > > > > > > > > > > > > > > > 1. ノード1のpostgresプロセスをkill > > > > > > > > > > > > > > > > 2. ノード2がマスターに昇格 > > > > > > > > > > > > > > > > 3. ノード1のpacemaker、corosyncを > systemctl > > > で停 > > > > > > 止 > > > > > > > > > > > > > > > > 4. ノード1でテーブル空間のディレクトリ配 > 下と > > > > > > PGDATA > > > > > > > > のデ > > > > > > > > > > ィレ > > > > > > > > > > > > クトリ > > > > > > > > > > > > > > > を削除 > > > > > > > > > > > > > > > > 5. ノード1でpg_basebackupを実施 > > > > > > > > > > > > > > > > 6. ノード1のcorosync、pacemakerを > systemctl > > > で起 > > > > > > 動 > > > > > > > > > > > > > > > > → ここでノード1が"sync"状態になる想 > 定で > > > すが、 > > > > > > > > > > > > > > > > 実際には起動処理が実施された後に、 > > > > > > > > > > > > > > > > 停止状態に遷移してしまいます。※ > > > > > > > > > > > > > > > > 7. ノード2で「pcs resource cleanup r_pgsql」 > > > を実施 > > > > > > > > > > > > > > > > → ここでノード1が正常に組込まれる。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 今回ご指摘いただいたのは、この手順7の部 > 分の > > > ことだ > > > > > > と思 > > > > > > > > いま > > > > > > > > > > す。 > > > > > > > > > > > > > > > > 本件で問題としているのは、手順6でstart処 > 理が > > > 内部的 > > > > > > に2 > > > > > > > > 回呼 > > > > > > > > > > ばれ > > > > > > > > > > > > ている > > > > > > > > > > > > > > > 点になります。 > > > > > > > > > > > > > > > > 山内さんがおっしゃられている、下記の「node1 > > > のr_pgsql > > > > > > > > のstart > > > > > > > > > > の > > > > > > > > > > > > 失敗を > > > > > > > > > > > > > > > 処理」した原因を > > > > > > > > > > > > > > > > 突き止めたいと思っております。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ★node1のr_pgsqlのstartの失敗を処理し > て、 > > > クラス > > > > > > タは > > > > > > > > 一旦 > > > > > > > > > > 安定 > > > > > > > > > > > > 状態に > > > > > > > > > > > > > > > 入ります。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 先日送付させていただいたログで言いますと、 > 下 > > > 記の部 > > > > > > 分で > > > > > > > > start > > > > > > > > > > 処理 > > > > > > > > > > > > が2度 > > > > > > > > > > > > > > > 動作している様に > > > > > > > > > > > > > > > > 見えておりまして、一度「STOP->HS:alone」 > に > > > 遷移し > > > > > > た後 > > > > > > > > に、 > > > > > > > > > > > > > > > 「HS:alone->STOP」に遷移している > > > > > > > > > > > > > > > > 原因を調べたく思っております。 > > > > > > > > > > > > > > > > (最初に詳細にお伝えできておらず、申し訳 > あり > > > ません。) > > > > > > > > > > > > > > > > このstartの失敗処理について、何か原因とし > て考 > > > えられ > > > > > > るも > > > > > > > > のは > > > > > > > > > > あり > > > > > > > > > > > > ますで > > > > > > > > > > > > > > > しょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以下の手順を取った場合、どうなりますでしょ > うか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 3.でpacemaker,corosync停止後に、 > > > /var/lib/pacemaker/ > > > > > > 配下の > > > > > > > > ファ > > > > > > > > > > イル > > > > > > > > > > > > を一旦 > > > > > > > > > > > > > > > 削除する。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > また、頂いた手順にはありませんが、 > > > > > > > > > > /var/lib/pgsql/tmp/PGSQL.lock > > > > > > > > > > > > の削除は > > > > > > > > > > > > > > > どうされていますしょうか? > > > > > > > > > > > > > > > ※通常、pgsqlはファイルが残っていると起動し > ませ > > > んが、 > > > > > > 手順 > > > > > > > > には > > > > > > > > > > ない > > > > > > > > > > > > ようで > > > > > > > > > > > > > > > したので。。。念の為、確認させて頂きました。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ちなみに、この事象ですが、再現性はあります > でし > > > ょうか? > > > > > > > > (100%??) > > > > > > > > > > > > > > > その場合、通常のpgsqlのリソースエージェン > トを > > > 利用し > > > > > > た場 > > > > > > > > 合で > > > > > > > > > > も、 > > > > > > > > > > > > 問題が > > > > > > > > > > > > > > > 再現しますでしょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 最初のログを頂いた時に直接関係しないと思い > ます > > > が、若 > > > > > > 干、 > > > > > > > > 以下 > > > > > > > > > > の点 > > > > > > > > > > > > が気に > > > > > > > > > > > > > > > なりました。 > > > > > > > > > > > > > > > ①node1を再起動した後、node2の認識が遅れ > てい > > > る。 > > > > > > > > > > > > > > > ②その後、node2を認識している。 > > > > > > > > > > > > > > > ネットワークの遅延などが、お使いの環境で起 > きて > > > いるか > > > > > > もと > > > > > > > > 思っ > > > > > > > > > > てい > > > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 問題の無い範囲で、cib.xml(pacemakerに流し > 込ん > > > でいる) > > > > > > を拝 > > > > > > > > 見で > > > > > > > > > > きれ > > > > > > > > > > > > ば、も > > > > > > > > > > > > > > > う少し分かるかも知れません。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、宜しくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > > > > > > > > > > > > > > > To: "renay****@ybb*****" > > > > > > > > > > <renay****@ybb*****>; > > > > > > > > > > > > > > > > "LINUX-HA" <linux****@lists*****> > > > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****" > <d-ike****@ryobi*****> > > > > > > > > > > > > > > > > Date: 2022/06/09 木 11:45 > > > > > > > > > > > > > > > > Subject: RE: RE: RE: [Linux-ha-jp] Pacemaker > > > のフェー > > > > > > ルオ > > > > > > > > ーバ > > > > > > > > > > ー後 > > > > > > > > > > > > のノ > > > > > > > > > > > > > > > ード組込みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > お世話になっております。辻です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ログの解析、ありがとうございます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > まず、node1でpostgreSQLをkillしてから > の停 > > > 止動作 > > > > > > には > > > > > > > > 問題 > > > > > > > > > > はな > > > > > > > > > > > > いよう > > > > > > > > > > > > > > > です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 承知しました。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 何かお使いになっているリソースや、手順 > など > > > で、node2 > > > > > > > > から > > > > > > > > > > node1 > > > > > > > > > > > > の > > > > > > > > > > > > > > > r_pgsqlのエラーカウントをクリアするような事 > が起 > > > きてい > > > > > > ませ > > > > > > > > んで > > > > > > > > > > しょ > > > > > > > > > > > > う > > > > > > > > > > > > > > > か? > > > > > > > > > > > > > > > > > もしくは、使ったことはありませんが、 > > > failure-timeout > > > > > > を > > > > > > > > 設定 > > > > > > > > > > して > > > > > > > > > > > > いるな > > > > > > > > > > > > > > > どで、エラーカウントを一定時間で実行するよ > うな > > > 設定を > > > > > > 使っ > > > > > > > > てい > > > > > > > > > > ませ > > > > > > > > > > > > んか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 申し訳ありません。 > > > > > > > > > > > > > > > > 最初のメールでお伝えした手順で記載できて > おり > > > ません > > > > > > でし > > > > > > > > た。 > > > > > > > > > > > > > > > > 実施した手順は、正確には以下になります。(手 > 順 > > > 7を追 > > > > > > 記し > > > > > > > > まし > > > > > > > > > > た) > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 実施手順 > > > > > > > > > > > > > > > > 1. ノード1のpostgresプロセスをkill > > > > > > > > > > > > > > > > 2. ノード2がマスターに昇格 > > > > > > > > > > > > > > > > 3. ノード1のpacemaker、corosyncを > systemctl > > > で停 > > > > > > 止 > > > > > > > > > > > > > > > > 4. ノード1でテーブル空間のディレクトリ配 > 下と > > > > > > PGDATA > > > > > > > > のデ > > > > > > > > > > ィレ > > > > > > > > > > > > クトリ > > > > > > > > > > > > > > > を削除 > > > > > > > > > > > > > > > > 5. ノード1でpg_basebackupを実施 > > > > > > > > > > > > > > > > 6. ノード1のcorosync、pacemakerを > systemctl > > > で起 > > > > > > 動 > > > > > > > > > > > > > > > > → ここでノード1が"sync"状態になる想 > 定で > > > すが、 > > > > > > > > > > > > > > > > 実際には起動処理が実施された後に、 > > > > > > > > > > > > > > > > 停止状態に遷移してしまいます。※ > > > > > > > > > > > > > > > > 7. ノード2で「pcs resource cleanup r_pgsql」 > > > を実施 > > > > > > > > > > > > > > > > → ここでノード1が正常に組込まれる。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 今回ご指摘いただいたのは、この手順7の部 > 分の > > > ことだ > > > > > > と思 > > > > > > > > いま > > > > > > > > > > す。 > > > > > > > > > > > > > > > > 本件で問題としているのは、手順6でstart処 > 理が > > > 内部的 > > > > > > に2 > > > > > > > > 回呼 > > > > > > > > > > ばれ > > > > > > > > > > > > ている > > > > > > > > > > > > > > > 点になります。 > > > > > > > > > > > > > > > > 山内さんがおっしゃられている、下記の「node1 > > > のr_pgsql > > > > > > > > のstart > > > > > > > > > > の > > > > > > > > > > > > 失敗を > > > > > > > > > > > > > > > 処理」した原因を > > > > > > > > > > > > > > > > 突き止めたいと思っております。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ★node1のr_pgsqlのstartの失敗を処理し > て、 > > > クラス > > > > > > タは > > > > > > > > 一旦 > > > > > > > > > > 安定 > > > > > > > > > > > > 状態に > > > > > > > > > > > > > > > 入ります。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 先日送付させていただいたログで言いますと、 > 下 > > > 記の部 > > > > > > 分で > > > > > > > > start > > > > > > > > > > 処理 > > > > > > > > > > > > が2度 > > > > > > > > > > > > > > > 動作している様に > > > > > > > > > > > > > > > > 見えておりまして、一度「STOP->HS:alone」 > に > > > 遷移し > > > > > > た後 > > > > > > > > に、 > > > > > > > > > > > > > > > 「HS:alone->STOP」に遷移している > > > > > > > > > > > > > > > > 原因を調べたく思っております。 > > > > > > > > > > > > > > > > (最初に詳細にお伝えできておらず、申し訳 > あり > > > ません。) > > > > > > > > > > > > > > > > このstartの失敗処理について、何か原因とし > て考 > > > えられ > > > > > > るも > > > > > > > > のは > > > > > > > > > > あり > > > > > > > > > > > > ますで > > > > > > > > > > > > > > > しょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ■RAのログ(RAにデバッグを仕込んで出力し > たロ > > > グ) > > > > > > > > > > > > > > > > [2022-05-31 07:38:40.554555882] Called from > > > line:2518 > > > > > > > > > > > > > > > > ********** > > > > > > > > > > > > > > > > main() : start ********** > > > > > > > > > > > > > > > > [2022-05-31 07:38:59.233215625] Called from > > > line:2617 > > > > > > > > > > > > > > > > pgsql_start() > > > > > > > > > > > > > > > > RETURN:0 > > > > > > > > > > > > > > > > [2022-05-31 07:38:59.295383798] Called from > > > line:2518 > > > > > > > > > > > > > > > > ********** > > > > > > > > > > > > > > > > main() : start ********** > > > > > > > > > > > > > > > > [2022-05-31 07:38:59.682203668] Called from > > > line:2617 > > > > > > > > > > > > > > > > pgsql_start() > > > > > > > > > > > > > > > > RETURN:1 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ■pacemaker.log > > > > > > > > > > > > > > > > May 31 07:38:59 pgsql(r_pgsql)[247646]: > > > INFO: > > > > > > > > PostgreSQL > > > > > > > > > > is > > > > > > > > > > > > started. > > > > > > > > > > > > > > > > May 31 07:38:59 pgsql(r_pgsql)[247646]: > > > INFO: > > > > > > > > Changing > > > > > > > > > > > > > > > r_pgsql-status on node1 : STOP->HS:alone. > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-attrd > > > > > > [247415] > > > > > > > > > > > > > > > (attrd_peer_update) notice: Setting > > > > > > > > r_pgsql-status[node1]: STOP > > > > > > > > > > > > -> > > > > > > > > > > > > > > > HS:alone | from node1 > > > > > > > > > > > > > > > > ・・・ > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-execd > > > > > > [247414] > > > > > > > > > > > > (log_finished) > > > > > > > > > > > > > > > info: r_pgsql start (call 11, PID 247646) exited > > > with > > > > > > status 0 > > > > > > > > > > > > > > > (execution time 18738ms, queue time 0ms) > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-execd > > > > > > [247414] > > > > > > > > > > > > (log_execute) > > > > > > > > > > > > > > > info: executing - rsc:r_pgsql action:start > > > call_id:13 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 > pacemaker-controld > > > > > > [247417] > > > > > > > > > > > > > > > (action_synced_wait) info: > > > > > > pgsql_meta-data_0[248726] > > > > > > > > > > exited with > > > > > > > > > > > > status 0 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 > pacemaker-controld > > > > > > [247417] > > > > > > > > > > > > > > > (process_lrm_event) notice: Result of > start > > > > > > operation for > > > > > > > > > > r_pgsql on > > > > > > > > > > > > node1: > > > > > > > > > > > > > > > ok | rc=0 call=11 key=r_pgsql_start_0 > > > confirmed=true > > > > > > > > > > cib-update=43 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_process_request) info: Forwarding > > > cib_modify > > > > > > > > > > operation for > > > > > > > > > > > > section > > > > > > > > > > > > > > > status to all (origin=local/crmd/43) > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: Diff: --- > 0.547.41 2 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: Diff: +++ > 0.547.42 > > > (null) > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: + /cib: > > > @num_updates=42 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: + > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > /cib/status/node_state[@id='1']/lrm[@id='1']/lrm_resources/lrm_res > > > > > > > > > > > > > > > ource[ > > > > > > > > > > > > > > > > @id='r_pgsql']/lrm_rsc_op[@id='r_pgsql_last_0']: > > > > > > > > > > > > > > > > > > > > > > > > @transition-key=5:0:0:efb965be-11c0-45a4-adde-1b209d1f8cca, > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > @transition-magic=0:0;5:0:0:efb965be-11c0-45a4-adde-1b209d1f8cca, > > > > > > > > > > > > > > > @call-id=11, @rc-code=0, @op-status=0, > > > > > > > > > > > > @last-rc-change=1653982720, > > > > > > > > > > > > > > > @exec-time=18738 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_process_request) info: Completed > > > cib_modify > > > > > > > > > > operation for > > > > > > > > > > > > section > > > > > > > > > > > > > > > status: OK (rc=0, origin=node1/crmd/43, > > > version=0.547.42) > > > > > > > > > > > > > > > > May 31 07:38:59 pgsql(r_pgsql)[248725]: > > > INFO: > > > > > > > > Changing > > > > > > > > > > > > > > > r_pgsql-status on node1 : HS:alone->STOP. > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-attrd > > > > > > [247415] > > > > > > > > > > > > > > > (attrd_peer_update) notice: Setting > > > > > > > > r_pgsql-status[node1]: > > > > > > > > > > > > HS:alone -> > > > > > > > > > > > > > > > STOP | from node1 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: Diff: --- > 0.547.42 2 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: Diff: +++ > 0.547.43 > > > (null) > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: + /cib: > > > @num_updates=43 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_perform_op) info: + > > > > > > > > > > > > > > > > > > > > > > > > > > > > /cib/status/node_state[@id='1']/transient_attributes[@id='1']/inst > > > > > > > > > > > > > > > ance_attri > > > > > > > > > > > > > > > > > > > > > butes[@id='status-1']/nvpair[@id='status-1-r_pgsql-status']: > > > > > > > > > > > > > > > @value=STOP > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_process_request) info: Completed > > > cib_modify > > > > > > > > > > operation for > > > > > > > > > > > > section > > > > > > > > > > > > > > > status: OK (rc=0, origin=node2/attrd/16, > > > version=0.547.43) > > > > > > > > > > > > > > > > May 31 07:38:59 pgsql(r_pgsql)[248725]: > > > INFO: Set > > > > > > all > > > > > > > > nodes > > > > > > > > > > into > > > > > > > > > > > > async > > > > > > > > > > > > > > > mode. > > > > > > > > > > > > > > > > May 31 07:38:59 pgsql(r_pgsql)[248725]: > > > INFO: > > > > > > > > PostgreSQL > > > > > > > > > > is > > > > > > > > > > > > already > > > > > > > > > > > > > > > running. PID=247940 > > > > > > > > > > > > > > > > /var/lib/pgsql/14/data > > > > > > > > > > > > > > > > 1653982720 > > > > > > > > > > > > > > > > 5432 > > > > > > > > > > > > > > > > /var/run/postgresql > > > > > > > > > > > > > > > > * > > > > > > > > > > > > > > > > 51600331 13 > > > > > > > > > > > > > > > > ready > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-execd > > > > > > [247414] > > > > > > > > > > > > (log_finished) > > > > > > > > > > > > > > > info: r_pgsql start (call 13, PID 248725) exited > > > with > > > > > > status 1 > > > > > > > > > > > > > > > (execution time 449ms, queue time 12057ms) > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 > pacemaker-controld > > > > > > [247417] > > > > > > > > > > > > > > > (process_lrm_event) notice: Result of > start > > > > > > operation for > > > > > > > > > > r_pgsql on > > > > > > > > > > > > node1: > > > > > > > > > > > > > > > error | rc=1 call=13 key=r_pgsql_start_0 > > > confirmed=true > > > > > > > > > > > > > > > cib-update=44 > > > > > > > > > > > > > > > > May 31 07:38:59 node1-001 pacemaker-based > > > > > > [247412] > > > > > > > > > > > > > > > (cib_process_request) info: Forwarding > > > cib_modify > > > > > > > > > > operation for > > > > > > > > > > > > section > > > > > > > > > > > > > > > status to all (origin=local/crmd/44) > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > > > > > > > > From: renay****@ybb***** <> > > > > > > > > > > > > > > > > > Sent: Wednesday, June 8, 2022 3:48 PM > > > > > > > > > > > > > > > > > To: 辻 真吾 <tsuji****@ryobi*****>; > LINUX-HA > > > > > > > > > > > > > > > > > <linux****@lists*****> > > > > > > > > > > > > > > > > > Cc: d-ike****@ryobi***** > > > > > > > > > > > > > > > > > Subject: Re: RE: RE: [Linux-ha-jp] > Pacemaker > > > のフェ > > > > > > ール > > > > > > > > オー > > > > > > > > > > バー > > > > > > > > > > > > 後のノ > > > > > > > > > > > > > > > ード > > > > > > > > > > > > > > > > > 組込みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > まず、node1でpostgreSQLをkillしてから > の停 > > > 止動作 > > > > > > には > > > > > > > > 問題 > > > > > > > > > > はな > > > > > > > > > > > > いよう > > > > > > > > > > > > > > > です。 > > > > > > > > > > > > > > > > > ログを見ると、いくつか気になる動作はし > てお > > > ります > > > > > > が... > > > > > > > > とり > > > > > > > > > > あえ > > > > > > > > > > > > ず、2 > > > > > > > > > > > > > > > 度の > > > > > > > > > > > > > > > > > startの件のみに限定して回答します。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 2度のstartが掛かる原因ですが、以下のロ > グが > > > 該当し > > > > > > てい > > > > > > > > ます。 > > > > > > > > > > > > > > > > > ---- > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > pacemaker-controld > > > > > > [242326] > > > > > > > > > > > > (run_graph) > > > > > > > > > > > > > > > > > notice: Transition 3 (Complete=10, > > > > > > Pending=0, > > > > > > > > Fired=0, > > > > > > > > > > > > > > > > > Skipped=0, Incomplete=0, > > > > > > > > > > > > > Source=/var/lib/pacemaker/pengine/pe-input-301.bz2): > > > > > > > > > > > > > > > > > Complete > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > pacemaker-controld > > > > > > [242326] > > > > > > > > > > > > > > > > > (do_state_transition) info: State > transition > > > > > > > > > > > > S_TRANSITION_ENGINE > > > > > > > > > > > > > > > -> > > > > > > > > > > > > > > > > > S_POLICY_ENGINE | input=I_PE_CALC > > > > > > > > > > cause=C_FSA_INTERNAL > > > > > > > > > > > > > > > > > origin=notify_crmd May 31 07:40:19 > node2-001 > > > > > > > > > > > > > > > > > pacemaker-schedulerd[242325] > (unpack_config) > > > > > > > > > > > > > > > > > notice: On loss of quorum: Ignore > May 31 > > > > > > 07:40:19 > > > > > > > > node2-001 > > > > > > > > > > > > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (determine_online_status) info: Node > > > node1 is > > > > > > online > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (determine_online_status) info: Node > > > node2 is > > > > > > online > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (unpack_rsc_op_failure) warning: > > > > > > Unexpected result > > > > > > > > > > (error) > > > > > > > > > > > > was > > > > > > > > > > > > > > > > > recorded for start of r_pgsql:0 on node1 at > May 31 > > > > > > 07:38:59 > > > > > > > > > > > > > > > > > 2022 | > > > > > > > > > > > > > > > > > rc=1 > > > > > > > > > > > > > > > > > id=r_pgsql_last_failure_0 > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (pe_get_failcount) info: r_pgsql:0 has > > > failed > > > > > > INFINITY > > > > > > > > > > times on > > > > > > > > > > > > node1 > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (check_migration_threshold) warning: > > > Forcing > > > > > > > > ms_pgsql > > > > > > > > > > > > away > > > > > > > > > > > > > > > from node1 > > > > > > > > > > > > > > > > > after 1000000 failures (max=1) May 31 > 07:40:19 > > > > > > node2-001 > > > > > > > > > > > > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (pe_get_failcount) info: r_pgsql:1 has > > > failed > > > > > > INFINITY > > > > > > > > > > times on > > > > > > > > > > > > node1 > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (check_migration_threshold) warning: > > > Forcing > > > > > > > > ms_pgsql > > > > > > > > > > > > away > > > > > > > > > > > > > > > from node1 > > > > > > > > > > > > > > > > > after 1000000 failures (max=1) May 31 > 07:40:19 > > > > > > node2-001 > > > > > > > > > > > > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (pcmk__native_allocate) info: > Resource > > > > > > r_pgsql:1 > > > > > > > > > > cannot run > > > > > > > > > > > > > > > > > anywhere > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (pcmk__set_instance_roles) info: > > > Promoting > > > > > > > > r_pgsql:0 > > > > > > > > > > (Master > > > > > > > > > > > > > > > node2) > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (pcmk__set_instance_roles) info: > > > ms_pgsql: > > > > > > > > Promoted 1 > > > > > > > > > > > > > > > instances of a > > > > > > > > > > > > > > > > > possible 1 > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (rsc_action_default) info: Leave > > > r_service_fh > > > > > > > > > > (Started > > > > > > > > > > > > > > > node2) > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (rsc_action_default) info: Leave > > > r_pgsql:0 > > > > > > > > (Master > > > > > > > > > > node2) > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (rsc_action_default) info: Leave > > > r_pgsql:1 > > > > > > > > (Stopped) > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > > > > > > pacemaker-schedulerd[242325] > > > > > > > > > > > > > > > > > (pcmk__log_transition_summary) > > > notice: > > > > > > Calculated > > > > > > > > > > transition > > > > > > > > > > > > 4, > > > > > > > > > > > > > > > > > saving inputs in > > > > > > > > /var/lib/pacemaker/pengine/pe-input-302.bz2 > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > pacemaker-controld > > > > > > [242326] > > > > > > > > > > > > > > > > > (do_state_transition) info: State > transition > > > > > > > > > > > > S_POLICY_ENGINE -> > > > > > > > > > > > > > > > > > S_TRANSITION_ENGINE | > input=I_PE_SUCCESS > > > > > > > > > > > > > > > cause=C_IPC_MESSAGE > > > > > > > > > > > > > > > > > origin=handle_response May 31 07:40:19 > > > node2-001 > > > > > > > > > > > > > > > > > pacemaker-controld [242326] (do_te_invoke) > > > > > > > > > > > > > > > > > info: Processing graph 4 > > > > > > > > (ref=pe_calc-dc-1653982819-61) > > > > > > > > > > > > > > > > > derived from > > > > > > > > /var/lib/pacemaker/pengine/pe-input-302.bz2 > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > pacemaker-controld > > > > > > [242326] > > > > > > > > > > > > (run_graph) > > > > > > > > > > > > > > > > > notice: Transition 4 (Complete=0, > > > > > > Pending=0, > > > > > > > > Fired=0, > > > > > > > > > > > > > > > > > Skipped=0, Incomplete=0, > > > > > > > > > > > > > Source=/var/lib/pacemaker/pengine/pe-input-302.bz2): > > > > > > > > > > > > > > > > > Complete > > > > > > > > > > > > > > > > > May 31 07:40:19 node2-001 > pacemaker-controld > > > > > > [242326] > > > > > > > > > > (do_log) > > > > > > > > > > > > > > > > > info: Input I_TE_SUCCESS received > in state > > > > > > > > > > > > > > > > > S_TRANSITION_ENGINE > > > > > > > > > > > > > > > from > > > > > > > > > > > > > > > > > notify_crmd May 31 07:40:19 node2-001 > > > > > > > > pacemaker-controld > > > > > > > > > > > > [242326] > > > > > > > > > > > > > > > > > (do_state_transition) notice: > State > > > transition > > > > > > > > > > > > > > > S_TRANSITION_ENGINE -> > > > > > > > > > > > > > > > > > S_IDLE | input=I_TE_SUCCESS > > > > > > cause=C_FSA_INTERNAL > > > > > > > > > > > > > > > origin=notify_crmd > > > > > > > > > > > > > > > > > ★node1のr_pgsqlのstartの失敗を処理し > て、 > > > クラス > > > > > > タは > > > > > > > > 一旦 > > > > > > > > > > 安定 > > > > > > > > > > > > 状態に > > > > > > > > > > > > > > > 入り > > > > > > > > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > ---- > > > > > > > > > > > > > > > > > ★しばらく以下のログが続き... > > > > > > > > > > > > > > > > > May 31 07:40:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[268937] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[268937] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[268937] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[268937] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:40:24 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > > > (cib_process_ping) info: Reporting our > > > current > > > > > > digest to > > > > > > > > > > node2: > > > > > > > > > > > > > > > > > cc0b84d295ff3f31db6079faf3ac1c05 for > 0.550.1 > > > > > > > > > > (0x564c388d0a90 0) > > > > > > > > > > > > > > > > > May 31 07:40:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269358] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269358] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269358] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269358] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:40:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269783] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269783] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269783] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[269783] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:40:51 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[270595] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:51 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[270595] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:51 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[270595] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:40:51 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[270595] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:41:01 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271017] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:01 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271017] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:01 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271017] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:01 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271017] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:41:11 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271548] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:11 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271548] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:11 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271548] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:11 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[271548] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:41:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272286] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272286] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272286] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:21 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272286] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:41:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272782] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272782] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272782] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:31 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[272782] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > May 31 07:41:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[273223] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dig success[OK] STAGE: 1 > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[273223] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor hostname success[OK] > STAGE: 2 > > > > > > stpcnt: > > > > > > > > 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[273223] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor dug_ip: xx.xx.xx.xx host_ip: > > > xx.xx.xx.xx > > > > > > > > stpcnt: 0 ] > > > > > > > > > > > > > > > > > May 31 07:41:41 node2-001 > pacemaker-execd > > > > > > [242323] > > > > > > > > > > > > > > > (log_op_output) > > > > > > > > > > > > > > > > > notice: > r_service_fh_monitor_10000[273223] > > > > > > error > > > > > > > > output [ # > > > > > > > > > > > > > > > > > fh_monitor Exit:OCF_SUCCESS[OK] ] > > > > > > > > > > > > > > > > > ---- > > > > > > > > > > > > > > > > > ★S_IDLE(07:40:19)から1分27秒後にnode1 > の > > > エラー > > > > > > が、 > > > > > > > > node2 > > > > > > > > > > か > > > > > > > > > > > > らクリ > > > > > > > > > > > > > > > アさ > > > > > > > > > > > > > > > > > れています。 > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd > > > > > > [242324] > > > > > > > > > > > > > > > > > (attrd_peer_update) notice: Setting > > > > > > > > > > > > > > > last-failure-r_pgsql#start_0[node1]: > > > > > > > > > > > > > > > > > 1653982739 -> (unset) | from node2 > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd > > > > > > [242324] > > > > > > > > > > > > > > > (write_attribute) > > > > > > > > > > > > > > > > > info: Sent CIB request 21 with 2 > changes for > > > > > > > > > > > > > > > > > last-failure-r_pgsql#start_0 (id n/a, set n/a) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > > > (cib_process_request) info: > Forwarding > > > cib_modify > > > > > > > > > > > > operation for > > > > > > > > > > > > > > > section > > > > > > > > > > > > > > > > > status to all (origin=local/attrd/21) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd > > > > > > [242324] > > > > > > > > > > > > > > > > > (attrd_peer_update) notice: Setting > > > > > > > > > > > > > > > fail-count-r_pgsql#start_0[node1]: > > > > > > > > > > > > > > > > > INFINITY -> (unset) | from node2 > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd > > > > > > [242324] > > > > > > > > > > > > > > > (write_attribute) > > > > > > > > > > > > > > > > > info: Sent CIB request 22 with 2 > changes for > > > > > > > > > > > > > > > > > fail-count-r_pgsql#start_0 (id n/a, set n/a) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > > > (cib_process_request) info: > Forwarding > > > cib_modify > > > > > > > > > > > > operation for > > > > > > > > > > > > > > > section > > > > > > > > > > > > > > > > > status to all (origin=local/attrd/22) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > (cib_perform_op) > > > > > > > > > > > > > > > > > info: Diff: --- 0.550.1 2 > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > (cib_perform_op) > > > > > > > > > > > > > > > > > info: Diff: +++ 0.550.2 (null) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > (cib_perform_op) > > > > > > > > > > > > > > > > > info: -- > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > /cib/status/node_state[@id='1']/transient_attributes[@id='1']/ > > > > > > > > > > > > > > > > > instan > > > > > > > > > > > > > > > > > ce_attri > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > butes[@id='status-1']/nvpair[@id='status-1-last-failure-r_pgsql.st > > > > > > > > > > > > > > > art_0'] > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > (cib_perform_op) > > > > > > > > > > > > > > > > > info: + /cib: @num_updates=2 > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-based > > > > > > [242321] > > > > > > > > > > > > > > > > > (cib_process_request) info: > Completed > > > cib_modify > > > > > > > > > > > > operation for > > > > > > > > > > > > > > > section > > > > > > > > > > > > > > > > > status: OK (rc=0, origin=node2/attrd/21, > > > > > > version=0.550.2) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd > > > > > > [242324] > > > > > > > > > > > > > > > > > (attrd_cib_callback) info: CIB update 21 > > > result for > > > > > > > > > > > > > > > > > last-failure-r_pgsql#start_0: OK | rc=0 > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd > > > > > > [242324] > > > > > > > > > > > > > > > > > (attrd_cib_callback) info: * > > > > > > > > > > > > > > > last-failure-r_pgsql#start_0[node1]=(null) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 pacemaker-attrd > > > > > > [242324] > > > > > > > > > > > > > > > > > (attrd_cib_callback) info: * > > > > > > > > > > > > > > > last-failure-r_pgsql#start_0[node2]=(null) > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-controld > > > > > > [242326] > > > > > > > > > > > > > > > > > (abort_transition_graph) info: > Transition 4 > > > > > > aborted by > > > > > > > > > > deletion > > > > > > > > > > > > of > > > > > > > > > > > > > > > > > > > > nvpair[@id='status-1-last-failure-r_pgsql.start_0']: > > > > > > > > Transient > > > > > > > > > > > > > > > > > attribute change > > > > > > > > > > > > > > > > > | cib=0.550.2 > source=abort_unless_down:327 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > path=/cib/status/node_state[@id='1']/transient_attributes[@id= > > > > > > > > > > > > > > > > > '1']/i > > > > > > > > > > > > > > > > > nstanc > > > > > > > > > > > > > > > > > > > > > > > > > e_attributes[@id='status-1']/nvpair[@id='status-1-last-failure > > > > > > > > > > > > > > > > > -r_pgs > > > > > > > > > > > > > > > > > ql.start_ > > > > > > > > > > > > > > > > > 0'] complete=true > > > > > > > > > > > > > > > > > May 31 07:41:46 node2-001 > pacemaker-controld > > > > > > [242326] > > > > > > > > > > > > > > > > > (do_state_transition) notice: > State > > > transition > > > > > > > > S_IDLE -> > > > > > > > > > > > > > > > S_POLICY_ENGINE > > > > > > > > > > > > > > > > > | input=I_PE_CALC > cause=C_FSA_INTERNAL > > > > > > > > > > > > > > > origin=abort_transition_graph > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ★この為、以降で、エラーが解除された為、 > 再度、 > > > node1 > > > > > > > > のr_pgsql > > > > > > > > > > > > のstart > > > > > > > > > > > > > > > が > > > > > > > > > > > > > > > > > 計算・実行されています。 > > > > > > > > > > > > > > > > > ---- > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 何かお使いになっているリソースや、手順 > など > > > で、node2 > > > > > > > > から > > > > > > > > > > node1 > > > > > > > > > > > > の > > > > > > > > > > > > > > > r_pgsql > > > > > > > > > > > > > > > > > のエラーカウントをクリアするような事が > 起き > > > ていま > > > > > > せん > > > > > > > > でし > > > > > > > > > > ょう > > > > > > > > > > > > か? > > > > > > > > > > > > > > > > > もしくは、使ったことはありませんが、 > > > failure-timeout > > > > > > を > > > > > > > > 設定 > > > > > > > > > > して > > > > > > > > > > > > いるな > > > > > > > > > > > > > > > どで、 > > > > > > > > > > > > > > > > > エラーカウントを一定時間で実行するよう > な設 > > > 定を使 > > > > > > って > > > > > > > > いま > > > > > > > > > > せん > > > > > > > > > > > > か? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > なお、pacemakaerに流し込んでいる設定 > ファ > > > イルを > > > > > > 開示 > > > > > > > > して > > > > > > > > > > 頂け > > > > > > > > > > > > れば、 > > > > > > > > > > > > > > > こちら > > > > > > > > > > > > > > > > > の手元でも、簡易な構成で確認してみるこ > とは > > > 可能で > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、宜しくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > From: "辻 真吾" <tsuji****@ryobi*****> > > > > > > > > > > > > > > > > > > To: "renay****@ybb*****" > > > > > > > > > > > > > > > > > > <renay****@ybb*****>; > > > > > > > > > > > > > > > > > "LINUX-HA" > <linux****@lists*****> > > > > > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****" > > > <d-ike****@ryobi*****> > > > > > > > > > > > > > > > > > > Date: 2022/06/07 火 17:09 > > > > > > > > > > > > > > > > > > Subject: RE: RE: [Linux-ha-jp] > Pacemaker > > > のフェ > > > > > > ール > > > > > > > > オー > > > > > > > > > > バー > > > > > > > > > > > > 後のノ > > > > > > > > > > > > > > > ード > > > > > > > > > > > > > > > > > 組込みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > お世話になっております。辻です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > まだ、ログについては、これから拝見 > しま > > > すが、2 > > > > > > 度 > > > > > > > > start(例 > > > > > > > > > > え > > > > > > > > > > > > ば、故 > > > > > > > > > > > > > > > 障な > > > > > > > > > > > > > > > > > どが > > > > > > > > > > > > > > > > > > > 起きてstopしてstart(restart))は聞い > たこ > > > とがあ > > > > > > りま > > > > > > > > せん。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 承知しました。ありがとうございます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > また、ログを拝見してご連絡いたしま > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ありがとうございます。お手数をおかけ > しま > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > > > > > > > > > > From: renay****@ybb***** <> > > > > > > > > > > > > > > > > > > > Sent: Tuesday, June 7, 2022 4:57 PM > > > > > > > > > > > > > > > > > > > To: tsuji****@ryobi*****; LINUX-HA > > > > > > > > > > > > > > > > > > > <linux****@lists*****> > > > > > > > > > > > > > > > > > > > Cc: d-ike****@ryobi***** > > > > > > > > > > > > > > > > > > > Subject: Re: RE: [Linux-ha-jp] > Pacemaker > > > のフェ > > > > > > ール > > > > > > > > オー > > > > > > > > > > バー > > > > > > > > > > > > 後のノ > > > > > > > > > > > > > > > ード > > > > > > > > > > > > > > > > > 組込 > > > > > > > > > > > > > > > > > > > みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ログの送付ありがとうございました。 > 拝見 > > > させて > > > > > > いた > > > > > > > > だき > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ちなみに、これまでに他の利用者で > 同様 > > > に二度 > > > > > > start > > > > > > > > され > > > > > > > > > > たよ > > > > > > > > > > > > うなケ > > > > > > > > > > > > > > > ース > > > > > > > > > > > > > > > > > は > > > > > > > > > > > > > > > > > > > > ございますか? > > > > > > > > > > > > > > > > > > > > どのような時に二度startされるのか、 > 情 > > > 報をお > > > > > > 持ち > > > > > > > > でし > > > > > > > > > > たら > > > > > > > > > > > > 可能な > > > > > > > > > > > > > > > 範囲 > > > > > > > > > > > > > > > > > で > > > > > > > > > > > > > > > > > > > > 共有いただけますと幸いです。 > > > > > > > > > > > > > > > > > > > まだ、ログについては、これから拝見 > しま > > > すが、2 > > > > > > 度 > > > > > > > > start(例 > > > > > > > > > > え > > > > > > > > > > > > ば、故 > > > > > > > > > > > > > > > 障な > > > > > > > > > > > > > > > > > どが > > > > > > > > > > > > > > > > > > > 起きてstopしてstart(restart))は聞い > たこ > > > とがあ > > > > > > りま > > > > > > > > せん。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 他に知見がある方が、コメントしてく > れる > > > かも知 > > > > > > れま > > > > > > > > せん。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 1)2)について、承知いたしました。 > > > > > > > > > > > > > > > > > > > また、ログを拝見してご連絡いたしま > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、よろしくお願いたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > From: "辻 真吾" > <tsuji****@ryobi*****> > > > > > > > > > > > > > > > > > > > > To: "renay****@ybb*****" > > > > > > > > > > > > > > > <renay****@ybb*****>; > > > > > > > > > > > > > > > > > > > "LINUX-HA" > > > <linux****@lists*****> > > > > > > > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****" > > > <d-ike****@ryobi*****> > > > > > > > > > > > > > > > > > > > > Date: 2022/06/07 火 15:42 > > > > > > > > > > > > > > > > > > > > Subject: RE: [Linux-ha-jp] > Pacemaker > > > のフェ > > > > > > ール > > > > > > > > オー > > > > > > > > > > バー > > > > > > > > > > > > 後のノ > > > > > > > > > > > > > > > ード > > > > > > > > > > > > > > > > > 組込 > > > > > > > > > > > > > > > > > > > みについて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > お世話になります。辻です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ※先ほど、本メールと同じ内容のメ > ール > > > を送信 > > > > > > しま > > > > > > > > した > > > > > > > > > > が、 > > > > > > > > > > > > > > > > > > > > ※送信エラーになりましたので、再 > 送し > > > ます。 > > > > > > > > > > > > > > > > > > > > ※重複して受信された場合は、先の > メー > > > ルの破 > > > > > > 棄を > > > > > > > > お願 > > > > > > > > > > いし > > > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 早速のお返事、ありがとうございま > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > RAが2度startされているとのこ > とで > > > すが、 > > > > > > ログ > > > > > > > > など > > > > > > > > > > 拝見 > > > > > > > > > > > > 出来れ > > > > > > > > > > > > > > > ばな > > > > > > > > > > > > > > > > > にか > > > > > > > > > > > > > > > > > > > わか > > > > > > > > > > > > > > > > > > > > > るかも知れません。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 恐縮ですが、ログを送付させていた > だき > > > ますの > > > > > > で、 > > > > > > > > 何か > > > > > > > > > > お気 > > > > > > > > > > > > 付きの > > > > > > > > > > > > > > > 点が > > > > > > > > > > > > > > > > > > > > ありましたら、ご助言いただけます > と幸 > > > いです。 > > > > > > > > > > > > > > > > > > > > (添付ファイルの送信でエラーにな > った > > > ようで > > > > > > すの > > > > > > > > で、 > > > > > > > > > > この > > > > > > > > > > > > メール > > > > > > > > > > > > > > > の後 > > > > > > > > > > > > > > > > > で > > > > > > > > > > > > > > > > > > > > 山内さん個別にログを送付させて > いた > > > だきま > > > > > > す。) > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ちなみに、これまでに他の利用者で > 同様 > > > に二度 > > > > > > start > > > > > > > > され > > > > > > > > > > たよ > > > > > > > > > > > > うなケ > > > > > > > > > > > > > > > ース > > > > > > > > > > > > > > > > > は > > > > > > > > > > > > > > > > > > > > ございますか? > > > > > > > > > > > > > > > > > > > > どのような時に二度startされるのか、 > 情 > > > 報をお > > > > > > 持ち > > > > > > > > でし > > > > > > > > > > たら > > > > > > > > > > > > 可能な > > > > > > > > > > > > > > > 範囲 > > > > > > > > > > > > > > > > > で > > > > > > > > > > > > > > > > > > > > 共有いただけますと幸いです。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 1)STONITHは組み込まれていると > 思い > > > ますが、 > > > > > > マ > > > > > > > > スタ > > > > > > > > > > ーノ > > > > > > > > > > > > ードは > > > > > > > > > > > > > > > 正常 > > > > > > > > > > > > > > > > > にフ > > > > > > > > > > > > > > > > > > > ェン > > > > > > > > > > > > > > > > > > > > > シング終了して、再起動している > でし > > > ょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 停止時のログでfencing関連のメッ > セー > > > ジは以 > > > > > > 下の > > > > > > > > もの > > > > > > > > > > があ > > > > > > > > > > > > りまし > > > > > > > > > > > > > > > た。 > > > > > > > > > > > > > > > > > > > > 最後の「disconnected」により停止 > され > > > ている > > > > > > よう > > > > > > > > に見 > > > > > > > > > > えま > > > > > > > > > > > > すが、 > > > > > > > > > > > > > > > > > > > > いかがでしょうか? > > > > > > > > > > > > > > > > > > > > このメッセージより後に、組込みの > 起動 > > > を行っ > > > > > > てお > > > > > > > > りま > > > > > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > May 31 07:32:28 node1-001 > > > pacemaker-controld > > > > > > > > > > [224147] > > > > > > > > > > > > > > > > > > > > > > > > > (stonith__watchdog_fencing_enabled_for_node_api) > > > > > > > > > > > > warning: > > > > > > > > > > > > > > > > > > > watchdog-fencing-query failed > > > > > > > > > > > > > > > > > > > > May 31 07:34:36 node1-001 > > > pacemaker-controld > > > > > > > > > > [224147] > > > > > > > > > > > > > > > > > > > > > > > > > (stonith__watchdog_fencing_enabled_for_node_api) > > > > > > > > > > > > warning: > > > > > > > > > > > > > > > > > > > watchdog-fencing-query failed > > > > > > > > > > > > > > > > > > > > May 31 07:35:19 node1-001 > > > pacemaker-controld > > > > > > > > > > [224147] > > > > > > > > > > > > > > > > > > > (tengine_stonith_connection_destroy) > > > > > > info: > > > > > > > > > > Fencing > > > > > > > > > > > > daemon > > > > > > > > > > > > > > > > > disconnected > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 2)corosync/pacemakerのsystemd > の > > > 自動起 > > > > > > 動が > > > > > > > > 有効 > > > > > > > > > > にな > > > > > > > > > > > > ってい > > > > > > > > > > > > > > > たり > > > > > > > > > > > > > > > > > しま > > > > > > > > > > > > > > > > > > > せん > > > > > > > > > > > > > > > > > > > > > でしょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > こちらの設定は、無効化しておりま > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > > > > > > > > > > > > From: Linux-ha-japan <> On Behalf > Of > > > > > > > > > > > > > > > > > > > > > renay****@ybb***** > > > > > > > > > > > > > > > > > > > > > Sent: Saturday, June 4, 2022 9:20 AM > > > > > > > > > > > > > > > > > > > > > To: linux****@lists***** > > > > > > > > > > > > > > > > > > > > > Cc: d-ike****@ryobi***** > > > > > > > > > > > > > > > > > > > > > Subject: Re: [Linux-ha-jp] > Pacemaker > > > のフェ > > > > > > ール > > > > > > > > オー > > > > > > > > > > バー > > > > > > > > > > > > 後のノ > > > > > > > > > > > > > > > ード > > > > > > > > > > > > > > > > > 組込 > > > > > > > > > > > > > > > > > > > みに > > > > > > > > > > > > > > > > > > > > > ついて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 辻さん > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 5)が正常に終わっているとのこと > です > > > ので、 > > > > > > マス > > > > > > > > ター > > > > > > > > > > に昇 > > > > > > > > > > > > 格した > > > > > > > > > > > > > > > スレ > > > > > > > > > > > > > > > > > ーブ > > > > > > > > > > > > > > > > > > > との > > > > > > > > > > > > > > > > > > > > > 同期は正しく実行されていると思 > いま > > > すので、 > > > > > > > > > > > > > > > > > > > > > 再起動して、スレーブ起動しよう > とし > > > ている > > > > > > > > pacemaker > > > > > > > > > > の > > > > > > > > > > > > リソー > > > > > > > > > > > > > > > ス起 > > > > > > > > > > > > > > > > > 動中 > > > > > > > > > > > > > > > > > > > に何 > > > > > > > > > > > > > > > > > > > > > か起きていると思われます。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > RAが2度startされているとのこ > とで > > > すが、 > > > > > > ログ > > > > > > > > など > > > > > > > > > > 拝見 > > > > > > > > > > > > 出来れ > > > > > > > > > > > > > > > ばな > > > > > > > > > > > > > > > > > にか > > > > > > > > > > > > > > > > > > > わか > > > > > > > > > > > > > > > > > > > > > るかも知れません。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以下の点、とりあえず、確認して > 見た > > > 方が良 > > > > > > いか > > > > > > > > と思 > > > > > > > > > > いま > > > > > > > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > 1)STONITHは組み込まれていると > 思い > > > ますが、 > > > > > > マ > > > > > > > > スタ > > > > > > > > > > ーノ > > > > > > > > > > > > ードは > > > > > > > > > > > > > > > 正常 > > > > > > > > > > > > > > > > > にフ > > > > > > > > > > > > > > > > > > > ェン > > > > > > > > > > > > > > > > > > > > > シング終了して、再起動している > でし > > > ょうか? > > > > > > > > > > > > > > > > > > > > > 2)corosync/pacemakerのsystemd > の > > > 自動起 > > > > > > 動が > > > > > > > > 有効 > > > > > > > > > > にな > > > > > > > > > > > > ってい > > > > > > > > > > > > > > > たり > > > > > > > > > > > > > > > > > しま > > > > > > > > > > > > > > > > > > > せん > > > > > > > > > > > > > > > > > > > > > でしょうか? > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 以上、よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ----- Original Message ----- > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > From: "辻 真吾" > > > <tsuji****@ryobi*****> > > > > > > > > > > > > > > > > > > > > > > To: "LINUX-HA" > > > > > > > > <linux****@lists*****> > > > > > > > > > > > > > > > > > > > > > > Cc: "d-ike****@ryobi*****" > > > > > > <d-ike****@ryobi*****> > > > > > > > > > > > > > > > > > > > > > > Date: 2022/06/03 金 16:29 > > > > > > > > > > > > > > > > > > > > > > Subject: [Linux-ha-jp] Pacemaker > > > のフェー > > > > > > ルオ > > > > > > > > ーバ > > > > > > > > > > ー後 > > > > > > > > > > > > のノー > > > > > > > > > > > > > > > ド組 > > > > > > > > > > > > > > > > > 込み > > > > > > > > > > > > > > > > > > > に > > > > > > > > > > > > > > > > > > > > > ついて > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 初めて投稿させていただきます。 > > > > > > > > > > > > > > > > > > > > > > 辻と申します。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > DBサーバ(PostgreSQLレプリケ > ーシ > > > ョン構 > > > > > > 成) > > > > > > > > を > > > > > > > > > > > > > > > > > > > > > > Pacemaker+Corosyncを使用し > てHA > > > クラ > > > > > > スタ > > > > > > > > 構成 > > > > > > > > > > とし > > > > > > > > > > > > ていま > > > > > > > > > > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > クラスタ構成において、フェー > ルオ > > > ーバー > > > > > > を発 > > > > > > > > 生さ > > > > > > > > > > せて、 > > > > > > > > > > > > > > > > > > > > > > その後に、ダウンさせたノード > の組 > > > 込みを > > > > > > 実施 > > > > > > > > した > > > > > > > > > > とこ > > > > > > > > > > > > ろ、 > > > > > > > > > > > > > > > > > > > > > > 組込みに失敗するという事象が > 発生 > > > してお > > > > > > りま > > > > > > > > す。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 初期状態のノードを以下の構成 > とし > > > て、実 > > > > > > 施し > > > > > > > > た手 > > > > > > > > > > 順を > > > > > > > > > > > > 記載い > > > > > > > > > > > > > > > たし > > > > > > > > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > - マスターノード:ノード1 > > > > > > > > > > > > > > > > > > > > > > - スレーブノード:ノード2 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 実施手順 > > > > > > > > > > > > > > > > > > > > > > 1. ノード1のpostgresプロセ > スを > > > kill > > > > > > > > > > > > > > > > > > > > > > 2. ノード2がマスターに昇格 > > > > > > > > > > > > > > > > > > > > > > 3. ノード1のpacemaker、 > corosync > > > を > > > > > > systemctl > > > > > > > > > > で停 > > > > > > > > > > > > 止 > > > > > > > > > > > > > > > > > > > > > > 4. ノード1でテーブル空間のデ > ィレ > > > クトリ > > > > > > 配下 > > > > > > > > と > > > > > > > > > > > > PGDATAの > > > > > > > > > > > > > > > ディ > > > > > > > > > > > > > > > > > レク > > > > > > > > > > > > > > > > > > > トリ > > > > > > > > > > > > > > > > > > > > > を削除 > > > > > > > > > > > > > > > > > > > > > > 5. ノード1でpg_basebackup > を実 > > > 施 > > > > > > > > > > > > > > > > > > > > > > > > > $ /usr/pgsql-14/bin/pg_basebackup -h > > > > > > < > > > > > > > > ノー > > > > > > > > > > ド2> > > > > > > > > > > > > -D > > > > > > > > > > > > > > > > > $PGDATA > > > > > > > > > > > > > > > > > > > -Xs > > > > > > > > > > > > > > > > > > > > > -P -n > > > > > > > > > > > > > > > > > > > > > > 6. ノード1のcorosync、pacemaker > > > を > > > > > > systemctl > > > > > > > > で > > > > > > > > > > 起動 > > > > > > > > > > > > > > > > > > > > > > → ここでノード1が"sync" > 状態 > > > になる > > > > > > 想定 > > > > > > > > です > > > > > > > > > > が、 > > > > > > > > > > > > > > > > > > > > > > 実際には起動処理が実施 > され > > > た後に、 > > > > > > > > > > > > > > > > > > > > > > 停止状態に遷移してしま > いま > > > す。※ > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ※ > > > > > > > > > > > > > > > > > > > > > > 手順6の起動を実施した際に、 > RA > > > のpgsql > > > > > > で > > > > > > > > start > > > > > > > > > > 処 > > > > > > > > > > > > 理が二 > > > > > > > > > > > > > > > 度呼 > > > > > > > > > > > > > > > > > ばれ > > > > > > > > > > > > > > > > > > > てい > > > > > > > > > > > > > > > > > > > > > ます。 > > > > > > > > > > > > > > > > > > > > > > 一度目のstartは正常終了して > いま > > > すが、 > > > > > > 二度 > > > > > > > > 目の > > > > > > > > > > start > > > > > > > > > > > > が異 > > > > > > > > > > > > > > > 常終 > > > > > > > > > > > > > > > > > 了し > > > > > > > > > > > > > > > > > > > て、 > > > > > > > > > > > > > > > > > > > > > > 停止状態に遷移しています。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 使用しているバージョンは以下 > の通 > > > りです。 > > > > > > > > > > > > > > > > > > > > > > corosync : 3.1.5-1 > > > > > > > > > > > > > > > > > > > > > > pacemaker: 2.1.0-8 > > > > > > > > > > > > > > > > > > > > > > pcs : 0.10.10-4 > > > > > > > > > > > > > > > > > > > > > > PotgreSQL: 14.1 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > 原因と対処方法などをご存じの > 方が > > > おられ > > > > > > まし > > > > > > > > たら、 > > > > > > > > > > ご > > > > > > > > > > > > 教授く > > > > > > > > > > > > > > > ださ > > > > > > > > > > > > > > > > > い。 > > > > > > > > > > > > > > > > > > > > > > よろしくお願いいたします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > > > > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > > > > > > > > > > > > > Linux****@lists***** > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japa > > > > > > > > > > > > > > > > > > > > > > n > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > > > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > > > > > > > > > > > > Linux****@lists***** > > > > > > > > > > > > > > > > > > > > > > > > > > > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japan > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > > > > Linux****@lists***** > > > > > > > > > > > > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japan > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > Linux-ha-japan mailing list > > > > Linux****@lists***** > > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japan > > > > > >