[Linux-ha-jp] Pacemakerのフェールオーバー後のノード組込みについて

Back to archive index
辻 真吾 tsuji****@ryobi*****
2022年 6月 7日 (火) 17:06:29 JST


山内さん

お世話になっております。辻です。

> まだ、ログについては、これから拝見しますが、2度start(例えば、故障などが
> 起きてstopしてstart(restart))は聞いたことがありません。

承知しました。ありがとうございます。

> また、ログを拝見してご連絡いたします。

ありがとうございます。お手数をおかけします。

以上、よろしくお願いいたします。

> -----Original Message-----
> From: renay****@ybb***** <>
> Sent: Tuesday, June 7, 2022 4:57 PM
> To: tsuji****@ryobi*****; LINUX-HA <linux****@lists*****>
> Cc: d-ike****@ryobi*****
> Subject: Re: RE: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード組込
> みについて
> 
> 辻さん
> 
> こんにちは、山内です。
> 
> ログの送付ありがとうございました。拝見させていただきます。
> 
> > ちなみに、これまでに他の利用者で同様に二度startされたようなケースは
> > ございますか?
> > どのような時に二度startされるのか、情報をお持ちでしたら可能な範囲で
> > 共有いただけますと幸いです。
> まだ、ログについては、これから拝見しますが、2度start(例えば、故障などが
> 起きてstopしてstart(restart))は聞いたことがありません。
> 
> 他に知見がある方が、コメントしてくれるかも知れません。
> 
> 1)2)について、承知いたしました。
> また、ログを拝見してご連絡いたします。
> 
> 以上、よろしくお願いたします。
> 
> 
> > ----- Original Message -----
> >
> > From: "辻 真吾" <tsuji****@ryobi*****>
> > To: "renay****@ybb*****" <renay****@ybb*****>;
> "LINUX-HA" <linux****@lists*****>
> > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > Date: 2022/06/07 火 15:42
> > Subject: RE: [Linux-ha-jp]  Pacemakerのフェールオーバー後のノード組込
> みについて
> >
> >
> > 山内さん
> >
> > お世話になります。辻です。
> >
> > ※先ほど、本メールと同じ内容のメールを送信しましたが、
> > ※送信エラーになりましたので、再送します。
> > ※重複して受信された場合は、先のメールの破棄をお願いします。
> >
> > 早速のお返事、ありがとうございます。
> >
> > > RAが2度startされているとのことですが、ログなど拝見出来ればなにか
> わか
> > > るかも知れません。
> >
> > 恐縮ですが、ログを送付させていただきますので、何かお気付きの点が
> > ありましたら、ご助言いただけますと幸いです。
> > (添付ファイルの送信でエラーになったようですので、このメールの後で
> >  山内さん個別にログを送付させていただきます。)
> >
> > ちなみに、これまでに他の利用者で同様に二度startされたようなケースは
> > ございますか?
> > どのような時に二度startされるのか、情報をお持ちでしたら可能な範囲で
> > 共有いただけますと幸いです。
> >
> > > 1)STONITHは組み込まれていると思いますが、マスターノードは正常にフ
> ェン
> > > シング終了して、再起動しているでしょうか?
> >
> > 停止時のログでfencing関連のメッセージは以下のものがありました。
> > 最後の「disconnected」により停止されているように見えますが、
> > いかがでしょうか?
> > このメッセージより後に、組込みの起動を行っております。
> >
> > May 31 07:32:28 node1-001 pacemaker-controld  [224147]
> (stonith__watchdog_fencing_enabled_for_node_api) 	warning:
> watchdog-fencing-query failed
> > May 31 07:34:36 node1-001 pacemaker-controld  [224147]
> (stonith__watchdog_fencing_enabled_for_node_api) 	warning:
> watchdog-fencing-query failed
> > May 31 07:35:19 node1-001 pacemaker-controld  [224147]
> (tengine_stonith_connection_destroy) 	info: Fencing daemon disconnected
> >
> >
> > > 2)corosync/pacemakerのsystemdの自動起動が有効になっていたりしま
> せん
> > > でしょうか?
> >
> > こちらの設定は、無効化しております。
> >
> > 以上、よろしくお願いいたします。
> >
> > > -----Original Message-----
> > > From: Linux-ha-japan <> On Behalf Of renay****@ybb*****
> > > Sent: Saturday, June 4, 2022 9:20 AM
> > > To: linux****@lists*****
> > > Cc: d-ike****@ryobi*****
> > > Subject: Re: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード組込
> みに
> > > ついて
> > >
> > > 辻さん
> > >
> > > こんにちは、山内です。
> > >
> > > 5)が正常に終わっているとのことですので、マスターに昇格したスレーブ
> との
> > > 同期は正しく実行されていると思いますので、
> > > 再起動して、スレーブ起動しようとしているpacemakerのリソース起動中
> に何
> > > か起きていると思われます。
> > >
> > > RAが2度startされているとのことですが、ログなど拝見出来ればなにか
> わか
> > > るかも知れません。
> > >
> > > 以下の点、とりあえず、確認して見た方が良いかと思います。
> > > 1)STONITHは組み込まれていると思いますが、マスターノードは正常にフ
> ェン
> > > シング終了して、再起動しているでしょうか?
> > > 2)corosync/pacemakerのsystemdの自動起動が有効になっていたりしま
> せん
> > > でしょうか?
> > >
> > > 以上、よろしくお願いいたします。
> > >
> > > > ----- Original Message -----
> > > >
> > > > From: "辻 真吾" <tsuji****@ryobi*****>
> > > > To: "LINUX-HA" <linux****@lists*****>
> > > > Cc: "d-ike****@ryobi*****" <d-ike****@ryobi*****>
> > > > Date: 2022/06/03 金 16:29
> > > > Subject: [Linux-ha-jp] Pacemakerのフェールオーバー後のノード組込み
>> > > ついて
> > > >
> > > >
> > > > 初めて投稿させていただきます。
> > > > 辻と申します。
> > > >
> > > > DBサーバ(PostgreSQLレプリケーション構成)を
> > > > Pacemaker+Corosyncを使用してHAクラスタ構成としています。
> > > >
> > > > クラスタ構成において、フェールオーバーを発生させて、
> > > > その後に、ダウンさせたノードの組込みを実施したところ、
> > > > 組込みに失敗するという事象が発生しております。
> > > >
> > > > 初期状態のノードを以下の構成として、実施した手順を記載いたします。
> > > >   - マスターノード:ノード1
> > > >   - スレーブノード:ノード2
> > > >
> > > > 実施手順
> > > >  1. ノード1のpostgresプロセスをkill
> > > >  2. ノード2がマスターに昇格
> > > >  3. ノード1のpacemaker、corosyncをsystemctlで停止
> > > >  4. ノード1でテーブル空間のディレクトリ配下とPGDATAのディレク
> トリ
> > > を削除
> > > >  5. ノード1でpg_basebackupを実施
> > > >     $ /usr/pgsql-14/bin/pg_basebackup -h <ノード2> -D $PGDATA
> -Xs
> > > -P -n
> > > > 6. ノード1のcorosync、pacemakerをsystemctlで起動
> > > >     → ここでノード1が"sync"状態になる想定ですが、
> > > >        実際には起動処理が実施された後に、
> > > >        停止状態に遷移してしまいます。※
> > > >
> > > >   ※
> > > >   手順6の起動を実施した際に、RAのpgsqlでstart処理が二度呼ばれ
> てい
> > > ます。
> > > >   一度目のstartは正常終了していますが、二度目のstartが異常終了し
> て、
> > > >   停止状態に遷移しています。
> > > >
> > > > 使用しているバージョンは以下の通りです。
> > > > corosync : 3.1.5-1
> > > > pacemaker: 2.1.0-8
> > > > pcs      : 0.10.10-4
> > > > PotgreSQL: 14.1
> > > >
> > > > 原因と対処方法などをご存じの方がおられましたら、ご教授ください。
> > > > よろしくお願いいたします。
> > > >
> > > > _______________________________________________
> > > > Linux-ha-japan mailing list
> > > > Linux****@lists*****
> > > > https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> > > >
> > >
> > > _______________________________________________
> > > Linux-ha-japan mailing list
> > > Linux****@lists*****
> > > https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >



Linux-ha-japan メーリングリストの案内
Back to archive index