renay****@ybb*****
renay****@ybb*****
2013年 10月 30日 (水) 09:30:52 JST
和田さん こんにちは、山内です。 > 表題の件ですが、前回、質問させて頂いたときに確認が不十分で > うまく動作しないケースがありました。 > 時間が空いてしまって申し訳ございませんが、再度質問をさせてください。 > > 構成情報を再掲しておきますと、以下になります。 > #詳細は添付ファイルをご確認ください。 > > ┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┓ > ┃┌─────┐ ┃┌─────┐ ┃ > ┃│group_all │ ┃│ cln_all │ ┃ > ┃└─────┘ ┃└─────┘ ┃ > ┃┌───────────┐┃ ┃ > ┃│ drbd_db │┃ ┃ > ┃├─────┬─────┤┃ ┃ > ┃│ Master │ Slave │┃ ┃ > ┃└─────┴─────┘┃ ┃ > ┃┌─────┬─────┐┃┌─────┬─────┐┃ > ┃│ clnPing1 │ clnPing1 │┃│ clnPing2 │ clnPing2 │┃ > ┃└─────┴─────┘┃└─────┴─────┘┃ > ┣━━━━━━┳━━━━━━╋━━━━━━┳━━━━━━┫ > ┃ it201 ┃ it202 ┃ it203 ┃ it204 ┃ > ┣━━━━━━┻━━━━━━╋━━━━━━┻━━━━━━┫ > ┃ Active/Passive構成 ┃ N+1構成 ┃ > ┗━━━━━━━━━━━━━┻━━━━━━━━━━━━━┛ > > cloneリソースのclone-maxを削除することで上記の構成例の > it201からit202への切り替えはうまくできるようになりました。 > > しかし、上記の例でいうと、it202からit201への切り替えが > うまくできませんでした。 ちなみにこの切り替え手順はどのようなオペレーションをされましたでしょうか? 念の為、切り戻しまでのノードの状態や手順を教えてください。 #下記にpostgreSQLのKILLとありますが、it201へ切り替える場合はit201は再起動をされたように見えますが・・・ > > cloneリソースのclone-maxが入っているときと同じような > 挙動で、今度はgroupのリソースが再起動を繰り返しているように > 見えています。 ちょっと、ログを拝見したのですが・・・ どうやら、drbdのリソースがit202とit201間入れ替わり起こし続けているようです。 たぶん、これはcolocation関連の影響かと思われます。 > 従いまして、cloneのリソースと同じようにgroupのclone-maxの > 削除を行ったのですが、 > > Failed actions: > drbd_db:0_monitor_0 (node=it201, call=5, rc=6, status=complete): not configured > drbd_db:1_monitor_0 (node=it202, call=5, rc=6, status=complete): not configured > > と表示され、うまく起動できませんでした。 > master-node-maxの設定があったため、clone-node-maxの設定の削除も行ったのですが > 同様でした。 monitor_0でのnot configuredなのでこれはまた別の問題のような気がしますが・・・ 詳細はログをお送り頂いた内容で、確認してみます。 > 上記のような状況なのですが、回避方法等ございますでしょうか? > > 該当事象発生時のDCのSyslogを一緒に添付しておきます。 > 10/28 13:33:30に、postgresqlをkillしています。 > > なお、peファイルにつきましては、以前ご教示頂いた箇所だけでも250K弱になりましたので > MLに送付するのは少し大きいかと思い添付を見送っています。 > 必要そうでしたら個別に送付させて頂きたいと考えています。 > > いつも質問ばかりで恐縮ですが、よろしくお願い致します。 できれば個別に私メールアドレスの方にでも送っていただると助かります。 もし、可能であればDCノード以外のログも送ってい頂けるとありがたいのですが。。。 #ファイルサイズがかなり大きいのであれば、何かの分割ソフトで分割して送って頂いた方がよいかも知れません。 以上、宜しくお願いいたします。 > > > -----Original Message----- > > From: linux****@lists***** [mailto:linux****@lists*****] On Behalf Of Wada, > > Shinichirou > > Sent: Wednesday, September 18, 2013 5:47 PM > > To: linux****@lists***** > > Subject: Re: [Linux-ha-jp] Active/Passive構成およびN+1構成の共存環境での挙動について > > > > 山内さん > > > > こんにちは。 > > 和田です。 > > > > 追加情報ありがとうございました。 > > > > なるほど。 > > groupとcolocationを組んだcloneのclone-maxがノード数と一致しない場合がポイントなのですね。 > > > > clone-maxを指定するときには注意が必要なのですね。 > > 表示だけであれば、確かに、clone-maxは指定しないほうが無難そうですね。 > > 参考にさせて頂きます。 > > > > 色々とご教示していただき、ありがとうございました。 > > > > > -----Original Message----- > > > From: linux****@lists***** > > > [mailto:linux****@lists*****] On Behalf Of > > > renay****@ybb***** > > > Sent: Wednesday, September 18, 2013 4:55 PM > > > To: linux****@lists***** > > > Subject: Re: [Linux-ha-jp] Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > 和田さん > > > > > > こんにちは、山内です。 > > > > > > 了解いたしました。 > > > > > > ちなみに・・・・ > > > groupとcolocationを組んだcloneのclone-maxがノード数と一致しない場合には、今回の事象は起きますが・・・・ > > > primitive、cloneとcolocationを組んだcloneの場合には、今回の事象は起きません。 > > > #たぶん、master/slaveも起きないと思います。 > > > > > > ですので、和田さんの、cln_allリソースの故障では、うまく動作していたことになります。 > > > > > > このあたりは、確かドキュメントにも書かれていないので注意が必要ですね。 > > > > > > 基本的には、cloneのclone-maxについては、指定しないでおいた方が無難かと思います。 > > > #指定しないで、配置しないノードにlocation -INFを付ける形。。。。 > > > > > > 以上、宜しくお願いいたします。 > > > > > > > > > --- On Wed, 2013/9/18, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > 山内さん > > > > > > > > こんにちは。 > > > > 和田です。 > > > > > > > > お忙しいところご確認いただきありがとうございました。 > > > > > > > > 表示形式は今とあまり変えたくないので、とりあえずは今のままにしたいと > > > > 考えています。 > > > > #表示だけですし。。 > > > > > > > > また、質問等させていただくことがあるかと思いますが、 > > > > どうぞよろしくお願い致します。 > > > > > > > > > -----Original Message----- > > > > > From: linux****@lists***** > > > > > [mailto:linux****@lists*****] On Behalf Of > > > > > renay****@ybb***** > > > > > Sent: Wednesday, September 18, 2013 2:02 PM > > > > > To: linux****@lists***** > > > > > Subject: Re: [Linux-ha-jp] Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > 和田さん > > > > > > > > > > こんにちは。山内です。 > > > > > > > > > > 表示の方法ですが、結論から言いますと・・・・通常表示の形式で、オプションなどでは、出来ないようです。 > > > > > > > > > > 1)通常表示(Stoppedが表示される) > > > > > > > > > > Online: [ rh64-heartbeat1 rh64-heartbeat2 ] > > > > > > > > > > Clone Set: msPostgresql > > > > > Started: [ rh64-heartbeat1 ] > > > > > Stopped: [ dummy:1 ] > > > > > > > > > > 2)ノード・グループ表示(Stopppedは表示されない。。。ですが、雰囲気は変わります) > > > > > [root @ rh64-heartbeat1 ~]# crm_mon -1n ============ Last updated: > > > > > Wed Sep 18 22:30:54 2013 > > > > > Stack: Heartbeat > > > > > Current DC: rh64-heartbeat2 (3c044f5e-3420-495e-8754-ced13e99dd88) > > > > > - partition with quorum > > > > > Version: 1.0.13-9227e89 > > > > > 2 Nodes configured, unknown expected votes > > > > > 1 Resources configured. > > > > > ============ > > > > > > > > > > Node rh64-heartbeat1 (761d3a55-9953-4576-8556-36b3f451338a): > > > > >online > > > > > dummy:0 (ocf::pacemaker:Stateful): Started Node > > > > >rh64-heartbeat2 (3c044f5e-3420-495e-8754-ced13e99dd88): online > > > > > > > > > > 3)grepなどで加工(Stopppedは表示されない。。。。ただし、リソース構成によっては非常に見ずらくなったりするかもしれ > > ま > > > せん。 > > > > > また、実際に止まっているソースの表示が確認できなくなったりと・・・弊害が多いと思います。) > > > > > > > > > > [root @ rh64-heartbeat1 ~]# crm_mon -1 | grep -v Stopped > > > > > ============ Last updated: Wed Sep 18 22:33:00 2013 > > > > > Stack: Heartbeat > > > > > Current DC: rh64-heartbeat2 (3c044f5e-3420-495e-8754-ced13e99dd88) > > > > > - partition with quorum > > > > > Version: 1.0.13-9227e89 > > > > > 2 Nodes configured, unknown expected votes > > > > > 1 Resources configured. > > > > > ============ > > > > > > > > > > Online: [ rh64-heartbeat1 rh64-heartbeat2 ] > > > > > > > > > > Clone Set: msPostgresql > > > > > Started: [ rh64-heartbeat1 ] > > > > > > > > > > 処理上(ソース上)も、そのようになっているようです。 > > > > > > > > > > 以上です。 > > > > > > > > > > --- On Tue, 2013/9/17, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > > > > > 山内さん > > > > > > > > > > > > こんばんは。 > > > > > > 和田です。 > > > > > > > > > > > > いつもありがとうございます。 > > > > > > > > > > > > ログの件につきましては承知致しました。 > > > > > > もし、送付することがあった場合にはそのように致します。 > > > > > > > > > > > > また、簡単な構成でご確認いただけるとのことで大変助かります。 > > > > > > もし、回避方法等見つかりましたらご教示のほどよろしくお願い致します。 > > > > > > > > > > > > > -----Original Message----- > > > > > > > From: linux****@lists***** > > > > > > > [mailto:linux****@lists*****] On Behalf > > > > > > > Of renay****@ybb***** > > > > > > > Sent: Tuesday, September 17, 2013 10:26 PM > > > > > > > To: linux****@lists***** > > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > 和田さん > > > > > > > > > > > > > > こんばんは、山内です。 > > > > > > > > > > > > > > > ただ、今の設定では当たり前かもしれませんが、clone-maxを指定していないため > > > > > > > > Stoppedと起動しない側のリソースで表示されています。 > > > > > > > > これを表示させないようにする方法はございますでしょうか? > > > > > > > > 見た目だけの話ですのでできないようであればあきらめます。。 > > > > > > > > > > > > > > 確か今回の設定の場合では、これは回避できないはずです。 > > > > > > > 一応、私の方でも確認してみます。 > > > > > > > > > > > > > > > なお、ログとpengineにつきましてはサイズが大きいようですので、 > > > > > > > > 確認に必要そうであれば個別に送付させて頂きたいと考えておりますので、 > > > > > > > > お知らせください。 > > > > > > > > また、送付する場合は全リソース分必要という認識なのですがあっているでしょうか? > > > > > > > > > > > > > > いえ、事象事態は解決されたとのことですので、私の方では、もうちょっと簡易な環境でStoppedの表示が回避可能か > > だ > > > け確 > > > > > 認し > > > > > > > てみます。 > > > > > > > > > > > > > > ちなみに、もし送付していただくケースの場合ですが、 > > > > > > > 基本的には、事象の起きた時にDCノードでログが出ているpeファイルとログ(DCノードのみ)だけでOKです。 > > > > > > > よって、あまりにも大きくなければ、DCノードのログとpeファイルがあればなんとかなります。 > > > > > > > > > > > > > > また、表示の回避については確認が取れましたら、ご連絡いたします。 > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > > > > > > > > > > > > --- On Tue, 2013/9/17, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > こんばんは。 > > > > > > > > 和田です。 > > > > > > > > > > > > > > > > 確認および連絡が遅くなりました。 > > > > > > > > ご教示いただいた方法で、切り替わることは確認できました。 > > > > > > > > > > > > > > > > ただ、今の設定では当たり前かもしれませんが、clone-maxを指定していないため > > > > > > > > Stoppedと起動しない側のリソースで表示されています。 > > > > > > > > これを表示させないようにする方法はございますでしょうか? > > > > > > > > 見た目だけの話ですのでできないようであればあきらめます。。 > > > > > > > > > > > > > > > > ---- > > > > > > > > Online: [ it201 it202 it203 it204 ] > > > > > > > > > > > > > > > > Resource Group: group_all > > > > > > > > fs_db (ocf::heartbeat:Filesystem): Started it201 > > > > > > > > prmPg (ocf::heartbeat:pgsql): Started it201 > > > > > > > > prmDummy (ocf::heartbeat:Dummy): Started it201 > > > > > > > >Master/Slave Set: ms_drbd_db > > > > > > > > Masters: [ it201 ] > > > > > > > > Slaves: [ it202 ] > > > > > > > > Clone Set: clnPing1 > > > > > > > > Started: [ it201 it202 ] > > > > > > > > Stopped: [ prmPing1:2 prmPing1:3 ] Clone Set: clnPing2 > > > > > > > > Started: [ it203 it204 ] > > > > > > > > Stopped: [ prmPing2:2 prmPing2:3 ] Clone Set: cln_all > > > > > > > > Started: [ it203 ] > > > > > > > > ---- > > > > > > > > > > > > > > > > なお、ログとpengineにつきましてはサイズが大きいようですので、 > > > > > > > > 確認に必要そうであれば個別に送付させて頂きたいと考えておりますので、 > > > > > > > > お知らせください。 > > > > > > > > また、送付する場合は全リソース分必要という認識なのですがあっているでしょうか? > > > > > > > > > > > > > > > > よろしくお願い致します。 > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > From: linux****@lists***** > > > > > > > > > [mailto:linux****@lists*****] On > > > > > > > > > Behalf Of Wada, Shinichirou > > > > > > > > > Sent: Friday, September 13, 2013 10:57 PM > > > > > > > > > To: linux****@lists***** > > > > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > > > > > 山内さん > > > > > > > > > > > > > > > > > > こんばんは。 > > > > > > > > > 和田です。 > > > > > > > > > > > > > > > > > > いつもありがとうございます。 > > > > > > > > > > > > > > > > > > まだ、試せていないのですが、ご教示いただいた方法で > > > > > > > > > まずは確認してみようと思います。 > > > > > > > > > > > > > > > > > > 確認後に改めて連絡させてもらいます。 > > > > > > > > > > > > > > > > > > よろしくお願いします。 > > > > > > > > > > > > > > > > > > > -----Original Message----- > > > > > > > > > > From: linux****@lists***** > > > > > > > > > > [mailto:linux****@lists*****] On > > > > > > > > > > Behalf Of renay****@ybb***** > > > > > > > > > > Sent: Friday, September 13, 2013 4:22 PM > > > > > > > > > > To: linux****@lists***** > > > > > > > > > > Subject: Re: [Linux-ha-jp] > > > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > > > > > > > > > > 和田さん > > > > > > > > > > > > > > > > > > > > こんにちは、山内です。 > > > > > > > > > > > > > > > > > > > > 詳細は、事象が発生した時のpeファイルを確認してみないと何とも言えないのですが。。。。 > > > > > > > > > > > > > > > > > > > > さらっと、構成ファイルを見て感じたのですが・・・・・ > > > > > > > > > > > > > > > > > > > > 確かノード数がN数の場合、cloneリソースのclone-maxを設定していると、colocationの制御が微 > > > > > > > > > > 妙に変わるはず > > > です。 > > > > > > > > > > この影響で、clonPing1が再起動するの動作になっているのではないでしょうか? > > > > > > > > > > > > > > > > > > > > これを回避する為には、cloneリソースのclone-maxを設定しない方法になります。 > > > > > > > > > > > > > > > > > > > > clone clnPing1 prmPing1 \ > > > > > > > > > > meta clone-node-max="1" > > > > > > > > > > > > > > > > > > > > clone clnPing2 prmPing2 \ > > > > > > > > > > meta clone-node-max="1" > > > > > > > > > > > > > > > > > > > > #設定しない場合は、オンラインノード数で自動セットされますが。。基本的に、書かない場合でも、和田さんの > > 以 > > > 下の > > > > > 設定 > > > > > > > が有 > > > > > > > > > 効 > > > > > > > > > > になるので、正しく配置されるはずです。 > > > > > > > > > > > > > > > > > > > > location rsc_location-clnPing1 clnPing1 \ > > > > > > > > > > rule -INFINITY: #uname eq it203 \ > > > > > > > > > > rule -INFINITY: #uname eq it204 > > > > > > > > > > > > > > > > > > > > location rsc_location-clnPing2 clnPing2 \ > > > > > > > > > > rule -INFINITY: #uname eq it201 \ > > > > > > > > > > rule -INFINITY: #uname eq it202 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > ・cln_allに障害が発生した場合は適切に切り替わります。 > > > > > > > > > > こちらに関しては、詳細をみないとわかりませんが・・・ > > > > > > > > > > > > > > > > > > > > 事象が発生した直前あたりからのDCノードのログと、この時のDCノードの/var/lib/pengine/の内容( > > > > > > > > > > 前述 > > > > > > > > > > のpeファイ > > > > > ル) > > > > > > > > > > を送 > > > > > > > > > っ > > > > > > > > > > ていただければもう少し原因の詳細がわかると思います。 > > > > > > > > > > > > > > > > > > > > 以上です。 > > > > > > > > > > --- On Fri, 2013/9/13, Wada, Shinichirou <wada.****@jp*****> wrote: > > > > > > > > > > > > > > > > > > > > > こんにちは。 > > > > > > > > > > > 和田です。 > > > > > > > > > > > > > > > > > > > > > > 久しぶりに質問させて頂きます。 > > > > > > > > > > > どうぞ、よろしくお願い致します。 > > > > > > > > > > > > > > > > > > > > > > Active/Passive構成およびN+1構成の共存環境での挙動について > > > > > > > > > > > 障害が発生しても切り替わらないケースがありましたので、 > > > > > > > > > > > ご教示頂ければと考えています。 > > > > > > > > > > > > > > > > > > > > > > ■バージョン情報は以下になります。 > > > > > > > > > > > ・RHEL6.3 > > > > > > > > > > > ・pacemaker-1.0.13-1.1.el6.x86_64.repo.tar.gz > > > > > > > > > > > ※Corosync+Pacemakerの構成しています。 > > > > > > > > > > > ・drbd-8.4.3.tar.gz > > > > > > > > > > > > > > > > > > > > > > なお、旧バージョンでも同じ事象でした。 > > > > > > > > > > > > > > > > > > > > > > ■構成は以下になります。(configファイルを添付しています。) > > > > > > > > > > > ┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┓ ┃┌─────┐ ┃┌───── > > > > > ┐ > > > > > > > > > > > ┃ ┃│group_all │ ┃│ cln_all │ ┃ ┃└─────┘ > > > > > > > > > > > ┃└─────┘ ┃ ┃┌───────────┐┃ ┃ ┃│ drbd_db │ > > > > > > > > > > ┃ > > > > > > > > > > > ┃ ┃├─────┬─────┤┃ ┃ ┃│ > > > > > > > > > > > Master │ Slave │ > > > > > > > > > > ┃ > > > > > > > > > > > ┃ ┃└─────┴─────┘┃ ┃ > > > > > > > > > > > ┃┌─────┬─────┐┃┌─────┬─────┐┃ ┃│ clnPing1 │ clnPing1 > > > > > > > > > > > │┃│ > > > > > > > > > > > clnPing2 │ > > > > > > > > > > > clnPing2 │┃ ┃└─────┴─────┘┃└─────┴─────┘┃ > > > > > > > > > > > ┣━━━━━━┳━━━━━━╋━━━━━━┳━━━━━━┫ ┃ it201 ┃ it202 > > > > > > > > > > > ┃ > > > > > > > > > > > it203 ┃ > > > > > > > > > > > it204 ┃ ┣━━━━━━┻━━━━━━╋━━━━━━┻━━━━━━┫ ┃ > > > > > > > > > > > Active/Passive構成 > > > > > > > > > > > ┃ > > > > > > > > > > > N+1構成 ┃ ┗━━━━━━━━━━━━━┻━━━━━━━━━━━━━┛ > > > > > > > > > > > > > > > > > > > > > > 上記の構成をひとつのクラスタとして管理しています。 > > > > > > > > > > > cln_allは今回の構成(ログ)では1つですが、N+1のN個ほど起動させています。 > > > > > > > > > > > Nの台数にかかわらず、下記に記載する事象は同じです。 > > > > > > > > > > > > > > > > > > > > > > ■ご教示頂きたい内容。 > > > > > > > > > > > ・group_allに登録されているリソースに障害が発生しても > > > > > > > > > > > it201/it202のclonPing1が再起動を繰り返し、切替えが行えなえませんでした。 > > > > > > > > > > > ただし、OSやcorosyncの停止・再起動を行えば、切替えが行えます。 > > > > > > > > > > > 上記のような構成について制限があるかご教示頂けますでしょうか? > > > > > > > > > > > > > > > > > > > > > > なお、 > > > > > > > > > > > ・drbd_dbに障害が発生した場合も同様の事象が発生します。 > > > > > > > > > > > ・cln_allに障害が発生した場合は適切に切り替わります。 > > > > > > > > > > > > > > > > > > > > > > また、情報に不足等あればお知らせください。 > > > > > > > > > > > ※ログファイルは4台分を圧縮して200kbありましたので添付を見送りました。 > > > > > > > > > > > > > > > > > > > > > > よろしくお願い致します。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > > Linux****@lists***** > > > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-ja > > > > > > > > > > pa > > > > > > > > > > n > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > > Linux-ha-japan mailing list > > > > > > > > > Linux****@lists***** > > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japa > > > > > > > > > n > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > > Linux-ha-japan mailing list > > > > > > > > Linux****@lists***** > > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > > Linux-ha-japan mailing list > > > > > > > Linux****@lists***** > > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > > > > > > _______________________________________________ > > > > > > Linux-ha-japan mailing list > > > > > > Linux****@lists***** > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > Linux-ha-japan mailing list > > > > > Linux****@lists***** > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > _______________________________________________ > > > > Linux-ha-japan mailing list > > > > Linux****@lists***** > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > > _______________________________________________ > > > Linux-ha-japan mailing list > > > Linux****@lists***** > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan >