東証システム障害の件です。

記事を紹介します。

東京証券取引所で1日起きた売買の終日停止は、システムのバックアップが機能しなかったことが主因だ。きっかけは基本的な情報などを格納するディスク内のメモリーが故障したことだが、もう一つのディスクへの切り替えがうまくいかなかった。2012年のシステム障害でもバックアップが機能しない問題が発生しており、同じ要因が繰り返された。システム全体が止まりやすい構造に問題が無いか、究明が必要になる。

「『ネバーストップ』を合言葉に市場の安定的な運営を心がけてきた。このような事象が起き、深くおわび申し上げる」。東証の宮原幸一郎社長は1日夕の記者会見でこう陳謝した。コンピューターの処理速度だけではなく、安定性と信頼性を重視したシステムを目指してきたが、取引は終日止まってしまった。

東証によると、2010年に導入した高速取引システム「アローヘッド」では、銘柄名やその日の基準値段など基本的な情報を格納しているディスクが2つあり、「共有ディスク装置」と呼ばれる。今回は午前7時4分に1号機のディスクの故障を検知。通常は、1号機と同じ情報を書き込んでいる2号機に自動的に切り替わるが、バックアップがうまくいかなかった。

システムのバックアップを巡っては、東証では12年2月にも情報配信システムで障害が発生している。1台のサーバーに障害が発生し、別のサーバーに処理を切り替えたつもりだった。ところが、実際には失敗しており、同日午前中の一部銘柄の取引停止につながった。

今回、故障した機器はわかっていたため、ディスクを交換してシステムを手動で再起動をすれば売買再開は可能だった。ただ証券会社からの注文を受け付けていたため、再起動した場合、こうした注文がリセットされてしまう。

注文を出す証券会社側でも通常とは異なる処理が発生する可能性が高かった。そのため「大手や外資、ネット証券など市場参加者の意見を聞いて、混乱を回避するために終日の売買停止を決めた」(株式売買を担当する川井洋毅執行役員)。

原因の究明はこれからだ。故障したディスクやメモリーは富士通製。東証でシステム部門を統括する横山隆介常務執行役員は「ハードの故障自体は想定している。富士通に機器を持ち込み、なぜ自動的に2号機に切り替わらなかったのかという点を調べる」と話した。

富士通は、アローヘッドの設計・開発を一貫して手がけてきた。約350台のサーバーで構成する大規模システムで、今回故障したディスク装置や、正常に作動しなかった2号機への切り替えシステムも手がけていた。

共有ディスク装置は、アローヘッドを刷新した19年11月に導入したものだ。メモリーの故障が発生したのは今回が初めてという。「テストでは正常に切り替えができていた」(東証の横山氏)が、1日は作動しなかった。

まだ原因は判明していない。ただ、情報処理推進機構ソフトウェア・エンジニアリング・センターの元所長の鶴保征城氏は「重要システムにとって、障害を早期に見つける機能の信頼性確保は最後の課題だ」と指摘。「切り替えがきちんと動作するか、頻繁にテストしなければならない。その意味では残念ながら東証の怠慢と言わざるをえない」と話す。

東証では明日からの取引再開を目指すが、当面はディスク装置を人手で監視して、強制的に切断するなど取引に影響が起こらないように対応するという。東証の宮原社長は、富士通に損害賠償は求めない方針を示した。

富士通は1日、「当社の納入したハードウエアに障害が生じて多くの関係者の皆様に多大なるご迷惑をおかけしたことを、おわびいたします」とコメントした。

金融の大規模システムの設計に詳しい技術者は「障害を発生させないようにする設計が時代遅れだ」と話す。一部の機能が故障しても取引が止まらないように設計すべきだと指摘している。

関連記事です。
東証のシステムが停止して終日売買が停止となった件です。システム障害によって、終日売買停止というのは初めての事態ですし、海外からみても稀なような気がします。

この手のシステムだと障害に備えて冗長構成にしておりますが、きちんと切り替わりが上手くいけばいいのですが、障害の箇所によっては切り替えることが出来ない可能性はあるわけで、金融システムの場合は信頼度を高めないといけないですし、相応のテストをしてから導入をするのですが、それでもこの手の障害が起きることについても致し方ない話ですし、システムがダウンした場合でも早急な復旧を求められることになります。

今回の障害については、基本的な情報などを格納するディスク内のメモリーが故障したことが主原因のようですが、障害箇所としては厄介な場所ですし、障害としては難しい箇所だったと思います。ディスク内のメモリーが故障とか聞いたことない話ですし、東証側としてもこの手の故障が発生したのは今回が初めてだったみたいですし、それに引きずられてバックアップが機能しなかったことで、切り替えを行うことや、ディスクを交換してシステムを手動で再起動をすれば売買再開は可能であっても、その方法は取れなかったわけで、案外稀な事例ですし、終日止める判断そのものは妥当だったように思います。

障害を早期に見つける機能の信頼性確保や、切り替えがきちんと動作するか、頻繁にテストを行うのは基本ではありますが、バックアップが機能しないとか、切り替えが正常に行われないという問題は、システム設計での課題というか、恐らく一番難しい部分のような気がします。そういった意味では、確かに終日システムを止める事態は稀ではありますが、障害が起きることそのものについては、責めるのも酷な話だと思います。

実際に海外の市場関係者らの受け止めは冷静ですし、完全なシステムはありえないですし、再発防止や早期復旧出来るようにシステムの信頼性を高めていくしかないです。
ここで東証のアローヘッドについて紹介します。


このシステムは東日本大震災でも取引は中断されなかったし、基本的に優秀なシステムだとは思います。

  アローヘッドは2010年から運用を開始し、19年11月にシステムを全面刷新した。富士通のサーバーで構成され、情報配信時間の短縮など処理能力が高く、障害発生時にも瞬時でサーバーの切り替えができるという。11年の東日本大震災でも、取り引きは中断されなかった。
2019年の11月にバージョンアップしました。
バージョンアップの概要は以下の通り。



あとはこの辺の話も面白いです。ここにも書かれてますが、冗長構成はホントに難しいのと、ここに関わるエンジニアは日本でもトップクラスのエンジニアが関わってるだけに、今回の障害は何気に難しかったように思います。

この辺の記事も面白いです。
いろいろとありますが、東証のシステム障害からみても普通に優秀だと思います。

2005年11月1日、コンピュータプログラムミスにより、全上場銘柄の取引を一時停止。午後1時半から取引開始。
2006年1月18日、ライブドア事件で大量の売り注文に対し、リアルタイム処理が追いつかず、14時40分に全銘柄取引停止。
2012年2月2日、3つのサーバで不具合が発生、午前9時より241銘柄の取引を停止。後場から取引開始。
2018年10月9日、1つのサーバで不具合が発生、一部の証券会社で売買が遅延したり、注文ができなくなった。野村証券、SMBC日興証券では昼前後に取引再開。

アローヘッドになってからの障害は今回で3回め?ですし、2018年の障害は以下の要因でした。

2012年のシステム障害でもバックアップが機能しない問題は以下の要因でした。
今回のシステム障害は結構レアなものですし、東証のシステムそのものは優秀なのは確かで今までの信頼や実績が素晴らしいものであるということも知ってほしいですね。