Antecedentele de autopsie RBA dezvaluie puncte slabe – Finante – Hardware – Securitate


Banca Centrală de Rezervă a Australiei (RBA) a emis o autopsie completă a uneia dintre erorile sale rare.

Documentul, emis în această săptămână, detaliază cum o închidere electrică totală a sediului central și a centrului de date al băncii centrale – inclusiv toate sursele de alimentare de rezervă – părți ale sistemului RITS critic pentru aproximativ trei ore.

În ciuda celor mai bune planuri de a limita orice incident neașteptat la doar două ore (cel mai rău scenariu), se pare că o parte din întârzierea de recuperare care a adus banca centrală periculos de apropiat de întârzierea efectuării plăților de bunăstare în august 2018 curgea dintr-o confluență de securitate superioară … și pur și simplu ghinion.

Timpul de 67 de pagini este o lecție brutală despre modul în care testul de control al sistemului de control al incendiilor poate fi foarte greșit atunci când o instalație este intenționată pentru a împiedica intruziunile de tot felul (literalmente un scenariu Fort Knox).

Trei ore offline pot să nu sune cataclismic. Dar dacă tăiați toată puterea într-o bancă centrală în jurul orei 11:00, în mijlocul unei zile de tranzacționare aglomerate, atunci când o pensie se desfășoară în seara zilei de sâmbătă, într-adevăr nu se înrăutățește.

Economia de întrerupere

Atunci când rezervoarele mari de fier ale RBA pentru o perioadă îndelungată, în special sistemul său central de informare și transfer bancar (RITS), nu este doar rău; este posibil o economie-outage rău într-o epocă de interdependență electronică.

Băncile centrale, așa cum sugerează și numele lor, sunt un hub suveran care țineți celelalte bănci între linii și asigurați-vă că registrul lor este păstrat la sfârșitul zilei de tranzacționare.

În cazul Austriei, RBA este, de asemenea, o bancă tranzacțională pentru guvern și se înțelege că întreruperea din august 2018 a evitat limpede lipsa unei runde Centrelink. Apoi, există piețe de acțiuni, piețe valutare, așezări de proprietăți și mai multe exploatații.

"Cu puțin timp înainte de ora 11 dimineața, joi, 30 august, Banca a suferit o întrerupere a alimentării cu energie a centrului de date la unul dintre site-urile sale. Întreruperea a fost cauzată de executarea incorectă de către o parte externă a sistemelor de control al sistemelor de control al focului, care au inițiat o închidere neplanificată a tuturor surselor de alimentare primare și de rezervă care susțin centrul de date. Pierderea de putere a tăiat brusc toate sistemele tehnologice care funcționează de la acel centru de date, inclusiv cele care suportă RITS ", afirmă RBA.

Patrimoniul kitsch-ului din anii 1960. Ce nu e de placut?

În timp ce o grămadă de loturi de decontare de valoare mică de la eftos și Mastercard au rulat la ora 9 dimineața, destul de bine a fost lovită tot ce a mai rămas din RITS când puterea a ieșit. Prioritatea pentru restaurare a fost imediat Serviciul Fast Settlements (FSS) care pompează noua platformă de plăți (NPP).

FSS a fost înapoi în trei ore, dar punctul de referință al RBA este legat de două ore de curtoazie Principii privind infrastructurile pieței financiare. Dacă ajută la stabilirea standardelor, trăiești și tu după ele.

Dar iată un pic pe care RBA le recunoaște că nu se aștepta.

"Serviciile RITS au avut mai mult timp de recuperat decât obiectivul pentru timpul de recuperare (RTO) din cauza amplorii evenimentului, pierderea tuturor sistemelor auxiliare de asistență și dificultățile cu care tehnicienii au obținut acces privilegiat la sisteme. Pierderea accesului la sistemele de documentare care stochează procedurile de sprijin a împiedicat de asemenea eficacitatea personalului care lucrează la restabilirea RITS ", spune autopsia.

Tolerable downtime? Încearcă 26 de minute pe an

Așa cum am menționat mai devreme, timpul de nefuncționare de două ore este menit să fie la fel de rău ca oricând. Obiectivele normale de rulare pentru FSS sunt de fapt trei cifre înapoi de la punctul zecimal.

"Întrucât FSS este obligat să plătească plăți în timp real prin intermediul centralei nucleare pe o bază 24/7, Banca a stabilit ținta de disponibilitate pentru FSS la 99,995% (față de 99,95% pentru RITS), ceea ce echivalează cu o medie de aproximativ 26 de minute de deconectare admisibilă pe an ", a remarcat RBA.

Dar, când lovitura a lovit, au existat în mod necesar unele alegeri greu de făcut.

"În concordanță cu aceasta, la 30 august, conducerea executivă a băncii a dat prioritate recuperării FSS înainte de a începe recuperarea RITS. În mod normal, acest lucru nu ar determina o întârziere semnificativă în recuperarea RITS, deoarece FSS este proiectat să se recupereze automat atunci când unul dintre site-uri devine indisponibil. Cu toate acestea, datorită unei combinații de factori, nu toate sistemele s-au recuperat așa cum era de așteptat ", continuă raportul.

"Pierderea pe scară largă a serviciilor de tehnologie de sprijin și întârzierile aferente în obținerea accesului imediat la sisteme foarte sigure pentru diagnosticarea problemelor și restaurarea serviciilor au însemnat că recuperarea completă a FSS a durat trei ore".

Acestea fiind spuse, compensarea plăților centralei a continuat prin blocarea neplanificată a unor bănci și servicii conectate la NPP care activează planurile de urgență "să pună la dispoziție fondurile în conturile beneficiarilor pentru plățile cu valoare mai mică înainte de reluarea decontării FSS sau au luat măsuri pentru redirecționarea compensării din plățile pentru clienți prin intermediul sistemului de intrare directă. "

Vederea de sub autobuz

Apoi a devenit o chestiune despre ce să restarteze mai întâi și ce a trebuit să aștepte.

"La momentul întreruperii, RITS funcționa de pe site-ul afectat, ca și serverele care automatizează aspectele legate de failover a bazei de date RITS. Prioritizarea recuperării FSS a provocat o întârziere în începerea lucrărilor de restabilire a RITS, în timp ce pierderea accesului la serviciile de monitorizare RITS a însemnat că personalul Băncii nu a fost inițial în măsură să identifice starea operațiunilor RITS ", a spus RBA.

"La patru ore după întreruperea alimentării, coada RITS la site-ul alternativ a fost readusă online, iar tranzacțiile de așteptare au început să fie soluționate în acest moment."

În ceea ce privește telefoanele RBA, s-au prăbușit, de asemenea, planul de comms a mers la telefoane mobile și SMS-uri.

Din punctul de vedere al faptului că este aproape lipsă, RBA este sincer că lucrurile ar fi putut fi mult mai rău.

"Impactul potențial asupra participanților și a sistemului financiar mai larg a fost mult diminuat prin recuperarea sistemelor și finalizarea decontării în ziua întreruperii" … care este un mod foarte uscat de a spune că pensiile și avantajele care nu sunt aterizate este o problemă totală loc unde să fii.

Și data viitoare?

Dar ar putea să se întâmple din nou? Nu dacă RBA o poate ajuta. Prima oprire în turul "temelor cheie dintre aceste lecții învățate și acțiunile de urmărire" este păstrarea unui ochi ascuțiți asupra a ceea ce poate călători și când să se testeze.

Știi, poate că nu la mijlocul zilei de pensie.

"Banca a efectuat o revizuire a acordurilor de întreținere pentru infrastructură critică pe toate site-urile (inclusiv centrele de date) și adecvarea procedurilor și controalelor de testare a sistemelor de siguranță la incendiu.

"Acest lucru a abordat cauza principală a întreruperii și reduce riscul unui alt incident de întreținere care influențează disponibilitatea RITS și a altor servicii critice în timpul orelor de funcționare de bază. Banca a extins, de asemenea, gama de scenarii tehnice de testare a situațiilor de urgență pentru a simula mai bine evenimente în care mai multe componente ale sistemului își pierd puterea simultan. "

De trei ori pentru ghinion

Dacă reziliența înseamnă mai multe bunuri imobile, bine să fie așa.

"Banca intentioneaza sa transfere un server care sustine failover-ul automat al bazei de date RITS la un al treilea site, pentru a elimina riscul ca acest server sa fie de asemenea afectat de aceeasi contingenta care afecteaza sistemele dintr-un site de productie", a spus RBA.

Banca centrală consideră, de asemenea, că "a identificat problema care a împiedicat actualizarea FSS la 30 august și a implementat o actualizare de software care abordează această problemă. Înainte de aceasta, Banca a pus în aplicare o procedură manuală actualizată pentru a permite personalului IT să răspundă rapid dacă o situație similară apare din nou. "

Bănuiesc că ar putea însemna o hârtie, o torță și un set suplimentar de chei. O notă de subsol la declarația de mai sus dezvăluie câteva detalii interesante.

"O repetare a combinației de factori care a împiedicat reluarea automată a erorilor la 30 august, care a rezultat din pierderea completă a puterii la momentul exact în care se desfășura un anumit proces, este considerat foarte puțin probabil".

Dar, așa cum sa întâmplat cu greu, se aplică Legea lui Murphy.

Între timp, RBA continuă cu o revizuire a rezilienței la nivelul întregii bănci și o revizuire a rezilienței cibernetice.

Și, spre deosebire de multe dintre băncile cu amănuntul pe care le ocupă, RBA este sinceră nu numai cu privire la greșelile sale, ci și cum le fixează. Nu este un exemplu atât de rău de urmat.



Source link

Lasă un răspuns