De Azure-cloud van Microsoft heeft met een huidige uptime van 99,995 procent een erg hoge beschikbaarheid. Toch wil Microsoft naar aanleiding van drie “unieke en significante” incidenten in het afgelopen jaar de betrouwbaarheid verder verhogen. Mark Russinovich, CTO Azure bij Microsoft, lichtte de initiatieven in dit kader vorige maand toe in een blogpost.
Allereerst is er een nieuw Quality Engineering-team opgericht, dat zich samen met het Site Reliability Engineering (SRE)-team richt op het vinden van nieuwe manieren om Azure nog betrouwbaarder te maken. Zo worden tussen nu en 2021 de beschikbaarheidszones verder uitgebreid van tien naar twintig regio’s. Daarnaast wordt er gewerkt aan Project Tardigrade, dat voortijdig hardware storingen of geheugenlekken kan detecteren. Tot slot breidt Microsoft zijn safe deployment practice framework uit met software-gedefinieerde infrastructuurveranderingen in Azure, zoals netwerken en DNS.