Störningar på beta.sli.se

beta.sli.se har oförklarligt ”stannat” eller varit mycket långsam vid ett antal tillfällen under en ganska lång tid.

Det hela är mycket beklagligt och har också varit en stor utmaning att felsöka. När felet inträffar skulle man behöva felsöka i lugn och ro, samtidigt som alla som använder våra tjänster bara vill så snabbt som möjligt få igång systemet igen.

Resultatet har blivit att vid dessa tillfällen har vi inte kunnat felsöka djupare utan vi har då i efterhand ägnat vår tid till att analysera loggfiler, betrakta programkod för att söka något logikfel, lägga till mer loggning så att nästa gång det inträffar få ledtrådar om vad som går snett, osv.

Länge såg det ut att vara ett kod/logikfel som orsakade överbelastning på databasen. Idag fick vi en ledtråd som blev ett genombrott. Felet visar sig ligga på en helt oväntad plats, i själva Virtualiserings-lagret, dvs. i mjukvaran mellan hårdvaran och en webbserver i detta fall.

Nu vet vi alltså vad som orsakat problemet. Vi vet också hur vi snabbast möjligt reparerar felet temporärt om felet inträffar igen innan vi har fått en permanent lösning på plats.

Vi kommer på denna blogg och på Twitter avisera när en permanent lösning finns på plats.