Elastic i IT-Operations

Elastic inom IT-Operation

2019-09-19

Elastic Search är en no-sql lösning. Ofta används Elastic inom data-lake. Med Elastic är det enkelt att lagra olika typer av information utan att behöva definiera tabeller och datatyper i förväg.

Så vad är speciellt med det? Varför har vi på Compose IT valt Elastic som partner?

Fullständig synlighet

Vi backar några steg till hur vi ser på verktyg för IT-Operation vilket är vårt område och expertis.  Gemensamt för alla de IT-miljöer vi träffar på är att de består av olika delar som är tekniskt skilda och driftas av olika delar av organisationen. Detta står i kontrast till brukarna av IT-tjänster som i regel är beroende av att hela stacken fungerar problemfritt.

När en incident sker, hamnar det ofta hos en grupp som genast skickar den vidare till nästa grupp som i sin tur tittar på den och skickar den vidare. Efter en tid, om problemet kvarstår behöver man kalla in olika experter från olika delar i ett sk. war-room och där tittar alla på sina verktyg och säger att ”vårt funkar” det måste vara ”ni som har problem”. Det blir ett ’blame-game’.

”Shift-Left”
Istället vill man så tidigt i kedjan, gärna på level 1 eller 2, ha en helhetsbild av vad som pågår, hur saker hänger ihop och vad som hänt. Antingen för att genast kunna lösa Incidenten eller för att säkerställa att Incidenten skickas till rätt grupp med rätt information och prioritet. Att lösa ett problem tidigt i kedjan kallas ofta för ’Shift-Left’.

När vi på Compose IT bygger våra lösningar siktar vi dessutom på att man ska ha denna bilden på max ’3 klick’.

För att åstadkomma detta försöker man ofta välja ett enda verktyg, men tyvärr finns det inte ett verktyg som är bra för alla delar inom IT. Det andra man kan göra och som vi fortfarande gör är att integrera informationen i presentationslagret. Vilket bland annat gör att du lätt kan hoppa från ett verktyg till ett annat.

Information, inte data

Det som Elastic Search erbjuder är att väldigt kostnadseffektivt samla data från dina system eller verktyg på ett ställe. Att sedan använda detta data för att presentera det på ett sömlöst sätt, när och var du vill blir betydligt kraftfullare. Det ger dig integrerad information, inte vyer avdata.

Larm, Loggar och Statistik
För att få en komplett bild över din IT-miljö finns det fyra typer av data som behöver samlas in. Loggar, larm, statistik och kontext.
Systemens kontext, d.v.s. dokumentation har ni i regel redan i CMDB, Asset och Inventory system. Larm och berikningen av dessa sker i ert Fault-Management system men loggar och statistik är oftast spridda i olika verktyg.
Det är här Elastic Search kommer till sin rätt. Data som idag är spridd kan samlas, utan att du behöver byta några verktyg (om du inte vill).  Elastic är väldigt kostnadseffektivt jämfört med  liknande lösningar. Då gör det inget om du dubbellagrar datat. Fördelen är att du kan ge alla tillgång till samma information. Du kan inkorporera detta i både din 1st-line och 2-nd line för att de omedelbart skall ha tillgång till ’full-stack’ information.

 

Låt oss beskriva detta i nedanstående exempel:

Elastic

Compose Operation Platform 

Här har vi en konsol för 1st och 2nd line bestående av COP, Compose Operation Platform som bygger på Netcool från IBM samt Elastic.

Med endast ett ’klick’ för att markera ett larm ser du direkt statistik för de vitala attributen för det objektet som larmar, Ex. en server, en router eller en databas.
Samtidigt har du direkt tillgång till loggarna för samma enhet och tidsperiod.
I detta exempel har du även genom COP tillgång till relationer från CMDB och en Knowledge Base artikel kopplat till typen av larm du just markerat.

För 1st och 2nd Line betyder det:

  • inga ytterligare inloggningar
  • inga andra verktyg att lära sig men samtidigt möjligheten att identifiera vad eller var felet är!
  • detta med inte mer än 1 klick!

Beskrivning av bilden ovan:

(A) Eventlistan med de event som har filtrerats fram för 2nd line. Larmen prioriteras baserat på SLA, produktionsstatus, change och system

(B) Dashboard som visar de vitala mätvärden för det objekt som markeras i listan och för den tidsperiod som larmet gäller. Om larmet kom in för två timmar sedan och avslutades 25minuter senare är det den tiden +- 30min som visas så fort larmet markeras

(C) Logg från det objekt som markeras i larmlistan med urvalet för tid på samma sätt som ovan

(D) Under larmlistan har vi vår kunskapsdatabas för larmen. Igen, så fort ett larm markeras hämtas motsvarande instruktion

(E) Sedan en sammanfattning av andra larm på samma Nod under samma tid. Även om vi har både ML och event-korrelering kan det vara värdefullt att se om det finns andra larm eller incidenter på den Nod jag undersöker

(F) En topologisk bild över hur det objekt som är markerat hänger ihop med andra objekt, detta hämtas från CMDB samt färgsätts om dessa objekt har aktiva larm

(G) En lista över större pågående situationer för att veta om det är något som det du tittar på kan vara relaterat till. Till exempel större nät-fel eller strömavbrott

 

Vi har många referensprojekt som vi gärna delar med oss av.

Kontakta oss så berättar vi mer

Våra verktyg

Kontakta oss