Mer öppen och autonom observerbarhet: den nya standarden inom näringslivet

  • OpenTelemetry konsoliderar ett gemensamt telemetrispråk som frigör leverantörsbindningar och underlättar integrationen av AI i observerbarhet.
  • Observerbarhet upphör att enbart vara operativ och kopplas nu till affärsmått, användarupplevelse och verklig ekonomisk påverkan.
  • Agentobservabilitet driver AI-agenter som upptäcker, analyserar och åtgärdar problem med ökande autonomi, med stöd av tillförlitlig data.
  • Säkerhet, styrning och noll förtroende blir avgörande för att kontrollera expansionen av agentisk AI och autonoma system i kritiska miljöer.

mer öppen och autonom observerbarhet

La Observerbarhet har gått från att vara ett nischt tekniskt ämne till en strategisk pelare För alla organisationer som förlitar sig på programvara – vilket praktiskt taget alla är – räcker det inte längre med att bara "övervaka servrar" eller titta på isolerade dashboards. Företag behöver förstå vad som händer i deras system i realtid, koppla den informationen till verksamheten och reagera snabbt när något går fel. Och som grädde på moset måste de göra det i en alltmer programvarudriven miljö. Agent AI, öppna standarder och distribuerade arkitekturer.

I detta scenario går trenden tydligt mot en mer öppen observerbarhet, närmare kopplad till affärsresultat och mycket mer autonomOpenTelemetry etableras som det gemensamma språket för telemetri, AI går bortom experiment för att integreras i kärnan av observationsplattformar, och ITops-team omvandlas till orkestrerare av intelligenta system som upptäcker, analyserar och till och med korrigerar problem på egen hand. Låt oss bryta ner hur denna förändring sker och vilka konsekvenser den har för teknik, affärer, säkerhet och datastyrning.

Från klassisk övervakning till observerbarhetens era

Utvecklingen från den traditionell övervakning mot modern observerbarhet Det går långt tillbaka. När banbrytande APM-verktyg dök upp, som de som Lew Cirne populariserade med New Relic, var den stora nyheten att kunna se i detalj vad koden i en monolitisk applikation gjorde i ett företagsägt datacenter. Det var en revolution: för första gången kunde team observera prestandan hos sina produktionsapplikationer med mycket fin detaljrikhet.

Med ankomsten av molntjänster, mikrotjänster, containrar, serverlös databehandling samt DevOps och SRE-metoderLandskapet förändrades fullständigt. Skiftet från monolitiska till distribuerade system innebar att synlighet vid olika tidpunkter inte längre var tillräcklig. En tjänst är inte längre en enda applikation, utan en svärm av kortlivade mikrotjänster, orkestrerade på plattformar som Kubernetes, driftsatta dussintals gånger om dagen och körda på hybridinfrastrukturer med flera molnleverantörer.

I den miljön är traditionell övervakning, fokuserad på fördefinierade mätvärden och statiska varningar, otillräcklig. Observerbarhet introducerar ett annat tillvägagångssätt: insamling och korrelering av mätvärden, loggar, spår och händelser att härleda systemets interna tillstånd från dess externa utdata. Det handlar inte bara om att veta att något har misslyckats, utan om att förstå varför det hände och vilken inverkan det har på användaren och verksamheten.

Författare gillar Yuri Shkuro Denna skillnad sammanfattas väl: övervakning mäter det som i förväg har bestämts som viktigt, medan observerbarhet låter dig formulera nya frågor om systemet utan att ha förberett alla indikatorer i förväg. Med andra ord, Observerbarhet omvandlar telemetridata till handlingsbart sammanhang för utveckling, drift och affärer.

Denna övergång drivs också av mycket specifika faktorer: a brutal press att förnya sig snabbtAlltmer krävande kunder som överger en app vid minsta fel, ett nästan oändligt utbud av tekniker och hanterade tjänster, och en växande automatisering av hela programvarans livscykelAll den automatiseringen är också programvara som kan misslyckas, och den behöver sin egen observerbarhet.

Komplexitet, risk och för många verktyg: varför observerbarhet är avgörande

observerbarhetstrender

Modern arkitektur medför fyra stora huvudbry som gör att observerbarhet är praktiskt taget obligatorisk Om du vill behålla kontrollen:

Först, den komplexiteten har skjutit i höjdenEn container kan leva i minuter eller sekunder, en mikrotjänst kan ändra versioner flera gånger om dagen, och komponenterna mångfaldigas. Det som en gång var en monolitisk applikation blir en konstellation av sammankopplade tjänster. Driftteam hamnar i en situation där de har att göra med hundratals eller tusentals enheter som ständigt förändras, av vilka många de inte själva har utvecklat.

Utöver detta tydlig ökning av riskenAtt driftsätta flera gånger om dagen innebär att kontinuerligt införa ändringar – och potentiella återställningar. Agila metoder och kontinuerlig leverans lägger till fler verktyg, pipelines och automatiseringar som också måste beaktas. Förmågan att snabbt upptäcka ett problem, identifiera grundorsaken och återställa eller åtgärda det på några minuter är inte längre önskvärt utan ett krav.

Parallellt, en kompetensgapetTeknikstacken är så omfattande att det är omöjligt för en enda person att behärska databaser, nätverk, API:er, säkerhet, containrar, orkestreringsplattformar och CI/CD-verktyg. Mekanismer behövs för att förstå hur allt hänger ihop, vad som beror på vad och var man ska leta när något går fel. Utan denna sammankopplade syn kan den tid som slösas bort på att hoppa mellan verktyg vara enorm.

Och som grädde på moset uppstår problem med "verktygsspridning" eller överskott av verktygVarje lager i stacken har vanligtvis sin egen övervakningslösning: ett för databasen, ett annat för infrastrukturen, ett annat för front-end, ett annat för loggar, ett annat för spår… Att korrelera data mellan dem innebär kontinuerlig kontextväxling, manuella sökningar och längre incidentlösningstider. Detta är raka motsatsen till vad som behövs när applikationen är nere och användarna klagar.

Svaret på allt detta ligger i en enhetlig observationsplattform som samlar in all relevant telemetri, kopplar den till de enheter som genererar den och gör det möjligt för alla team – utveckling, drift, säkerhet, affärsverksamhet – att utforska och utnyttja dessa data från en enda plats. Detta inkluderar inte bara prestationsmått utan även affärshändelser och signaler som avslöjar den ekonomiska effekten av varje incident.

OpenTelemetry som ett gemensamt språk för observerbarhet

En av de tydligaste trenderna är konsolideringen av OpenTelemetry (OTel) som en öppen telemetristandardDet är ett ramverk med öppen källkod som definierar API:er, SDK:er och komponenter för att samla in mätvärden, loggar och spår på ett homogent sätt, utan att vara knutet till en specifik tillverkare av observationsverktyg.

Under de kommande åren förväntas det Företag kräver kompatibilitet med OpenTelemetry till sina leverantörer. Anledningen är enkel: genom att använda ett "universellt språk" för att beskriva telemetri kan en organisation byta observationsplattformar utan att behöva skriva om eller ominstrumentera all sin kod. Detta minskar risken för leverantörslåsning och ger flexibiliteten att utveckla stacken efter behov.

Till skillnad från helt proprietära lösningar, där varje ny integration är beroende av tillverkarens färdplan, har OTel Det gör att integrationer kan överleva tekniska förändringar.När nya molntjänster, ramverk eller runtimes dyker upp behöver de helt enkelt skicka telemetri i standardformatet för att kunna skicka den till valfri kompatibel backend.

Dessutom är användningen av OpenTelemetry avgörande för mata artificiell intelligens på rätt sättAI-modeller, oavsett om det är traditionell maskininlärning, avvikelsedetektering eller generativ AI, fungerar bäst när data är ren, strukturerad och konsekvent. OTel tillhandahåller just detta enhetliga ramverk för att generera och märka den telemetri som algoritmerna sedan bearbetar.

Nyligen genomförda studier tyder på att organisationer som redan använder OpenTelemetryÄven om det bara är delvis implementerat, upplever de en positiv inverkan på indikatorer som intäktstillväxt, förbättrade rörelsemarginaler och varumärkesrykte. Det är inte magi: att ha en konsekvent och portabel observerbarhetsbas gör det lättare att upptäcka problem innan de påverkar kunden och optimera prestandan för viktiga tjänster.

De tre pelarna i en modern observerbarhetspraxis

Utöver att anta en standard som OTel, är en sund observerbarhetspraxis beroende av tre grundläggande komponenter som förstärker varandraöppen instrumentering, sammankopplade enheter (eller data) och programmerbarhet.

La öppen instrumentering Detta innebär att man samlar in telemetri från både proprietära och öppen källkodsagenter. Applikationer, tjänster, värdar, containrar, serverlösa funktioner, mobilappar, hanterade molntjänster – allt måste kunna generera mätvärden, händelser, loggar och spår i format som kan standardiseras. Det är här agenter från traditionella leverantörer kommer in i bilden, men även exportörer och bibliotek från OpenTelemetry och andra öppen källkodsprojekt.

Det andra blocket är det av anslutna enheter och metadataAtt bara samla in mätvärden och loggar räcker inte; du måste förstå vem som genererar dem och hur de relaterar till varandra. Detta kräver att du identifierar tjänster, databaser, köer, funktioner, poddar, kluster, molnkonton och länkar deras telemetri och beroenden. Med detta sammanhang kan plattformen automatiskt rendera arkitekturkartor, samtalsflöden och tidslinjer för incidenter utan att teamet behöver konfigurera allt manuellt.

Baserat på det kan man ansöka intelligens och avancerad analysGenom att identifiera mönster, avvikelser och korrelationer inom datamängden kan observationsplattformar hjälpa till att prioritera varningar, minska brus, upptäcka komplexa incidenter och påskynda rotorsaksanalys. Detta är den naturliga vägen mot alltmer proaktiv observerbarhet och, som vi kommer att se senare, mot agenters autonomi.

Slutligen finns det programmerbarhetVarje företag har specifika behov: egna nyckeltal (KPI:er), olika kritiska processer och unika kostnadsmodeller. En modern observationsplattform måste möjliggöra byggande av anpassade applikationer och vyer ovanpå all telemetri: dashboards som blandar tekniska data med affärsmått, ekonomisk konsekvensanalys av avbrott eller försämringar, eller interna applikationer för att undersöka komplexa incidenter enligt företagets arbetsflöde.

Denna möjlighet att "programmera" på observerbarhetsdata öppnar dörren för användningsfall som kvantifiera den verkliga kostnaden för ett fel I en betalningsprocess, relatera den till den tekniska orsaken (till exempel en regression i en utcheckningsmikrotjänst) och prioritera därmed korrigeringsinsatser med rent ekonomiska konsekvenskriterier.

Affärsorienterad observerbarhet: från konsol till resultat

En av de största förväntade förändringarna är övergången från en observerbarhet fokuserad på den tekniska driften till en annan tydligt affärsinriktad. Samma data – loggar, spår, mätvärden, händelser – börjar användas inte bara för att underhålla infrastrukturen, utan också för att besvara viktiga frågor om intäkter, kostnader och användarupplevelse.

Inom industrisektorer, till exempel, möjliggör observerbarheten hos IoT-sensorer förutse maskinhaveri och optimera underhållsplaner. Om onormala vibrationsmönster eller temperaturer utanför intervallet upptäcks kan åtgärder schemaläggas innan produktionslinjen stannar, vilket förhindrar oplanerade driftstopp och dess ekonomiska konsekvenser.

Inom finanssektorn, analysera i realtid transaktionsloggar Det hjälper till att identifiera misstänkta transaktioner som kan vara relaterade till bedrägerier. När systemet upptäcker atypiska händelseförlopp, ovanliga geolokaliseringar eller belopp som bryter mot vanliga mönster kan det utlösa automatiska blockeringsmekanismer eller manuell granskning innan en attack lyckas.

Inom marknadsföring och försäljning, korrelera applikationsspår med kampanjstatistik Det låter dig besvara mycket direkta frågor: Påverkar webbplatsens latens klickfrekvens eller konvertering? Vilken version av en funktion förbättrar navigering och uppehållstid bäst? Om prestandan sjunker under en kampanj hjälper observerbarheten till att identifiera hur många potentiella försäljningar som har gått förlorade och exakt vid vilken tidpunkt i tratten problemet uppstod.

Allt detta innebär att översätta teknisk telemetri till användbar kunskap för företagsledareDet handlar inte om att visa en försäljningschef ett CPU-diagram, utan om att visa dem hur många transaktioner som misslyckades med att slutföras på grund av tjänsteförsämring och vad den uppskattade kostnaden var. Och för att uppnå detta måste observerbarheten länka tekniska data, användarhändelser och affärsmått inom samma modell.

Konsultföretag specialiserade på observerbarhet, såsom Nettaro, hjälper redan företag och institutioner att att ta detta steg från en rent operativ vision till en strategisk visionutforma modeller som kopplar samman affärsnyckeltal med telemetrisignaler i realtid.

Från AIOps till agentobservabilitet

Antagandet av Artificiell intelligens i observerbarhetsplattformar Det är redan verklighet. De flesta ITOps-team har införlivat AIOps-komponenter – algoritmer som analyserar stora mängder operativ data för att upptäcka avvikelser, gruppera händelser eller förutsäga problem – i sina arbetsflöden.

I många fall integreras det också generativ AI att interagera med telemetri med hjälp av naturligt språk: ställ konversationsfrågor som "varför ökade antalet fel med 500 i Europa för 20 minuter sedan?" och få en förklaring baserad på loggar, mätvärden och spår utan att behöva skapa komplexa frågor.

Men idag baseras de flesta beslut på AI De fortsätter att granskas av människorAlgoritmer hjälper till att filtrera bort brus och identifiera potentiella orsaker, men driftteamen behåller kontrollen, validerar rekommendationer och utför manuellt många åtgärdsåtgärder. Fullständigt förtroende för automatiserade beslut är fortfarande begränsat.

Det är här AgentobserverbarhetDetta är en metod där AI-agenter antar en mycket mer autonom roll: de upptäcker inte bara mönster och förklarar vad som händer, utan också De hanterar kompletta arbetsflöden, från att identifiera felet till att implementera lämplig lösning.

I den här modellen kan en agent till exempel upptäcka en avvikande ökning av latensen för en kritisk tjänst, korrelera den med en specifik driftsättning, kontrollera historiken för liknande incidenter och själv avgöra om starta en rollback, skala kapacitet eller tillämpa en alternativ konfigurationAllt detta dokumenteras i detalj för revision och eventuell efterföljande mänsklig granskning.

För närvarande använder endast en minoritet av företagen detta Observerbarhet av aktiv agentmed automatiserad åtgärd och avancerad problemprediktion. Men prognoser tyder på att dess införande kommer att öka avsevärt, drivet av sökandet efter högre produktivitet i IT-team och behovet av att minska den tid de lägger på repetitiva underhållsuppgifter.

Begränsningar av manuell handledning och behovet av autonomi

Efterfrågan på egenföretagare förstås bättre om vi tittar på extrema fall som observerbarhet i stora språkmodeller (LLM)Att manuellt övervaka den här typen av system är en näst intill omöjlig uppgift: datavolymerna är gigantiska, arkitekturerna kombinerar flera distribuerade komponenter och behovet av realtidsövervakning är konstant.

Överflödet av register och mätvärden gör det Att identifiera problem manuellt är mycket långsamtVarje försening i att upptäcka en beteendeförändring, en ökning av fel eller en försämrad kvalitet på svar kan få allvarliga konsekvenser i produktionsmiljöer, både vad gäller användarupplevelse, rykte och regelefterlevnad.

Dessutom förbrukar manuell observation många mänskliga resurser; benägen för fel och skalar inte bra Allt eftersom antalet modeller, instanser eller integrationer med affärsapplikationer växer, blir det som kan fungera i ett pilotprojekt med ett fåtal användare en flaskhals när systemet rullas ut i hela organisationen.

Därför, i komplexa miljöer som de som involverar LLM eller starkt distribuerade arkitekturer, är behovet av lösningar för autonoma observerbarhetVi talar om system som kontinuerligt kan analysera telemetri, upptäcka avvikelser, föreslå eller utföra korrigerande åtgärder och lära sig av varje intervention för att förbättra deras effektivitet över tid.

Vision-action-agenter och automatisering på gränssnitt

Utvecklingen av AI är inte begränsad till den "klassiska" observerbarhetens sfär. Forskning från företag som NVIDIA, med projekt som Kväve Det driver modeller som kombinerar vision och handlingsförmåga: agenter som observerar en skärm, härleder miljöns tillstånd och bestämmer vad de ska göra härnäst, utan specifika integrationer med det system de kontrollerar.

Tekniskt sett innebär detta att träna en modell med stora mängder videor av spel eller interaktioner så att de lär sig att relatera vad de ser till de handlingar en expert skulle vidta. De arbetar med tidssekvenser, rörelsediskretisering, långsiktiga mål och optimering under flera begränsningar såsom latens eller stabilitet.

Även om det mest synliga exemplet är spel, har denna vision-handling-metod enorm potential inom näringslivet: den möjliggör skapandet av agenter som arbetar på grafiska gränssnitt konventionella, navigera i komplexa applikationer, köra repetitiva flöden, validera processer eller utföra heltäckande tester utan behov av specifika API:er.

Detta representerar en slags naturlig utveckling av traditionell RPA mot en Smartare, mer kontextuell automatiseringTypiska användningsfall inkluderar automatiserad mjukvarutestning som simulerar verkligt användarbeteende, guidad support som klick-för-klick replikerar vad en anställd ska göra, generering av syntetisk data för kvalitetssäkring eller "digitala tvillingar" som replikerar mänsklig aktivitet i företagssystem.

För att allt detta ska vara genomförbart, en robust ramverk för cybersäkerhet, styrning och observerbarhetAgenter som interagerar med kritiska gränssnitt och system måste följa åtkomstpolicyer, undvika farliga handlingar, logga varje steg för granskningsändamål och arbeta inom tydligt definierade gränser. Observerbarhet fungerar här som både en "svart låda" och en "verktygslåda": den registrerar vad agenten gör och tillhandahåller data för att kalibrera och förbättra dess beteende.

Säkerhet, styrning och noll förtroende i AI-agenternas era

Expansionen av agentisk AI och autonoma system medför Nya risker som måste hanteras noggrantEn av de mest diskuterade är den så kallade "skugg-AI": agenter, modeller eller integrationer som lanseras utanför organisationens officiella kanaler, utan tillräcklig säkerhet eller kontroll av regelefterlevnad.

Det finns också faran för dubbelagenter eller illvilliga agenterDetta kan ske antingen genom design (externattacker, snabb manipulation, instruktionsinjektion) eller på grund av konfigurationsfel som gör att ett välmenande system kan utföra oavsiktliga åtgärder. För att minimera dessa risker är det viktigt att tillämpa principer för Nollförtroende specifikt gällande artificiell intelligens.

Noll förtroende i detta sammanhang betyder att Ingen AI-agent eller -komponent anses som standard vara "tillförlitlig".Varje åtgärd måste uttryckligen auktoriseras, behörigheter måste begränsas till det absolut nödvändiga (principen om minsta behörighet) och alla interaktioner måste loggas för senare granskning. Observerbarhet blir därmed en nyckelfaktor i AI-styrning.

God observerbarhet möjliggör realtidsövervakning av vad agenter gör, upptäckt av avvikande beteenden, validering av åtkomstpolicyer och tillgång till fullständiga bevis vid incidenter. Verktyg som listor över tillåtna åtgärder, mänskliga granskningar av kritiska loopar, sanering av känsliga data och kontroller över platsen för databehandling (lokal, publikt moln, suveränt moln) är viktiga delar av en robust checklista. effektiv AI-styrning.

I det här scenariot är det viktigt att hitta balans mellan innovation och kontrollOrganisationer vill fullt ut utnyttja potentialen hos agentisk AI för att öka produktiviteten och konkurrenskraften, men utan att offra säkerhet, regelefterlevnad eller transparens i automatiserat beslutsfattande.

Data, infrastruktur och AI som det grundläggande lagret i verksamheten

Sett i det stora hela utvecklas AI från att vara ett extra verktyg till att bli ett strukturellt lager som ekonomisk konkurrenskraft bygger påAllt kretsar kring den omvandlingen: datastrategier, molnarkitektur, hårdvarudesign, arbetskraftsmodeller och till och med nationella policyer för digital infrastruktur.

Å ena sidan, Data konsolideras som den viktigaste konkurrensfördelarnaI takt med att databehandling och modellering blir mer kommodifierade är det som gör skillnaden att ha dina egna högkvalitativa, välstyrda data. Observerbarhet, genom att fånga upp rik och kontextuell telemetri, blir en av de mest värdefulla datakällorna för kraftfulla AI-system och förbättra processer.

Å andra sidan, den AI-infrastruktur börjar ses som en strategisk nationell tillgångUppkomsten av suveräna moln svarar på behovet av att kontrollera var känslig data lagras och bearbetas, hur modeller tränas och under vilka regelverk de verkar. Länder investerar i datacenter som är optimerade för AI-arbetsbelastningar, energieffektiva och i linje med efterlevnadskrav.

Allt detta sammanfaller med en accelererad modernisering av datacenterPressad av energi- och kylbehovet från AI-arbetsbelastningar och agentsystem är energieffektivitet inte längre bara en operativ fråga utan har blivit en begränsande faktor för innovation och ett krav på miljöefterlevnad.

Parallellt tvingas företagen att omskola sin arbetsstyrkaMålet är inte att göra alla till programmerare, utan att utbilda yrkesverksamma som kan orkestrera och utnyttja dessa autonoma system: AI-drivna affärsexperter, ingenjörer som kan översätta operativa behov till observerbarhet och säkerhetspolicyer, och hybridroller som förstår både den tekniska och ekonomiska effekten av beslut.

Sammantaget leder denna utveckling till ett scenario där mer öppen och autonom observerbarhet Det blir kittet som länkar samman teknik, affärer och reglering: standarder som OpenTelemetry garanterar dataportabilitet och kvalitet, AI och agentobservabilitet minskar operativ komplexitet och accelererar incidenthantering, och styrning och Zero Trust-metoder säkerställer att allt detta sker under kontroll, säkert och med verklig granskningsbarhet.

Organisationer som lyckas formulera denna kombination – standardiserad telemetri, enhetliga plattformar, fokus på affärsresultat och AI-agenter som styrs med god observerbarhet – kommer att vara bäst positionerade för att konkurrera i en miljö där digitala system blir alltmer kritiska, komplexa och autonoma, men också mer kapabla att generera konkret värde när de hanteras med rätt transparens.

arkitekturen för en AI-fabrik
Relaterad artikel:
Arkitekturen för en AI-fabrik: nycklar till att bygga den väl