AWS DevOps Agent

자율 인시던트 대응에서 AIOps 플랫폼까지

Deep-Dive Session — Samsung Electronics | 2026

Agenda

약 48분 | 8개 세션

  1. DevOps Agent 개요 ~5분
  2. 인시던트 자동 조사 & RCA 딥다이브 ~12분
  3. 3rd Party 옵저버빌리티 연동 ~5분
  4. MCP 서버 커스텀 확장 ~8분
  5. Prevention Mode ~5분
  6. 고객 사례 & 성과 지표 ~5분
  7. AgentCore 기반 AIOps 플랫폼 전략 ~5분
  8. 시작하는 방법 & Q&A ~3분

Frontier Agent 빠른 복습

AWS가 제시하는 3대 Frontier Agent

Kiro

개발 자동화

Spec-driven development로 코드 품질과 생산성을 동시에 향상

Security Agent

보안 강화

취약점 자동 탐지 및 코드 수준 패치 권고

DevOps Agent

운영 안정성

자율적 인시던트 대응과 근본 원인 분석

오늘 이것을 깊이 들여다봅니다 — DevOps Agent

The Frontier Agent for Operational Resilience

Always-On Incident Response

인시던트 발생 즉시 자동 조사를 시작하여 24/7 자율 트리아지 수행 — MTTR을 획기적으로 단축

Root Cause Analysis

텔레메트리, 코드 변경, 배포 이력 데이터를 상관 분석하여 근본 원인을 5가지 축으로 식별 (RCA 정확도 94%)

Prevention

과거 인시던트 패턴을 분석하여 관측성, 인프라, 배포, 복원력 4개 영역에 대한 사전 예방 권고 제시

Tool Integration

CloudWatch, Dynatrace, Datadog, GitHub, Slack 등 기존 도구 생태계와 네이티브 연동 — 추가 에이전트 설치 불필요

Before

알람 → 수동 로그 확인 → 팀 에스컬레이션 → 수 시간 후 원인 파악

After

알람 → Agent 자동 조사 → 분 단위 RCA → 완화 계획 제시 (CBA 사례: 수 시간 → 15분 이내)

DevOps Agent 아키텍처 개요

알람 / 이벤트
DevOps Agent
토폴로지 매핑
텔레메트리 수집
코드/배포 분석
Root Cause Analysis
완화 계획
예방 권고

Agent는 알람 수신 즉시 애플리케이션 토폴로지를 자동 생성하고, 관련 서비스를 병렬로 조사하여 근본 원인을 도출합니다.

도구 에코시스템

관측 (Observability)

CloudWatch Dynatrace Datadog New Relic Splunk Grafana

코드 / CI-CD

GitHub GitLab Azure DevOps

인시던트 관리

ServiceNow PagerDuty Slack
"기존 모니터링 투자를 버리지 않는다 — DevOps Agent는 이미 사용 중인 도구 위에서 동작합니다."

S3 인시던트 조사 & RCA

Workshop 시나리오 — DynamoDB Stress-Test: Lambda + DynamoDB 워크로드에서 쓰기 스로틀링 장애가 발생, DevOps Agent가 자율적으로 조사

1CloudWatch 알람
2DevOps Agent
3토폴로지 생성
4병렬 조사
5상관 분석
6RCA 도출
7완화 제안

알람 수신부터 완화 계획 수립까지 자동화 — 완화 실행은 사용자가 검토 후 수행

토폴로지 자동 생성

DevOps Agent 토폴로지 자동 생성 - Workshop 서비스 맵 (DynamoDB, Lambda, S3, IAM Role, CloudWatch Alarm)

IAM 권한 기반 서비스 맵 구축

  • IAM 역할/정책 분석으로 서비스 간 관계를 자동 추론
  • Lambda, DynamoDB, S3, CloudWatch Alarm, IAM Role 등 CloudFormation 스택 내 서비스 토폴로지 자동 식별
  • 수동 서비스 목록 관리 없이 실시간 아키텍처 파악
  • 조사 범위를 자동으로 설정하여 불필요한 탐색 제거
Zero-Config IAM-Driven Discovery 실시간 업데이트

병렬 조사 & 데이터 수집

메인 에이전트
CloudWatch
알람 분석
DynamoDB
메트릭 분석
Lambda
에러 분석
CloudFormation
배포 이력
결과 종합

CloudWatch 알람 분석

DynamoDBWriteThrottleAlarm, SimpleLambdaErrorAlarm 트리거 이력 확인 및 알람 상태 시계열 분석

DynamoDB 메트릭 분석

WriteThrottleEvents, ConsumedWriteCapacityUnits, MaxWriteRequestUnits 간 상관관계 분석

Lambda 에러 분석

SimpleLambda 함수의 에러율 급증 패턴 및 DynamoDB 스로틀링과의 인과관계 확인

CloudFormation 배포 이력

인프라 변경 여부 확인 — 최근 배포가 원인인지 배제 판정

"숙련된 SRE의 사고 과정을 AI가 병렬로 실행"

RCA 결과 — DynamoDB 용량 부족

DevOps Agent RCA 결과 - DynamoDB MaxWriteRequestUnits 부족 근본 원인 식별

진단 결과

DynamoDB MaxWriteRequestUnits 부족이 장애의 근본 원인

관찰 항목 결과
에러 패턴 WriteThrottleEvents 급증
On-Demand 용량 MaxWriteRequestUnits = 2 WCU (실제 수요 ~43 WCU/s)
트래픽 상관관계 Burst 소진(06:47 UTC) 후 스로틀링 시작, Lambda 에러 연쇄 발생
근본 원인 On-Demand 모드의 MaxWriteRequestUnits 상한 미조정

Agent가 메트릭 간 상관관계를 자동 분석하여 용량 부족을 근본 원인으로 특정

완화 계획 수립 & 실행

Step 1
사전 검증
현재 서비스 상태 확인
영향 범위 파악
변경 가능 여부 검증
Step 2
완화 실행
DynamoDB MaxWriteRequestUnits 상향
(2 WCU → 60 WCU)
CLI 또는 콘솔에서 즉시 적용
Step 3
사후 검증
WriteThrottleEvents 해소 확인
Lambda 에러율 정상 복귀 검증
서비스 안정성 모니터링

즉시 완화 (Capacity Increase)

MaxWriteRequestUnits를 2 WCU → 60 WCU로 상향하여 트래픽 수요(~43 WCU/s)를 수용

장기 해결 (Capacity Planning)

트래픽 패턴 분석 기반 적정 용량 설계 — Auto Scaling 또는 On-Demand 상한 최적화

대화형 채팅 인터페이스

User Summarize about the recent investigation with timeline.
DevOps Agent 06:47 UTC — DynamoDB write throttling began (stress-test-table). 06:49 — DynamoDBWriteThrottleAlarm triggered. 06:56 — Investigation initiated. 07:02 — Root cause confirmed: MaxWriteRequestUnits = 2 WCU.
User how can I remediate?
DevOps Agent Immediate Fix: Increase MaxWriteRequestUnits from 2 to 50-60 WCU.
aws dynamodb update-table --table-name stress-test-table --max-write-request-units 60

자연어 추가 분석

  • 자연어로 인시던트에 대한 추가 질문 가능
  • 조사 컨텍스트를 유지한 상태에서 심화 분석 요청
  • 비즈니스 관점 영향도 요약 — 경영진 보고에 즉시 활용
  • 고객 단위, 리전 단위, 시간대별 영향 범위 세분화
Natural Language Context-Aware Multi-Turn

데모: RCA → Runbook 생성

DevOps Agent가 RCA 결과를 기반으로 Runbook을 자동 생성

1. RCA 완료

인시던트 근본 원인 분석이 완료된 시점에서 시작

2. Runbook 자동 생성

재현 가능한 완화 절차를 Runbook으로 자동 작성

데모 영상 재생

클릭하여 전체 화면 재생

3rd Party Integration

기존 모니터링 투자를 유지하면서 자율 인시던트 대응 확보

연동 아키텍처

다수 소스에서 텔레메트리를 동시에 수집하고 인시던트 관리 도구로 결과를 전달

Sources
Observability
Dynatrace
Datadog
CloudWatch
Splunk
Code / CI-CD
GitHub
GitLab
DevOps Agent
Outputs
Incident
ServiceNow
Slack
PagerDuty
하나의 Agent가 이기종 텔레메트리를 통합 분석 — 도구별 사일로 해소

옵저버빌리티 도구 상세

기존 모니터링 투자를 버리지 않는다

Dynatrace

DQL(Dynatrace Query Language) 쿼리로 서비스 간 관계와 메트릭을 수집하여 토폴로지 맵에 반영

Datadog

메트릭, 로그, APM 데이터를 API Key 기반 네이티브 연동으로 실시간 수집 — 기존 대시보드 설정 그대로 활용

Amazon CloudWatch

네이티브 통합 — 알람, 로그 그룹, 메트릭, X-Ray 트레이스를 별도 설정 없이 즉시 연동

New Relic Splunk Grafana 추가 MCP 서버로 확장 가능

코드 & 인시던트 관리 연동

코드 / CI-CD

도구연동 내용
GitHub / GitLab 최근 배포 및 커밋 이력 자동 수집 → 배포 기인 이슈 탐지
Azure DevOps CI/CD 파이프라인 이벤트 연동 지원

배포 직후 알람 발생 시 → 변경 커밋을 자동 식별하여 RCA에 포함

인시던트 관리

도구연동 내용
ServiceNow 인시던트 티켓 자동 생성 및 조사 결과로 업데이트
Slack 실시간 알림 + 대화형 조사 채널
PagerDuty 에스컬레이션 연동 — Agent 분석 결과를 담당자에게 즉시 전달

Model Context Protocol

Agent의 도구 확장 프로토콜

  • MCP = Agent가 외부 도구 및 데이터 소스에 접근하는 표준 프로토콜
  • MCP Server = Agent가 호출할 수 있는 커스텀 도구 인터페이스
  • 표준 연동을 넘어, 어떤 도구든 Agent에 연결하는 프로토콜
"AWS 네이티브 도구만으로는 부족할 때,
MCP 서버 하나로 Agent의 능력을 확장합니다."
DevOps Agent
MCP Server
Internal Tool A
Internal Tool B
Data Source

MCP 서버 아키텍처

DevOps Agent
MCP Server
S3 로그
Lambda
서비스 레지스트리
티켓 시스템
런북 저장소

MCP Server

HTTPS 엔드포인트로 구현 (Lambda, EC2, 외부 서버 등)

AWS 서비스 연결

S3, Lambda를 통해 내부 데이터 소스에 접근

커스텀 시스템

서비스 레지스트리, 티켓, 런북 등 비 AWS 시스템 연동

AWS 네이티브 연동 vs MCP 확장

DevOps Agent의 두 가지 데이터 접근 방식

DevOps Agent
AWS Native (Direct)
CloudWatch
CloudFormation
X-Ray
CloudTrail
DevOps Agent
MCP Server
Custom
내부 로그
티켓 시스템
런북

AWS 네이티브 (기본 제공)

CloudWatch, CloudFormation, X-Ray, CloudTrail 등 AWS 서비스와 직접 통합 — MCP 불필요, 설정만으로 즉시 연동

MCP 확장 (커스텀)

내부 로그 저장소, 티켓 시스템, 런북 등 비 AWS 시스템을 MCP 프로토콜로 연결 — 조사 범위 확장

Samsung Electronics에 적용 가능한 MCP 확장

내부 도구 연동 가능성

워크로드별 서비스 레지스트리 연동

10~20개 Enterprise 워크로드 각각의 서비스 구성 정보를 Agent가 조회하여 영향 범위를 즉시 식별

내부 티켓 시스템

인시던트 자동 생성 및 업데이트 -- 조사 결과를 기반으로 티켓 생성, 진행 상황 자동 반영

사내 런북

Agent가 런북을 참조하여 표준 절차 수행 -- 조직의 베스트 프랙티스를 Agent가 직접 활용

배포 파이프라인

최근 배포 정보 자동 수집 및 분석 -- 배포 이력과 인시던트의 상관관계를 자동으로 파악

"MCP 서버 하나를 추가하면, Agent의 조사 범위가 확장됩니다"

Reactive to Proactive

장애 대응에서 장애 예방으로의 패러다임 전환

Before: Reactive

  1. 장애 발생
  2. 알림 수신
  3. 담당자 확인
  4. 수동 로그 분석
  5. 에스컬레이션
  6. 수 시간 후 원인 파악

After: Proactive

  1. Agent가 과거 인시던트 패턴 분석
  2. 취약점 사전 식별
  3. 개선 권고 생성
  4. 장애 예방

"같은 장애를 두 번 겪지 않는다"

Prevention Mode의 핵심 가치

4대 개선 영역

Prevention Mode가 분석하는 운영 개선 포인트

Observability

모니터링 갭 식별, 알람 임계값 최적화, 미계측 서비스 탐지

Infrastructure

리소스 최적화, Auto Scaling 개선, 용량 계획

Deployment

CI/CD 파이프라인 안정성, 롤백 전략, 카나리 배포 권고

Resilience

서킷브레이커, 폴백 메커니즘, 장애 격리 개선

예방 권고 예시

Agent가 과거 인시던트 패턴을 분석하여 생성하는 실제 권고안

Observability Gap

"DynamoDB 테이블에 ConsumedWriteCapacityUnits 대비 MaxWriteRequestUnits 비율 알람 추가를 권고합니다. 과거 2건의 스로틀링 인시던트에서 이 메트릭이 없어 탐지가 지연되었습니다."

Capacity Planning

"DynamoDB On-Demand 테이블의 MaxWriteRequestUnits를 실제 트래픽 패턴 기반으로 재설정을 권고합니다. 현재 2건의 용량 부족 인시던트가 발생했습니다."

Health Check 강화

"Auto Scaling 그룹의 헬스체크를 ELB → EC2+ELB 복합으로 강화를 권고합니다."

과거 인시던트 데이터가 누적될수록 권고 정확도가 향상됩니다

성과 지표 대시보드

검증된 실적 기반 수치

94%
RCA 정확도
Preview 고객/파트너 실적 (GA 블로그 기준)
GA Blog →
15분
근본 원인 파악
Commonwealth Bank — 기존 수 시간
Customer Page →
30분
트러블슈팅 사이클
RMIT University — 기존 4~7시간
Customer Page →

고객 사례 상세

Commonwealth Bank of Australia

  • 호주 최대 금융 서비스, 1,700만+ 고객
  • Cloud Foundations 그룹이 1,700+ AWS 계정 관리
  • 차세대 클라우드 플랫폼 프로토타이핑 중 복잡한 네트워크/ID 이슈 테스트
  • 숙련된 엔지니어 수 시간 → 15분

"AWS DevOps Agent thinks and acts like a seasoned DevOps engineer, helping our engineers build a banking infrastructure that's faster, more resilient, and designed to deliver better experiences for our customers"

— Jason Sandery, Head of Cloud Services

RMIT University

  • 트러블슈팅 4~7시간 → 30분 이내
  • 학술 연구 인프라의 복잡한 의존성 관리
  • 소규모 운영팀으로 대규모 클라우드 환경 운영

검증된 성과 (GA 블로그 기준)

  • RCA 정확도 94%
  • MTTR 최대 75% 단축, 조사 속도 80% 향상
  • 인시던트 해결 3~5배 가속

출처: 고객 사례 | Features

Samsung Electronics 기대 효과

현재 Pain Point에 대한 DevOps Agent의 직접적 가치

대규모 마이크로서비스 MTTR 단축

복잡한 서비스 의존성 속에서 인시던트 발생 시, Agent 자율 조사로 근본 원인 파악을 수 시간에서 분 단위로 단축

멀티 계정/리전 운영 복잡도 해소

수백 개 AWS 계정과 글로벌 리전에 걸친 인프라를 토폴로지 자동 매핑 + 통합 조사로 일원화

기존 모니터링 투자 보존

Dynatrace, Datadog 등 기존 도구 즉시 연동 + AI 분석 레이어 추가로 투자 효율 극대화

"규모가 클수록 효과가 크다" — 1,700+ 계정의 CBA가 증명한 엔터프라이즈 스케일 가치

AgentCore 기반 AIOps 플랫폼

DevOps Agent는 플랫폼의 Managed Agent 중 하나

Memory
Policy
Orchestrator
DevOps Agent
CloudWatch
워크로드 Agent
서비스 레지스트리
비즈니스 Agent
비즈니스 메트릭
배포 검증 Agent
CI/CD Pipeline

DevOps Agent는 인시던트 조사/RCA를 담당하는 Managed Agent로, 자체 AIOps 플랫폼의 확장 도구로 위치합니다. 나머지 에이전트는 AgentCore 프리미티브로 직접 구축합니다.

AIOps 플랫폼 구축 전략

Phase 1

DevOps Agent 연동

Managed Agent

  • 인시던트 조사/RCA 즉시 확보
  • 기존 관측 도구 연동
  • MCP로 내부 시스템 브릿지
Phase 2

커스텀 에이전트 확장

AgentCore 프리미티브

  • 워크로드별 분석 에이전트 구축
  • Memory로 도메인 패턴 축적
  • A2A로 에이전트 간 협업
Phase 3

통합 AIOps 포털

셀프 서비스

  • 10~20개 워크로드 통합 운영
  • 예방 모드 고도화
  • 운영팀 셀프 서비스 포털

Managed Agent (DevOps Agent)

AWS가 관리하는 인시던트 조사/RCA — 즉시 사용 가능, 운영 부담 없음

Custom Agent (AgentCore)

삼성 도메인 특화 에이전트 — Runtime, Gateway, Memory, Policy로 직접 구축

Next Steps

1. DevOps Agent 시작하기 (GA)

6개 리전 지원: us-east-1, us-west-2, ap-southeast-2, ap-northeast-1, eu-central-1, eu-west-1
ap-northeast-2(Seoul) 미지원 — ap-northeast-1(Tokyo)에서 크로스 리전 모니터링 가능

2. 기존 모니터링 도구 연동 테스트

Dynatrace/Datadog 커넥터 설정 및 데이터 수집 확인

3. MCP 서버 PoC

내부 시스템 1개를 대상으로 MCP 연결 테스트 수행

AWS SA팀을 통해 데모 및 PoC 지원 가능합니다.

Key Takeaways

  1. DevOps Agent = 자율 인시던트 대응 — 조사 → RCA → 완화 → 예방, End-to-End
  2. 기존 도구 즉시 연동 — Dynatrace, Datadog, GitHub, Slack 등
  3. MCP로 내부 시스템까지 확장 — 커스텀 도구 및 독점 시스템 통합
  4. AgentCore 기반 AIOps 플랫폼의 출발점 — 자체 차별화 에이전트 구축 가능
"DevOps Agent로 빠른 가치를 실현하면서, AgentCore의 프리미티브로 삼성 고유의 차별화된 AIOps 플랫폼을 점진적으로 구축할 수 있습니다."

Q&A

감사합니다