AWS DevOps Agent

자율 인시던트 대응에서 AIOps 플랫폼까지

Deep-Dive Session — Samsung Electronics | 2026

Agenda

약 48분 | 8개 세션

DevOps Agent 개요 ~5분
인시던트 자동 조사 & RCA 딥다이브 ~12분
3rd Party 옵저버빌리티 연동 ~5분
MCP 서버 커스텀 확장 ~8분
Prevention Mode ~5분
고객 사례 & 성과 지표 ~5분
AgentCore 기반 AIOps 플랫폼 전략 ~5분
시작하는 방법 & Q&A ~3분

Frontier Agent 빠른 복습

AWS가 제시하는 3대 Frontier Agent

Kiro

개발 자동화

Spec-driven development로 코드 품질과 생산성을 동시에 향상

Security Agent

보안 강화

취약점 자동 탐지 및 코드 수준 패치 권고

DevOps Agent

운영 안정성

자율적 인시던트 대응과 근본 원인 분석

오늘 이것을 깊이 들여다봅니다 — DevOps Agent

The Frontier Agent for Operational Resilience

Always-On Incident Response

인시던트 발생 즉시 자동 조사를 시작하여 24/7 자율 트리아지 수행 — MTTR을 획기적으로 단축

Root Cause Analysis

텔레메트리, 코드 변경, 배포 이력 데이터를 상관 분석하여 근본 원인을 5가지 축으로 식별 (RCA 정확도 94%)

Prevention

과거 인시던트 패턴을 분석하여 관측성, 인프라, 배포, 복원력 4개 영역에 대한 사전 예방 권고 제시

Tool Integration

CloudWatch, Dynatrace, Datadog, GitHub, Slack 등 기존 도구 생태계와 네이티브 연동 — 추가 에이전트 설치 불필요

Before

알람 → 수동 로그 확인 → 팀 에스컬레이션 → 수 시간 후 원인 파악

After

알람 → Agent 자동 조사 → 분 단위 RCA → 완화 계획 제시 (CBA 사례: 수 시간 → 15분 이내)

DevOps Agent 아키텍처 개요

알람 / 이벤트

DevOps Agent

토폴로지 매핑

텔레메트리 수집

코드/배포 분석

Root Cause Analysis

완화 계획

예방 권고

Agent는 알람 수신 즉시 애플리케이션 토폴로지를 자동 생성하고, 관련 서비스를 병렬로 조사하여 근본 원인을 도출합니다.

도구 에코시스템

관측 (Observability)

CloudWatch Dynatrace Datadog New Relic Splunk Grafana

코드 / CI-CD

GitHub GitLab Azure DevOps

인시던트 관리

ServiceNow PagerDuty Slack

"기존 모니터링 투자를 버리지 않는다 — DevOps Agent는 이미 사용 중인 도구 위에서 동작합니다."

인시던트 자동 조사 & RCA

Workshop 시나리오 — DynamoDB Stress-Test: Lambda + DynamoDB 워크로드에서 쓰기 스로틀링 장애가 발생, DevOps Agent가 자율적으로 조사

1CloudWatch 알람

2DevOps Agent

3토폴로지 생성

4병렬 조사

5상관 분석

6RCA 도출

7완화 제안

알람 수신부터 완화 계획 수립까지 자동화 — 완화 실행은 사용자가 검토 후 수행

토폴로지 자동 생성

IAM 권한 기반 서비스 맵 구축

IAM 역할/정책 분석으로 서비스 간 관계를 자동 추론
Lambda, DynamoDB, S3, CloudWatch Alarm, IAM Role 등 CloudFormation 스택 내 서비스 토폴로지 자동 식별
수동 서비스 목록 관리 없이 실시간 아키텍처 파악
조사 범위를 자동으로 설정하여 불필요한 탐색 제거

Zero-Config IAM-Driven Discovery 실시간 업데이트

병렬 조사 & 데이터 수집

메인 에이전트

CloudWatch
알람 분석

DynamoDB
메트릭 분석

Lambda
에러 분석

CloudFormation
배포 이력

결과 종합

CloudWatch 알람 분석

DynamoDBWriteThrottleAlarm, SimpleLambdaErrorAlarm 트리거 이력 확인 및 알람 상태 시계열 분석

DynamoDB 메트릭 분석

WriteThrottleEvents, ConsumedWriteCapacityUnits, MaxWriteRequestUnits 간 상관관계 분석

Lambda 에러 분석

SimpleLambda 함수의 에러율 급증 패턴 및 DynamoDB 스로틀링과의 인과관계 확인

CloudFormation 배포 이력

인프라 변경 여부 확인 — 최근 배포가 원인인지 배제 판정

"숙련된 SRE의 사고 과정을 AI가 병렬로 실행"

RCA 결과 — DynamoDB 용량 부족

DevOps Agent RCA 결과 - DynamoDB MaxWriteRequestUnits 부족 근본 원인 식별

진단 결과

DynamoDB MaxWriteRequestUnits 부족이 장애의 근본 원인

관찰 항목	결과
에러 패턴	WriteThrottleEvents 급증
On-Demand 용량	MaxWriteRequestUnits = 2 WCU (실제 수요 ~43 WCU/s)
트래픽 상관관계	Burst 소진(06:47 UTC) 후 스로틀링 시작, Lambda 에러 연쇄 발생
근본 원인	On-Demand 모드의 MaxWriteRequestUnits 상한 미조정

Agent가 메트릭 간 상관관계를 자동 분석하여 용량 부족을 근본 원인으로 특정

완화 계획 수립 & 실행

Step 1

사전 검증
현재 서비스 상태 확인
영향 범위 파악
변경 가능 여부 검증

Step 2

완화 실행
DynamoDB MaxWriteRequestUnits 상향
(2 WCU → 60 WCU)
CLI 또는 콘솔에서 즉시 적용

Step 3

사후 검증
WriteThrottleEvents 해소 확인
Lambda 에러율 정상 복귀 검증
서비스 안정성 모니터링

즉시 완화 (Capacity Increase)

MaxWriteRequestUnits를 2 WCU → 60 WCU로 상향하여 트래픽 수요(~43 WCU/s)를 수용

장기 해결 (Capacity Planning)

트래픽 패턴 분석 기반 적정 용량 설계 — Auto Scaling 또는 On-Demand 상한 최적화

대화형 채팅 인터페이스

User Summarize about the recent investigation with timeline.

DevOps Agent 06:47 UTC — DynamoDB write throttling began (stress-test-table). 06:49 — DynamoDBWriteThrottleAlarm triggered. 06:56 — Investigation initiated. 07:02 — Root cause confirmed: MaxWriteRequestUnits = 2 WCU.

User how can I remediate?

DevOps Agent Immediate Fix: Increase MaxWriteRequestUnits from 2 to 50-60 WCU.
aws dynamodb update-table --table-name stress-test-table --max-write-request-units 60

자연어 추가 분석

자연어로 인시던트에 대한 추가 질문 가능
조사 컨텍스트를 유지한 상태에서 심화 분석 요청
비즈니스 관점 영향도 요약 — 경영진 보고에 즉시 활용
고객 단위, 리전 단위, 시간대별 영향 범위 세분화

Natural Language Context-Aware Multi-Turn

데모: RCA → Runbook 생성

DevOps Agent가 RCA 결과를 기반으로 Runbook을 자동 생성

1. RCA 완료

인시던트 근본 원인 분석이 완료된 시점에서 시작

2. Runbook 자동 생성

재현 가능한 완화 절차를 Runbook으로 자동 작성

▶

데모 영상 재생

클릭하여 전체 화면 재생

3rd Party Integration

기존 모니터링 투자를 유지하면서 자율 인시던트 대응 확보

연동 아키텍처

다수 소스에서 텔레메트리를 동시에 수집하고 인시던트 관리 도구로 결과를 전달

Sources

Observability

Dynatrace

Datadog

CloudWatch

Splunk

Code / CI-CD

GitHub

GitLab

→

DevOps Agent

→

Outputs

Incident

ServiceNow

Slack

PagerDuty

하나의 Agent가 이기종 텔레메트리를 통합 분석 — 도구별 사일로 해소

옵저버빌리티 도구 상세

기존 모니터링 투자를 버리지 않는다

Dynatrace

DQL(Dynatrace Query Language) 쿼리로 서비스 간 관계와 메트릭을 수집하여 토폴로지 맵에 반영

Datadog

메트릭, 로그, APM 데이터를 API Key 기반 네이티브 연동으로 실시간 수집 — 기존 대시보드 설정 그대로 활용

Amazon CloudWatch

네이티브 통합 — 알람, 로그 그룹, 메트릭, X-Ray 트레이스를 별도 설정 없이 즉시 연동

New Relic Splunk Grafana 추가 MCP 서버로 확장 가능

코드 & 인시던트 관리 연동

코드 / CI-CD

도구	연동 내용
GitHub / GitLab	최근 배포 및 커밋 이력 자동 수집 → 배포 기인 이슈 탐지
Azure DevOps	CI/CD 파이프라인 이벤트 연동 지원

배포 직후 알람 발생 시 → 변경 커밋을 자동 식별하여 RCA에 포함

인시던트 관리

도구	연동 내용
ServiceNow	인시던트 티켓 자동 생성 및 조사 결과로 업데이트
Slack	실시간 알림 + 대화형 조사 채널
PagerDuty	에스컬레이션 연동 — Agent 분석 결과를 담당자에게 즉시 전달

Model Context Protocol

Agent의 도구 확장 프로토콜

MCP = Agent가 외부 도구 및 데이터 소스에 접근하는 표준 프로토콜
MCP Server = Agent가 호출할 수 있는 커스텀 도구 인터페이스
표준 연동을 넘어, 어떤 도구든 Agent에 연결하는 프로토콜

"AWS 네이티브 도구만으로는 부족할 때,
MCP 서버 하나로 Agent의 능력을 확장합니다."

DevOps Agent

MCP Server

Internal Tool A

Internal Tool B

Data Source

MCP는 Anthropic이 제안한 오픈 프로토콜이며, AWS DevOps Agent가 이를 채택하여 커스텀 도구 연동을 가능하게 합니다. 기본 제공되는 AWS 서비스 연동 외에, 고객의 내부 시스템을 Agent에 연결할 수 있는 핵심 확장 포인트입니다. ⚠️ 중요 제약사항: MCP 서버는 읽기 전용(read-only) 도구만 허용 — write 작업은 prompt injection 위험으로 차단됨. 런북 "참조"는 가능하나 런북 "실행"은 MCP 통한 직접 실행 불가. ⚠️ MCP 서버 구현은 Lambda + API Gateway뿐 아니라 어떤 HTTPS 엔드포인트든 가능 (공식 문서에서 특정 구현 방식을 지정하지 않음). Private Connection (2026-04-01 출시): VPC Lattice 기반으로 공개 인터넷 노출 없이 VPC 내부 MCP 서버 연결 가능.

MCP 서버 아키텍처

DevOps Agent

MCP Server

S3 로그

Lambda

서비스 레지스트리

티켓 시스템

런북 저장소

MCP Server

HTTPS 엔드포인트로 구현 (Lambda, EC2, 외부 서버 등)

AWS 서비스 연결

S3, Lambda를 통해 내부 데이터 소스에 접근

커스텀 시스템

서비스 레지스트리, 티켓, 런북 등 비 AWS 시스템 연동

AWS 네이티브 연동 vs MCP 확장

DevOps Agent의 두 가지 데이터 접근 방식

DevOps Agent

AWS Native (Direct)

CloudWatch

CloudFormation

X-Ray

CloudTrail

DevOps Agent

MCP Server

Custom

내부 로그

티켓 시스템

런북

AWS 네이티브 (기본 제공)

CloudWatch, CloudFormation, X-Ray, CloudTrail 등 AWS 서비스와 직접 통합 — MCP 불필요, 설정만으로 즉시 연동

MCP 확장 (커스텀)

내부 로그 저장소, 티켓 시스템, 런북 등 비 AWS 시스템을 MCP 프로토콜로 연결 — 조사 범위 확장

Samsung Electronics에 적용 가능한 MCP 확장

내부 도구 연동 가능성

워크로드별 서비스 레지스트리 연동

10~20개 Enterprise 워크로드 각각의 서비스 구성 정보를 Agent가 조회하여 영향 범위를 즉시 식별

내부 티켓 시스템

인시던트 자동 생성 및 업데이트 -- 조사 결과를 기반으로 티켓 생성, 진행 상황 자동 반영

사내 런북

Agent가 런북을 참조하여 표준 절차 수행 -- 조직의 베스트 프랙티스를 Agent가 직접 활용

배포 파이프라인

최근 배포 정보 자동 수집 및 분석 -- 배포 이력과 인시던트의 상관관계를 자동으로 파악

"MCP 서버 하나를 추가하면, Agent의 조사 범위가 확장됩니다"

Reactive to Proactive

장애 대응에서 장애 예방으로의 패러다임 전환

Before: Reactive

장애 발생
알림 수신
담당자 확인
수동 로그 분석
에스컬레이션
수 시간 후 원인 파악

After: Proactive

Agent가 과거 인시던트 패턴 분석
취약점 사전 식별
개선 권고 생성
장애 예방

"같은 장애를 두 번 겪지 않는다"

Prevention Mode의 핵심 가치

4대 개선 영역

Prevention Mode가 분석하는 운영 개선 포인트

Observability

모니터링 갭 식별, 알람 임계값 최적화, 미계측 서비스 탐지

Infrastructure

리소스 최적화, Auto Scaling 개선, 용량 계획

Deployment

CI/CD 파이프라인 안정성, 롤백 전략, 카나리 배포 권고

Resilience

서킷브레이커, 폴백 메커니즘, 장애 격리 개선

예방 권고 예시

Agent가 과거 인시던트 패턴을 분석하여 생성하는 실제 권고안

Observability Gap

"DynamoDB 테이블에 ConsumedWriteCapacityUnits 대비 MaxWriteRequestUnits 비율 알람 추가를 권고합니다. 과거 2건의 스로틀링 인시던트에서 이 메트릭이 없어 탐지가 지연되었습니다."

Capacity Planning

"DynamoDB On-Demand 테이블의 MaxWriteRequestUnits를 실제 트래픽 패턴 기반으로 재설정을 권고합니다. 현재 2건의 용량 부족 인시던트가 발생했습니다."

Health Check 강화

"Auto Scaling 그룹의 헬스체크를 ELB → EC2+ELB 복합으로 강화를 권고합니다."

과거 인시던트 데이터가 누적될수록 권고 정확도가 향상됩니다

성과 지표 대시보드

검증된 실적 기반 수치

94%

RCA 정확도

Preview 고객/파트너 실적 (GA 블로그 기준)

GA Blog →

15분

근본 원인 파악

Commonwealth Bank — 기존 수 시간

Customer Page →

30분

트러블슈팅 사이클

RMIT University — 기존 4~7시간

Customer Page →

고객 사례 상세

Commonwealth Bank of Australia

호주 최대 금융 서비스, 1,700만+ 고객
Cloud Foundations 그룹이 1,700+ AWS 계정 관리
차세대 클라우드 플랫폼 프로토타이핑 중 복잡한 네트워크/ID 이슈 테스트
숙련된 엔지니어 수 시간 → 15분

"AWS DevOps Agent thinks and acts like a seasoned DevOps engineer, helping our engineers build a banking infrastructure that's faster, more resilient, and designed to deliver better experiences for our customers"

— Jason Sandery, Head of Cloud Services

RMIT University

트러블슈팅 4~7시간 → 30분 이내
학술 연구 인프라의 복잡한 의존성 관리
소규모 운영팀으로 대규모 클라우드 환경 운영

검증된 성과 (GA 블로그 기준)

RCA 정확도 94%
MTTR 최대 75% 단축, 조사 속도 80% 향상
인시던트 해결 3~5배 가속

출처: 고객 사례 | Features

Samsung Electronics 기대 효과

현재 Pain Point에 대한 DevOps Agent의 직접적 가치

대규모 마이크로서비스 MTTR 단축

복잡한 서비스 의존성 속에서 인시던트 발생 시, Agent 자율 조사로 근본 원인 파악을 수 시간에서 분 단위로 단축

멀티 계정/리전 운영 복잡도 해소

수백 개 AWS 계정과 글로벌 리전에 걸친 인프라를 토폴로지 자동 매핑 + 통합 조사로 일원화

기존 모니터링 투자 보존

Dynatrace, Datadog 등 기존 도구 즉시 연동 + AI 분석 레이어 추가로 투자 효율 극대화

"규모가 클수록 효과가 크다" — 1,700+ 계정의 CBA가 증명한 엔터프라이즈 스케일 가치

AgentCore 기반 AIOps 플랫폼

DevOps Agent는 플랫폼의 Managed Agent 중 하나

Memory

Policy

Orchestrator

DevOps Agent

CloudWatch

워크로드 Agent

서비스 레지스트리

비즈니스 Agent

비즈니스 메트릭

배포 검증 Agent

CI/CD Pipeline

DevOps Agent는 인시던트 조사/RCA를 담당하는 Managed Agent로, 자체 AIOps 플랫폼의 확장 도구로 위치합니다. 나머지 에이전트는 AgentCore 프리미티브로 직접 구축합니다.

DevOps Agent가 AgentCore 위에 구축되었다는 것은 GA 블로그에서 공식 확인됨: "built on Amazon Bedrock AgentCore with dedicated infrastructure for memory, policies, evaluations, and observability" ⚠️ 그러나 다이어그램의 "Orchestrator → DevOps Agent" 직접 호출은 현재 미확인. DevOps Agent를 프로그래매틱 API로 호출하는 공개 SDK는 아직 제한적. ⚠️ AgentCore 공식 컴포넌트는 Runtime, Gateway, Memory, Policy, Identity, Evaluations, Observability, Code Interpreter, Browser (9개)이며, "Orchestrator"는 공식 컴포넌트가 아님. ⚠️ 현실적 연동 패턴: EventBridge/SNS 기반 이벤트 연계, 또는 MCP 브릿지를 통한 간접 데이터 교환. A2A 직접 통신은 향후 가능성. 이 다이어그램은 미래 비전(Target Architecture)으로 설명하고, 현재 실현 가능한 범위는 Phase 1(DevOps Agent 단독 도입)임을 명확히.

AIOps 플랫폼 구축 전략

Phase 1

DevOps Agent 연동

Managed Agent

인시던트 조사/RCA 즉시 확보
기존 관측 도구 연동
MCP로 내부 시스템 브릿지

Phase 2

커스텀 에이전트 확장

AgentCore 프리미티브

워크로드별 분석 에이전트 구축
Memory로 도메인 패턴 축적
A2A로 에이전트 간 협업

Phase 3

통합 AIOps 포털

셀프 서비스

10~20개 워크로드 통합 운영
예방 모드 고도화
운영팀 셀프 서비스 포털

Managed Agent (DevOps Agent)

AWS가 관리하는 인시던트 조사/RCA — 즉시 사용 가능, 운영 부담 없음

Custom Agent (AgentCore)

삼성 도메인 특화 에이전트 — Runtime, Gateway, Memory, Policy로 직접 구축

Next Steps

1. DevOps Agent 시작하기 (GA)

6개 리전 지원: us-east-1, us-west-2, ap-southeast-2, ap-northeast-1, eu-central-1, eu-west-1
ap-northeast-2(Seoul) 미지원 — ap-northeast-1(Tokyo)에서 크로스 리전 모니터링 가능

2. 기존 모니터링 도구 연동 테스트

Dynatrace/Datadog 커넥터 설정 및 데이터 수집 확인

3. MCP 서버 PoC

내부 시스템 1개를 대상으로 MCP 연결 테스트 수행

AWS SA팀을 통해 데모 및 PoC 지원 가능합니다.

Key Takeaways

DevOps Agent = 자율 인시던트 대응 — 조사 → RCA → 완화 → 예방, End-to-End
기존 도구 즉시 연동 — Dynatrace, Datadog, GitHub, Slack 등
MCP로 내부 시스템까지 확장 — 커스텀 도구 및 독점 시스템 통합
AgentCore 기반 AIOps 플랫폼의 출발점 — 자체 차별화 에이전트 구축 가능

"DevOps Agent로 빠른 가치를 실현하면서, AgentCore의 프리미티브로 삼성 고유의 차별화된 AIOps 플랫폼을 점진적으로 구축할 수 있습니다."

Q&A

감사합니다