Skip to content

daeun-ops/datadog-llm-workshop

Repository files navigation

datadog-llm-workshop

Datadog Summit Seoul 2025 (2025/10/24)


Intro

Datadog Summit 갔다가 충격받고, 집에 오자마자 시작된 새로윤 SophieLabs.
제가 참석한 WorkShop은 "LLM 애플리케이션 개발부터 Observability까지" 입니다!
Datadog Learning Center에서 간단하게 해보실 수 있어요!


어떤 Workshop Project냐...?구여?

AI가 어떻게 답을 만드는지를 눈으로 보는 볼 수있는 실험실!”이에요.
대화형 AI가 문장을 만들 때, 어디에서 정보를 가져오고,
얼마나 오래 걸리고, 어디서 오류가 나는지
DatadogOTel을 이용해 한눈에 볼 수 있게 만드는 프로젝트라고 이해하면 될거 같아요!

쉽게 말하면
"AI가 생각하는 과정을 CCTV처럼 지켜보는 시스템" 이에요.

지켜보고 문제가 생기면 기사님께 고쳐주세요!! 요청해야겠죠?!
문제가 생기는 걸 예방하고... 문제가 터지면 해결하고... 최적화하고... 그게 우리의 ... 일이니까....

저는 WorkShop에서 배운걸 좀 더 심화해보려고 합니다!!

  • Dash / Streamlit UI로 질문을 던지면
    RAG(검색 기반 AI) 구조로 답변을 만들고
    Datadog / Grafana / Loki / Tempo / Prometheus에서 “AI의 flow + log + 속도 + cost”까지
    한눈에 볼 수 있어요! 이런걸 우리는 관측 가능성 Observability라고 합니다!
    모니터링과 옵져버빌리티의 차이를 아는 것도 굉장히 중요하답니다.

와! 그럼 어뜨케?!?!

“AI가 대답하는 순간, 그 모든 과정을 Datadog과 Grafana가 기록한다.”


기술 요약

  • 다이어그램 이미지는 업데이트 할 때 마다 반영되기 어려울 수도 있어요!

feature desc
LLM Observability Model의 input/output, latenacy, error rate, used Token 등등 Tracingg
Loki + Promtail 로그를 자동 수집하고 Trace 연결( 이건 아직 못했거 사람 많은 곳 같다가 밤새서 했다니 몸살기운때문에 내일할게오)
Tempo + Datadog APM trace tada 병렬 수집 (multi backend)
Prometheus + Exemplars 요청 지연시간을 Trace ID와 함께 기록
Dash / Streamlit UI 질문 입력 → 실시간 trace 확인
RAG 구조 문서 검색 + LLM 결합형 답변 생성

Tech Stack


What works (now)

  • make up → Grafana/Prometheus/Loki/Tempo/Datadog Agent/OTel Collector/ demo-app 기동
  • /demo 호출 → 동일 트레이스가 Tempo(OTLP)와 Datadog(LLM/Trace)에 동시에 생성
  • Prometheus 히스토그램에 Exemplar(trace_id) 부착 → Grafana 패널에서 trace jump

Not yet

  • RAG 실데이터 품질 리포트/AB 실험 프레임
  • Datadog 대시보드/노트북 자동 “push”(수동 export JSON만 제공)
  • Kubernetes Helm/Argo 배포 (추가 예정)

올릴 곳이 없어서 올리는 후기 사진

Image Image
Image Image
Image
Image
Image Image
Image

About

Datadog Summit Seoul 2025

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published