Datadog Summit 갔다가 충격받고, 집에 오자마자 시작된 새로윤 SophieLabs.
제가 참석한 WorkShop은 "LLM 애플리케이션 개발부터 Observability까지" 입니다!
Datadog Learning Center에서 간단하게 해보실 수 있어요!
“AI가 어떻게 답을 만드는지를 눈으로 보는 볼 수있는 실험실!”이에요.
대화형 AI가 문장을 만들 때, 어디에서 정보를 가져오고,
얼마나 오래 걸리고, 어디서 오류가 나는지를
Datadog과 OTel을 이용해 한눈에 볼 수 있게 만드는 프로젝트라고 이해하면 될거 같아요!쉽게 말하면
"AI가 생각하는 과정을 CCTV처럼 지켜보는 시스템" 이에요.지켜보고 문제가 생기면 기사님께 고쳐주세요!! 요청해야겠죠?!
문제가 생기는 걸 예방하고... 문제가 터지면 해결하고... 최적화하고... 그게 우리의 ... 일이니까....
- Dash / Streamlit UI로 질문을 던지면
→ RAG(검색 기반 AI) 구조로 답변을 만들고
→ Datadog / Grafana / Loki / Tempo / Prometheus에서 “AI의 flow + log + 속도 + cost”까지
한눈에 볼 수 있어요! 이런걸 우리는 관측 가능성 Observability라고 합니다!
모니터링과 옵져버빌리티의 차이를 아는 것도 굉장히 중요하답니다.
“AI가 대답하는 순간, 그 모든 과정을 Datadog과 Grafana가 기록한다.”
- 다이어그램 이미지는 업데이트 할 때 마다 반영되기 어려울 수도 있어요!
feature desc LLM Observability Model의 input/output, latenacy, error rate, used Token 등등 Tracingg Loki + Promtail 로그를 자동 수집하고 Trace 연결( 이건 아직 못했거 사람 많은 곳 같다가 밤새서 했다니 몸살기운때문에 내일할게오) Tempo + Datadog APM trace tada 병렬 수집 (multi backend) Prometheus + Exemplars 요청 지연시간을 Trace ID와 함께 기록 Dash / Streamlit UI 질문 입력 → 실시간 trace 확인 RAG 구조 문서 검색 + LLM 결합형 답변 생성
make up→ Grafana/Prometheus/Loki/Tempo/Datadog Agent/OTel Collector/ demo-app 기동/demo호출 → 동일 트레이스가 Tempo(OTLP)와 Datadog(LLM/Trace)에 동시에 생성- Prometheus 히스토그램에 Exemplar(trace_id) 부착 → Grafana 패널에서 trace jump
- RAG 실데이터 품질 리포트/AB 실험 프레임
- Datadog 대시보드/노트북 자동 “push”(수동 export JSON만 제공)
- Kubernetes Helm/Argo 배포 (추가 예정)












