📅 活動時間:2026-07-02 15:30-16:00
🔗 活動連結
📘 聯繫我 Facebook
📑 投影片
Title
LLM O11y:從 Observability 到 Decision System
Outline
在導入 LLM 與 Agent 開發流程時,團隊常面臨規格難以驗證、品質無法量化、以及回歸測試成本高等痛點。本分享將介紹如何在 AI Agent Coding 流程中結合 Langfuse 與 LLM-as-a-judge,將自然語言規格轉化為可執行的 evaluation,建立自動化的驗證與 feedback loop。你將學到如何使用 llm ai gateway、langfuse tracing、實作 evaluation & judge 流程、抽取 dataset,打造第一個可觀測、可量化的 AI 開發工作流,讓 Agent 系統開發更穩定、更可預測。
- 用 impression 做 model/framework 選擇決策。使用新 model framework 可能增加 latency 與降低可用度
- 從 observability 開始: bifrost + langfuse
- observability 還不夠:Observability != Decision System
- LLM-as-a-judge 的價值與限制
- 從 observability 到 closed-loop feedback system
- evaluation / dataset / regression / decision gate
- llm-o11y PoC:decision layer 最小可行實作
- 把 LLM framework 選擇,從 gambling 變成可驗證決策
Demo & POC
https://github.com/chechiachang/llm-o11y
- Trace and observe local llm coding agent
- Use LLM-as-a-judge 產生 Evaluation (to coding agent)
- 從實務工作產生資料集:daily coding agent observations 抽取 dataset
- 針對不同 llm 與 framework,做 regression test,預估效益與風險
Target group
- 正在導入或維運 LLM / Agent 系統的工程團隊
- 關心品質、延遲、成本與上線風險的 Tech Lead / SRE / Platform Team
- 已有 tracing / logging / Langfuse,但缺乏 regression 與 deploy gate 的團隊
Slides
Author
Che-Chia Chang 是一名專注於後端開發、開發維運、容器化應用及 Kubernetes 開發與管理的技術專家,同時也是 Microsoft 最有價值專業人士(MVP)。
活躍於台灣技術社群,經常在 CNTUG、DevOps Taipei、GDG Taipei、Golang Taipei Meetup 等社群分享 DevOps、SRE、Kubernetes 及雲端運算相關技術。致力於推動開發與維運的最佳實踐,並熱衷於研究與應用最新的雲端與 AI 技術。
個人部落格:https://chechia.net
Che-Chia Chang is a technology expert specializing in backend development, DevOps, site reliability engineering (SRE), containerized applications, and Kubernetes development and management. He is also recognized as a Microsoft Most Valuable Professional (MVP).
Actively engaged in the Taiwanese tech community, he frequently shares insights on DevOps, SRE, Kubernetes, and cloud computing at CNTUG, DevOps Taipei, GDG Taipei, and Golang Taipei Meetup. Passionate about promoting best practices in development and operations, he continuously explores and applies the latest advancements in cloud and AI technologies.