2026-07-01 Talk Transcript: LLM O11y 從 Observability 到 Decision System

Slide 1

今天這 30 分鐘我想先講清楚一件事：很多團隊已經有 Langfuse、tracing、logging，但真正缺的不是可觀測性本身，而是把這些觀測轉成決策的方法。這場分享會從「看見系統」走到「讓人可以做判斷」。

Slide 2

先講痛點：AI 工具很多，模型也很多，framework 更是每天都在變，但團隊很常缺的是數據化決策，而不是更多直覺。最後就變成選型靠感覺、升級靠印象、上 production 靠運氣。

Slide 3

今天的大綱很簡單，先講痛點，再講解法，接著把「效率」定義清楚，然後一步一步收斂變因，最後看 Langfuse 能收集什麼，怎麼從 baseline 走到 human decision。

Slide 4

如果目標是 Coding Agent 效能更好，那我們其實很直接，就是希望產出更穩定、成本更可控、升級風險更小。這些需求聽起來很抽象，但都可以被拆成可觀測、可比較的指標。

Slide 5

解法的第一步不是先優化，而是先落實 o11y，把所有行為都觀測起來。至少要看得到 prompt、response、tool call、latency、token、cost 和 execution path，先把系統看清楚，才有可能談改善。

Slide 6

這裡我想先定義效率，不然大家會一直在講不同的東西。我會先用一個簡化的公式來看：有用的 output，除以時間、成本、iteration，才是我們要的效率；如果這三個變數沒定義，效率就只是主觀感覺。

Slide 7

但問題是變因太多，model 版本、instruction、tools、workload、context 長度、evaluation 方法，每一個都可能影響結果。只要沒有先收斂變因，你就很難知道是改善了，還是其實惡化了。

Slide 8

所以先做 baseline，是 Action 0。先收 tracing，先把日常工作看清楚，先把 workload baseline 建起來，讓後面每個改動都有參考點，不然所有比較都會飄在空中。

Slide 9

以 Langfuse 來說，至少可以收 trace、span、metadata、metrics、latency、token 和 cost。這些資訊不是終點，但它們是最基本的材料；沒有這些資料，你連 baseline 都很難做完整。

Slide 10

Action 1 是最便宜也最常見的優化：先精簡 Agent。減少 tools usage、精簡 instruction、降低多餘步驟，通常就能先看到效果，因為很多問題其實不是模型不夠強，而是流程太吵。

Slide 11

Action 2 是用 llm-as-a-judge 做快速 evaluation。這一層不是要取代人，而是先做大量樣本的初篩和 baseline 比較，讓你可以快速知道哪個方向值得繼續看。

Slide 12

但這裡會遇到一個 issue，就是 multi-turn agent 很難直接評估。因為結果通常不是單一回答造成的，而是多個 tool call、上下文和中間狀態一起作用，所以只看最後輸出，很容易漏掉真正的問題。

Slide 13

Action 3 的做法，就是把 evaluation 切小，用 llm-as-a-judge 先評估觀測到的單一步驟，例如一次 tool call、一段 instruction、或一個中間輸出。先把局部品質穩住，再回頭看整體 workflow。

Slide 14

接著是 Dataset。最有價值的資料不是 benchmark，而是 daily work tracing 裡面真實累積下來的 input / output。這些資料最能反映真實使用情境，也最能幫你抓到平常看不到的失敗模式。

Slide 15

Action 4 就是用 dataset 做 experiment。把同一份 workload data 拿來跑不同變因，例如 model 5.4 換 5.5，或者 tools、instruction 前後對照，這樣你才知道改動到底是改善還是惡化。

Slide 16

但最後還是要回到 Human Decision。o11y 的價值是幫人看清楚現象、比較差異、縮小不確定性，不是把責任丟給模型。真正能負責、能承擔風險、能做決策的，還是人。

Slide 17

所以整個流程要變成：先觀測，再收斂變因，再做 evaluation，再跑 experiment，最後由人決策與負責。這樣 AI 系統才不會只是一直累積感覺，而是開始累積證據。

Slide 18

我的核心結論很簡單：沒有 evaluation，LLM upgrade 就是 gambling。你不可能只靠印象去判斷模型、工具鏈或 instruction 改動，最後一定要回到可比較的數據。

Slide 19

LLM O11y 的本質，不是 logging tool，而是一個 AI 系統的 feedback control system。它的角色是讓你看見、比較、收斂，然後把不確定性降到可以做決策的程度。

Slide 20

最後收一下：如果你們已經有 Langfuse 或 tracing，但還缺決策流程，下一步就是把 baseline、judge、dataset 和 experiment 接起來。這些事做完之後，才真的有機會把 AI 協作變成可持續的工程流程。

2026-07-01 Talk Transcript: LLM O11y 從 Observability 到 Decision System#

Slide 1#

Slide 2#

Slide 3#

Slide 4#

Slide 5#

Slide 6#

Slide 7#

Slide 8#

Slide 9#

Slide 10#

Slide 11#

Slide 12#

Slide 13#

Slide 14#

Slide 15#

Slide 16#

Slide 17#

Slide 18#

Slide 19#

Slide 20#