2026-07-01 Talk Transcript: LLM O11y 從 Observability 到 Decision System Slide 1 今天這 30 分鐘我想先講清楚一件事:很多團隊已經有 Langfuse、tracing、logging,但真正缺的不是可觀測性本身,而是把這些觀測轉成決策的方法。這場分享會從「看見系統」走到「讓人可以做判斷」。 Slide 2 先講痛點:AI 工具很多,模型也很多,framework 更是每天都在變,但團隊很常缺的是數據化決策,而不是更多直覺。最後就變成選型靠感覺、升級靠印象、上 production 靠運氣。 Slide 3 今天的大綱很簡單,先講痛點,再講解法,接著把「效率」定義清楚,然後一步一步收斂變因,最後看 Langfuse 能收集什麼,怎麼從 baseline 走到 human decision。 Slide 4 如果目標是 Coding Agent 效能更好,那我們其實很直接,就是希望產出更穩定、成本更可控、升級風險更小。這些需求聽起來很抽象,但都可以被拆成可觀測、可比較的指標。 Slide 5 解法的第一步不是先優化,而是先落實 o11y,把所有行為都觀測起來。至少要看得到 prompt、response、tool call、latency、token、cost 和 execution path,先把系統看清楚,才有可能談改善。 Slide 6 這裡我想先定義效率,不然大家會一直在講不同的東西。我會先用一個簡化的公式來看:有用的 output,除以時間、成本、iteration,才是我們要的效率;如果這三個變數沒定義,效率就只是主觀感覺。 Slide 7 但問題是變因太多,model 版本、instruction、tools、workload、context 長度、evaluation 方法,每一個都可能影響結果。只要沒有先收斂變因,你就很難知道是改善了,還是其實惡化了。 Slide 8 所以先做 baseline,是 Action 0。先收 tracing,先把日常工作看清楚,先把 workload baseline 建起來,讓後面每個改動都有參考點,不然所有比較都會飄在空中。 Slide 9 以 Langfuse 來說,至少可以收 trace、span、metadata、metrics、latency、token 和 cost。這些資訊不是終點,但它們是最基本的材料;沒有這些資料,你連 baseline 都很難做完整。 ...

1 min · 193 words · chechiachang

2026-07-01 Workshop Transcript: Spec-kit AI Enterprise Slide 1 各位早安,歡迎來到今天 90 分鐘的 Spec-kit 工作坊,先從行前準備開始:請確認你有筆電、網路、VS Code、Spec-kit CLI,以及 workshop 的範例程式碼,模型部分今天會提供 Azure OpenAI Key,也可以用你自己習慣的模型;這堂課最重要的是動手做與保持懷疑,遇到標記了問號的地方,先想再問,目標是練習怎麼判斷 AI 回答是否可靠。 Slide 2 這一頁我帶大家完成 VS Code 起手式:先安裝或打開 VS Code,開底下 Terminal,把 speckit-playground clone 下來,再用 File > Open Folder 開啟該目錄,等一下所有操作都會在這個 workspace 裡進行。 Slide 3 這張畫面就是 git clone 的示意,我想強調的是大家先不要急著跑指令以外的步驟,先確認你已經成功 clone、資料夾也真的在 VS Code 裡打開,這會讓後面指令跟代理流程順很多。 Slide 4 接著安裝 Spec-kit CLI:先在終端機確認 uv --version,如果沒有就先安裝 uv,之後用指定版本安裝 specify-cli,我建議 workshop 先固定版本,避免每個人看到的行為不同而增加排錯成本。 Slide 5 這張圖是安裝 Spec-kit CLI 成功後的畫面,請對照一下你的終端輸出,確認沒有權限或 PATH 問題,因為後面 /speckit.* 流程會直接依賴這一步。 ...

3 min · 518 words · chechiachang