商傳媒Amazon OpenSearch Service強化AI代理偵錯與監控 單一介面提升雲端可觀測性

Amazon OpenSearch Service強化AI代理偵錯與監控 單一介面提升雲端可觀測性

圖/本報AI製圖(示意圖)

商傳媒|責任編輯/綜合外電報導

Amazon OpenSearch Service 近日整合了應用程式監控、原生的 Amazon Managed Service for Prometheus 功能以及人工智慧(AI)代理追蹤能力,並將這些服務統一匯集到 OpenSearch UI 的可觀測性工作區中。這項升級為開發者和 IT 專業人士提供單一介面,旨在大幅提升雲端系統的監控與除錯效率。

統一遙測數據提升診斷效率

這項新的整合讓使用者能夠在 OpenSearch UI 中,直接透過 PromQL 查詢 Prometheus 指標,同時檢視儲存在 Amazon OpenSearch Service 中的日誌(logs)與追蹤(traces)。過去,這些不同類型的遙測數據往往分散在不同工具中,現在則能實現一站式的資料關聯分析,有助於 IT 團隊快速識別系統問題。根據《Amazon Web Services》的報導,其目的在於提供一個統一的平台,簡化複雜雲端環境的營運管理。

AI代理追蹤深化除錯能力

特別針對 AI 代理(AI agent)的應用場景,Amazon OpenSearch Service 導入了 AI 代理追蹤功能,使開發者能追溯 AI 代理的完整推理鏈(reasoning chain),甚至精確定位到導致錯誤的工具呼叫。報導指出,由於 AI 代理的行為不像傳統微服務(microservices)那般具有確定性,它們會根據大型語言模型(LLM)的回應、工具執行結果及連鎖推理(chained reasoning)做出自主決策,因此需要捕捉 AI 特定訊號的語義追蹤(semantic tracing)來進行根本原因分析。

例如,在一個多代理旅行規劃應用程式中,若 AI 代理表現不佳,使用者可透過 OpenSearch UI 的 Agent Traces 區塊,檢視其推理步驟,包括根代理範圍(root agent span)、LLM 呼叫及工具調用,並透過追蹤圖(trace map)看到調用的模型、Token 消耗量及訊息交換。當工具呼叫發生錯誤時,系統能清楚標示,協助開發者快速找出問題根源。這項功能依賴於 OpenTelemetry 生成式 AI 語義慣例(generative AI semantic conventions),該慣例定義了如 gen_ai.operation.namegen_ai.usage.input_tokens 等標準屬性,讓 Amazon OpenSearch Service 能將這些跨度(span)按操作類型分類,並在 UI 中呈現代理追蹤樹和追蹤圖視圖。

整合傳統微服務與開源生態

除了 AI 代理,該服務也強化了傳統微服務的故障排除能力。開發者可從服務層級的健康狀態視圖,一路向下鑽取(drill down)至導致問題的特定跨度,例如在結帳流程中,透過 APM Services 視圖觀察服務健康狀況,並從要求、錯誤和持續時間(RED)指標中發現異常。報導舉例,若 P99 執行時間(p99 duration)翻倍,透過關聯式追蹤(correlated spans)便可找出是哪個微服務在擷取產品資訊時失敗。

這套解決方案整合了 Prometheus 開源指標系統與 OpenSearch 開源日誌及追蹤系統,並透過 OpenTelemetry 標準進行遙測數據的採集。應用程式可經由 OpenTelemetry Collector 將日誌、追蹤與指標傳送至 Amazon OpenSearch Ingestion,再由其將追蹤與日誌送至 Amazon OpenSearch Service,指標則送往 Amazon Managed Service for Prometheus。OpenSearch UI 則在執行時跨兩者進行查詢,呈現應用程式地圖、服務目錄、代理追蹤及指標等視圖,且 OpenSearch UI 對 Amazon OpenSearch Service 客戶不收取額外費用。

對於企業而言,這項統一的可觀測性服務,特別是針對新興 AI 代理應用的調試能力,能大幅降低管理複雜雲端原生(cloud-native)應用程式的營運負擔。透過單一介面整合多元遙測數據,IT 團隊可更迅速地辨識、診斷並解決問題,縮短平均修復時間(MTTR),進而提升服務的穩定性與使用者體驗。

想讓你的品牌在新聞媒體曝光? 立即點我加入官方LINE@免費諮詢

熱門新聞