多模态机器人对话导航系统:从感知到执行的 Agent 链路
基于 Python + Pydantic + FastAPI 风格 HTTP 服务搭建的多模态对话 Agent 原型,覆盖 VLM 图像理解、多轮状态管理、结构化输出校验、端云路由、工具调用、主动交互与 Case 分析,面向机器人交互场景的完整技术实践。
基于 Python + Pydantic + FastAPI 风格 HTTP 服务搭建的多模态对话 Agent 原型,覆盖 VLM 图像理解、多轮状态管理、结构化输出校验、端云路由、工具调用、主动交互与 Case 分析,面向机器人交互场景的完整技术实践。