本章覆盖全部 19 个用户功能,按 6 大模块组织。每个功能点包含:功能描述、用户故事、核心交互流程和验收标准。
模块一
消息网关与渠道系统
①多渠道对话 ③消息代发
模块二
AI Agent 引擎
⑯记忆 ⑰多Agent ⑲切模型
模块三
语音与媒体交互
②语音 ⑨媒体 ⑭打电话
模块四
效率与生活技能
④⑤⑥⑦⑧⑫⑬⑮
模块五
客户端矩阵
Web · CLI · macOS · iOS · Android
模块六
自动化与扩展生态
⑩自动化 ⑪Canvas ⑱扩展

模块一:消息网关与渠道系统

功能① 多渠道消息接入

用户可以在 13+ 个消息平台上与 AI 助手对话,所有消息通过 Gateway 统一路由到 AI Agent 处理。

类别渠道集成方式优先级
即时通讯WhatsApp@whiskeysockets/baileysP0
即时通讯TelegramgrammY Bot APIP0
即时通讯Signalsignal-cliP1
即时通讯iMessageBlueBubbles / AppleScriptP1
工作协作Slack@slack/boltP0
工作协作Discorddiscord.jsP0
工作协作Google ChatChat APIP1
工作协作Microsoft Teams扩展插件P1
WebWebChat内置 Gateway HTTPP0
扩展Matrix / Zalo / IRC / Nostr / Twitch / Line / Mattermost / Feishu扩展插件P2
作为用户,我希望在 WhatsApp 上给 AI 发消息就能得到回复,不需要打开其他 App
作为用户,我希望同时在多个渠道使用同一个 AI 助手,且它能记住跨渠道的上下文
作为用户,我希望可以随时添加或移除渠道,无需重启整个系统
交互流程
用户在 WhatsApp 发送消息 → WhatsApp 适配器接收 → Gateway 路由到 Session → AI Agent 处理并调用工具 → 响应原路回发 → 用户看到回复
验收标准

功能③ 消息代发与转发

AI 助手可以代表用户在各渠道主动发送消息给第三方。

渠道支持操作
WhatsApp发送消息、搜索/同步历史
Discord发送/编辑/删除消息、Reaction、Thread、Pin、投票、管理频道
Slack发送/编辑/删除消息、Reaction、Pin、Thread、成员
Telegram发送消息、Reaction、发送媒体
iMessage发送 iMessage/SMS
邮件发送/回复/转发 (IMAP/SMTP)
验收标准

DM 配对与白名单安全机制

未知用户 DM 时,系统通过配对码进行身份验证。

未知用户发送 DM → AI 回复配对码 → 用户在管理面板确认 → 配对成功/失败
验收标准

渠道管理与状态监控

验收标准

模块二:AI Agent 引擎

功能⑲ 多模型支持与热切换

用户可在任何会话中随时切换 AI 模型,无需重启 Gateway。

提供商模型示例认证方式
AnthropicClaude Opus / Sonnet / HaikuAPI Key
OpenAIGPT-5.2 / GPT-4oAPI Key
GoogleGemini 3 Pro / FlashAPI Key
OllamaLlama / Mistral / 任意本地模型无需认证
GitHub CopilotCopilot ChatOAuth
AWS BedrockClaude / TitanIAM 凭证
GroqMixtral / LlamaAPI Key
阿里千问Qwen-Max / Qwen-PlusAPI Key
更多MiniMax / Together / Venice / ChutesAPI Key
/model → 列出所有可用模型 /model openai/gpt-5.2 → 切换到 GPT-5.2 /model ollama/llama3 → 切换到本地 Llama3 /think high → 调整推理深度 /usage cost → 查看用量和费用
验收标准

功能⑯ 长期记忆系统

组件功能存储
memory-core存储/检索关键信息本地文件
sqlite-vec语义相似度搜索SQLite + 向量索引
LanceDB高性能向量检索(可选)LanceDB 本地库
session-logs完整对话历史归档JSONL 文件
作为用户,我希望告诉 AI"我喜欢早上喝美式",以后它能记住这个偏好
验收标准

功能⑰ 多 Agent 并行编排

用户: 帮我并行处理这三个任务:1) 修 Issue #42 2) 总结文章 3) 查天气 AI: 正在派出 3 个子 Agent... [Sub-Agent 1] 修复 Issue #42 → 进行中 [Sub-Agent 2] 总结文章 → 已完成 [Sub-Agent 3] 天气查询 → 已完成 /subagents list | kill | log | steer | spawn
验收标准

上下文压缩与会话管理

/compact → 压缩会话 | /new → 重置 | /export-session → 导出 HTML | /context → 查看占用
验收标准

工具调用框架 (Tool Use)

工具功能安全级别
web_search联网搜索🟢 低
web_fetch抓取网页🟢 低
browser控制 Chrome🟡 中
exec执行 Shell🔴 高(需审批)
file文件操作🟡 中
canvas推送可视化🟢 低
memory记忆存取🟢 低
cron定时任务🟡 中
tts文字转语音🟢 低
image图像处理🟢 低
sessions_send跨会话消息🟡 中
sessions_spawn生成子 Agent🟡 中

模块三:语音与媒体交互

功能② 语音交互

子功能描述平台
Voice Wake唤醒词激活("Hey Claude" / 自定义)macOS / iOS / Android
Talk Mode连续语音对话循环macOS / iOS / Android
Push-to-Talk按住说话macOS
本地转写Whisper CLI 本地运行全平台
云端转写OpenAI Whisper API全平台
TTS 输出node-edge-tts / ElevenLabs / sherpa-onnx全平台
作为用户,我希望对着手机说"Hey Claude,今天天气怎么样"就能得到语音回答
验收标准

功能⑭ 电话拨打

运营商特点
Twilio全球覆盖最广
Telnyx性价比高
Plivo亚太覆盖好

通话模式:一次性通知 (One-Shot) / 交互式通话 (Interactive)

验收标准

功能⑨ 音乐与媒体控制

子功能技能描述
Spotify 控制spotify-player搜索/播放/暂停/切歌
图片生成openai-image-genDALL-E 3 / GPT-image-1
Gemini 图片nano-banana-proGemini 3 Pro Image
GIF 搜索gifgrepTenor/Giphy
音频转写openai-whisper本地或云端
频谱图songsee音频可视化
视频帧提取video-framesffmpeg 关键帧

模块四:效率与生活技能集

功能④ 笔记与任务管理

工具技能操作平台
Apple Notesapple-notes创建/查看/编辑/删除/搜索/导出macOS
Apple Remindersapple-reminders列出/添加/编辑/完成/删除macOS
Notionnotion创建/读取/更新页面和数据库全平台
Obsidianobsidian创建/搜索/管理 MarkdownmacOS
Bear Notesbear-notes创建/读取/管理macOS
Things 3things-mac读取/添加/更新 todomacOS
Trellotrello管理 Board/List/Card全平台

功能⑤ Google Workspace 集成

服务支持操作
Gmail发送/搜索/创建草稿/回复/转发
Google Calendar创建/编辑/删除/查询日程
Google Drive搜索文件
Google Sheets读取/写入数据
Google Docs导出文档内容
Google Contacts管理联系人

功能⑥ 网页浏览与信息检索

子功能工具/技能描述
联网搜索web_searchBrave Search API
网页抓取web_fetchURL → Markdown
浏览器自动化browserChrome 实例控制
内容总结summarizeURL / 文件 / PDF / YouTube
RSS 监控blogwatcherFeed 更新监控
反爬绕过Firecrawl复杂网站处理

功能⑦ 编程与开发辅助

子功能技能描述
编码 Agentcoding-agentClaude Code / Codex 编码
GitHub 操作githubPR / CI / Issue / API
Issue 自动修复gh-issues并行子 Agent 修复 → PR
Shell 执行exec沙箱化命令执行
补丁应用apply_patch多文件结构化补丁
MCP 集成mcporter任意 MCP 服务器
深度分析oracleGPT-5.2 Pro 一次性分析
GeminigeminiGemini 模型直接查询

功能⑧ 智能家居控制

品牌技能支持操作
Philips Hueopenhue开关/亮度/色温/颜色/场景/房间
Sonossonoscli播放/暂停/音量/分组/TuneIn/Spotify
Bluesound/NADblucli发现/播放/音量/分组
Eight Sleepeightctl温度/开关/闹钟/睡眠计划

功能⑫ 文件与文档处理

子功能工具/技能描述
文件读写fileAgent 工作空间内 CRUD
PDF 编辑nano-pdf自然语言编辑 PDF
摄像头抓图camsnapRTSP/ONVIF 截图录像

功能⑬ 生活服务

子功能技能描述
餐厅搜索goplacesGoogle Places(评分/时间/评论)
外卖点餐food-orderFoodora 重复下单 + 状态跟踪
天气查询weatherwttr.in / Open-Meteo,3 天预报

功能⑮ 安全与密码管理

子功能技能描述
1Password1password读取密钥、注入命令、账户登录
主机安全审计healthcheck防火墙/SSH/更新/加密 → 加固建议

模块五:客户端矩阵

🌐
Web 控制面板

Lit + Vite 构建
Chat · Settings · Channels · Events · Sessions
Gateway 自动提供,响应式设计

⌨️
CLI 命令行

17+ 核心命令
onboard · gateway · agent · configure · status · health · doctor · sessions · memory · plugins · skills · nodes · cron · tui · update

🍎
macOS 原生应用

Swift 编写
菜单栏 · Voice Wake · Talk Mode · Canvas · WebChat · XPC

📱
iOS 原生应用

Canvas · Voice Wake · Talk Mode · 相机 · 录屏 · GPS · Bonjour 配对

🤖
Android 原生应用

Canvas · Talk Mode · 相机 · 录屏 · SMS(可选)· Wake Words 编辑器
最低 Android 10+

模块六:自动化与扩展生态

功能⑩ 定时任务与自动化

子功能实现描述
Croncron 工具创建/更新/删除/手动运行定时任务
WebhookGateway HTTP接收外部事件(Gmail Pub/Sub 等)
Lobster 工作流类型化 DSL多步骤流水线 + 人工审批断点
LLM Taskllm-task工作流内 JSON-only LLM 步骤
作为用户,我希望设置"每天早上 8 点在 WhatsApp 上给我发天气和日程摘要"
作为用户,我希望创建审批工作流:"监控竞品 → 生成摘要 → 等我确认 → 发给团队"

功能⑪ Canvas 可视化画布

操作描述
canvas_present推送 HTML 到 Canvas
canvas_navigate导航到 URL
canvas_eval执行 JavaScript
canvas_snapshot截取画面
a2ui_push/resetAgent 驱动的结构化 UI
作为用户,我希望说"给我画一个本月支出饼图",AI 在 Canvas 上展示

功能⑱ 自定义扩展

层次机制难度适用场景
技能 (Skill)Markdown + 可选脚本⭐ 低新的 AI 行为指令
插件 (Plugin)npm 包 + Hook API⭐⭐ 中新渠道/存储/功能
MCP 服务器mcporter 桥接⭐⭐ 中接入 MCP 生态
扩展渠道extensions/ 目录⭐⭐⭐ 高新消息平台
技能开发流程
1. 创建 ~/.openclaw/workspace/skills/my-skill/SKILL.md 2. 编写 YAML frontmatter(名称、描述) 3. 编写 Markdown 指令内容 4. Gateway 自动热加载 5. clawhub publish → 发布到社区
ClawHub 社区市场
clawhub search <关键词> # 搜索技能 clawhub install <slug> # 安装 clawhub update --all # 更新全部 clawhub publish # 发布