Docs: add zh-CN translations

This commit is contained in:
Josh Palmer
2026-02-01 22:47:44 +01:00
parent e70984745b
commit 149dc7c4e7
298 changed files with 53861 additions and 0 deletions

120
docs/zh-CN/nodes/audio.md Normal file
View File

@@ -0,0 +1,120 @@
---
read_when:
- 更改音频转录或媒体处理方式
summary: 入站音频/语音消息如何被下载、转录并注入回复
title: 音频与语音消息
x-i18n:
generated_at: "2026-02-01T21:17:35Z"
model: claude-opus-4-5
provider: pi
source_hash: b926c47989ab0d1ee1fb8ae6372c51d27515b53d6fefe211a85856d372f14569
source_path: nodes/audio.md
workflow: 15
---
# 音频 / 语音消息 — 2026-01-17
## 已支持的功能
- **媒体理解(音频)**如果音频理解已启用或自动检测OpenClaw 会:
1. 找到第一个音频附件(本地路径或 URL如有需要则下载。
2. 在发送给每个模型条目之前执行 `maxBytes` 限制。
3. 按顺序运行第一个符合条件的模型条目(提供商或 CLI
4. 如果失败或跳过(大小/超时),则尝试下一个条目。
5. 成功后,将 `Body` 替换为 `[Audio]` 块并设置 `{{Transcript}}`
- **命令解析**:转录成功时,`CommandBody`/`RawBody` 会设置为转录文本,因此斜杠命令仍然有效。
- **详细日志**:在 `--verbose` 模式下,我们会在转录运行和替换正文时记录日志。
## 自动检测(默认)
如果您**未配置模型**且 `tools.media.audio.enabled` **未**设置为 `false`OpenClaw 会按以下顺序自动检测,并在找到第一个可用选项时停止:
1. **本地 CLI**(如已安装)
- `sherpa-onnx-offline`(需要 `SHERPA_ONNX_MODEL_DIR` 包含 encoder/decoder/joiner/tokens
- `whisper-cli`(来自 `whisper-cpp`;使用 `WHISPER_CPP_MODEL` 或内置的 tiny 模型)
- `whisper`Python CLI自动下载模型
2. **Gemini CLI**`gemini`)使用 `read_many_files`
3. **提供商密钥**OpenAI → Groq → Deepgram → Google
要禁用自动检测,请设置 `tools.media.audio.enabled: false`
要自定义,请设置 `tools.media.audio.models`
注意:二进制检测在 macOS/Linux/Windows 上采用尽力而为的方式;请确保 CLI 在 `PATH` 中(我们会展开 `~`),或通过完整命令路径设置显式 CLI 模型。
## 配置示例
### 提供商 + CLI 回退OpenAI + Whisper CLI
```json5
{
tools: {
media: {
audio: {
enabled: true,
maxBytes: 20971520,
models: [
{ provider: "openai", model: "gpt-4o-mini-transcribe" },
{
type: "cli",
command: "whisper",
args: ["--model", "base", "{{MediaPath}}"],
timeoutSeconds: 45,
},
],
},
},
},
}
```
### 仅提供商 + 作用域控制
```json5
{
tools: {
media: {
audio: {
enabled: true,
scope: {
default: "allow",
rules: [{ action: "deny", match: { chatType: "group" } }],
},
models: [{ provider: "openai", model: "gpt-4o-mini-transcribe" }],
},
},
},
}
```
### 仅提供商Deepgram
```json5
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
```
## 注意事项与限制
- 提供商认证遵循标准的模型认证顺序(认证配置文件、环境变量、`models.providers.*.apiKey`)。
- 当使用 `provider: "deepgram"`Deepgram 会读取 `DEEPGRAM_API_KEY`
- Deepgram 设置详情:[Deepgram音频转录](/providers/deepgram)。
- 音频提供商可以通过 `tools.media.audio` 覆盖 `baseUrl``headers``providerOptions`
- 默认大小限制为 20MB`tools.media.audio.maxBytes`)。超大音频会跳过该模型并尝试下一个条目。
- 音频的默认 `maxChars` **未设置**(完整转录文本)。设置 `tools.media.audio.maxChars` 或每个条目的 `maxChars` 来裁剪输出。
- OpenAI 自动检测默认使用 `gpt-4o-mini-transcribe`;设置 `model: "gpt-4o-transcribe"` 可获得更高准确度。
- 使用 `tools.media.audio.attachments` 处理多条语音消息(`mode: "all"` + `maxAttachments`)。
- 转录文本可在模板中通过 `{{Transcript}}` 使用。
- CLI 标准输出有上限5MB请保持 CLI 输出简洁。
## 常见陷阱
- 作用域规则采用首次匹配优先。`chatType` 会被规范化为 `direct``group``room`
- 确保您的 CLI 以退出码 0 退出并输出纯文本JSON 格式需要通过 `jq -r .text` 进行转换。
- 保持合理的超时时间(`timeoutSeconds`,默认 60 秒),以避免阻塞回复队列。

162
docs/zh-CN/nodes/camera.md Normal file
View File

@@ -0,0 +1,162 @@
---
read_when:
- 在 iOS 节点或 macOS 上添加或修改相机捕获功能
- 扩展智能体可访问的 MEDIA 临时文件工作流
summary: 相机捕获iOS 节点 + macOS 应用供智能体使用照片jpg和短视频片段mp4
title: 相机捕获
x-i18n:
generated_at: "2026-02-01T21:17:51Z"
model: claude-opus-4-5
provider: pi
source_hash: b4d5f5ecbab6f70597cf1e1f9cc5f7f54681253bd747442db16cc681203b5813
source_path: nodes/camera.md
workflow: 15
---
# 相机捕获(智能体)
OpenClaw 支持智能体工作流中的**相机捕获**
- **iOS 节点**(通过 Gateway 配对):通过 `node.invoke` 捕获**照片**`jpg`)或**短视频片段**`mp4`,可选音频)。
- **Android 节点**(通过 Gateway 配对):通过 `node.invoke` 捕获**照片**`jpg`)或**短视频片段**`mp4`,可选音频)。
- **macOS 应用**(通过 Gateway 的节点):通过 `node.invoke` 捕获**照片**`jpg`)或**短视频片段**`mp4`,可选音频)。
所有相机访问都受**用户控制的设置**保护。
## iOS 节点
### 用户设置(默认开启)
- iOS 设置标签页 → **相机****允许相机**`camera.enabled`
- 默认:**开启**(缺少该键时视为已启用)。
- 关闭时:`camera.*` 命令返回 `CAMERA_DISABLED`
### 命令(通过 Gateway `node.invoke`
- `camera.list`
- 响应载荷:
- `devices``{ id, name, position, deviceType }` 数组
- `camera.snap`
- 参数:
- `facing``front|back`(默认:`front`
- `maxWidth`数字可选iOS 节点默认 `1600`
- `quality``0..1`(可选;默认 `0.9`
- `format`:当前为 `jpg`
- `delayMs`:数字(可选;默认 `0`
- `deviceId`:字符串(可选;来自 `camera.list`
- 响应载荷:
- `format: "jpg"`
- `base64: "<...>"`
- `width``height`
- 载荷保护:照片会被重新压缩,以将 base64 载荷控制在 5 MB 以内。
- `camera.clip`
- 参数:
- `facing``front|back`(默认:`front`
- `durationMs`:数字(默认 `3000`,上限为 `60000`
- `includeAudio`:布尔值(默认 `true`
- `format`:当前为 `mp4`
- `deviceId`:字符串(可选;来自 `camera.list`
- 响应载荷:
- `format: "mp4"`
- `base64: "<...>"`
- `durationMs`
- `hasAudio`
### 前台要求
`canvas.*` 类似iOS 节点仅在**前台**允许 `camera.*` 命令。后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`
### CLI 辅助工具(临时文件 + MEDIA
获取附件最简单的方式是使用 CLI 辅助工具,它会将解码后的媒体写入临时文件并输出 `MEDIA:<path>`
示例:
```bash
openclaw nodes camera snap --node <id> # 默认前后摄像头都拍摄2 行 MEDIA 输出)
openclaw nodes camera snap --node <id> --facing front
openclaw nodes camera clip --node <id> --duration 3000
openclaw nodes camera clip --node <id> --no-audio
```
注意事项:
- `nodes camera snap` 默认拍摄**两个**朝向,以便为智能体提供两个视角。
- 输出文件是临时的(位于操作系统临时目录中),除非你自行构建包装器。
## Android 节点
### 用户设置(默认开启)
- Android 设置面板 → **相机****允许相机**`camera.enabled`
- 默认:**开启**(缺少该键时视为已启用)。
- 关闭时:`camera.*` 命令返回 `CAMERA_DISABLED`
### 权限
- Android 需要运行时权限:
- `CAMERA`:用于 `camera.snap``camera.clip`
- `RECORD_AUDIO`:用于 `includeAudio=true` 时的 `camera.clip`
如果缺少权限,应用会在可能时弹出提示;如果被拒绝,`camera.*` 请求将以 `*_PERMISSION_REQUIRED` 错误失败。
### 前台要求
`canvas.*` 类似Android 节点仅在**前台**允许 `camera.*` 命令。后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`
### 载荷保护
照片会被重新压缩,以将 base64 载荷控制在 5 MB 以内。
## macOS 应用
### 用户设置(默认关闭)
macOS 伴侣应用提供一个复选框:
- **设置 → 通用 → 允许相机**`openclaw.cameraEnabled`
- 默认:**关闭**
- 关闭时:相机请求返回"Camera disabled by user"。
### CLI 辅助工具(节点调用)
使用主 `openclaw` CLI 在 macOS 节点上调用相机命令。
示例:
```bash
openclaw nodes camera list --node <id> # 列出相机 ID
openclaw nodes camera snap --node <id> # 输出 MEDIA:<path>
openclaw nodes camera snap --node <id> --max-width 1280
openclaw nodes camera snap --node <id> --delay-ms 2000
openclaw nodes camera snap --node <id> --device-id <id>
openclaw nodes camera clip --node <id> --duration 10s # 输出 MEDIA:<path>
openclaw nodes camera clip --node <id> --duration-ms 3000 # 输出 MEDIA:<path>(旧版标志)
openclaw nodes camera clip --node <id> --device-id <id>
openclaw nodes camera clip --node <id> --no-audio
```
注意事项:
- `openclaw nodes camera snap` 默认 `maxWidth=1600`,除非被覆盖。
- 在 macOS 上,`camera.snap` 在预热/曝光稳定后等待 `delayMs`(默认 2000ms再进行捕获。
- 照片载荷会被重新压缩,以将 base64 控制在 5 MB 以内。
## 安全性 + 实际限制
- 相机和麦克风访问会触发常规的操作系统权限提示(且需要在 Info.plist 中添加用途说明字符串)。
- 视频片段有长度上限(当前 `<= 60s`以避免过大的节点载荷base64 开销 + 消息大小限制)。
## macOS 屏幕录制(操作系统级别)
如需*屏幕*录制(非相机),请使用 macOS 伴侣应用:
```bash
openclaw nodes screen record --node <id> --duration 10s --fps 15 # 输出 MEDIA:<path>
```
注意事项:
- 需要 macOS **屏幕录制**权限TCC

View File

@@ -0,0 +1,79 @@
---
read_when:
- 修改媒体处理管道或附件
summary: 发送、Gateway 和智能体回复的图片与媒体处理规则
title: 图片与媒体支持
x-i18n:
generated_at: "2026-02-01T21:17:54Z"
model: claude-opus-4-5
provider: pi
source_hash: 971aed398ea01078efbad7a8a4bca17f2a975222a2c4db557565e4334c9450e0
source_path: nodes/images.md
workflow: 15
---
# 图片与媒体支持 — 2025-12-05
WhatsApp 渠道通过 **Baileys Web** 运行。本文档记录了发送、Gateway 和智能体回复的当前媒体处理规则。
## 目标
- 通过 `openclaw message send --media` 发送带可选说明文字的媒体。
- 允许来自 Web 收件箱的自动回复在文本旁包含媒体。
- 保持每种类型的限制合理且可预测。
## CLI 接口
- `openclaw message send --media <path-or-url> [--message <caption>]`
- `--media` 可选;说明文字可以为空,用于仅发送媒体。
- `--dry-run` 打印解析后的载荷;`--json` 输出 `{ channel, to, messageId, mediaUrl, caption }`
## WhatsApp Web 渠道行为
- 输入:本地文件路径**或** HTTP(S) URL。
- 流程:加载到 Buffer 中,检测媒体类型,并构建正确的载荷:
- **图片:** 调整大小并重新压缩为 JPEG最大边 2048px目标大小为 `agents.defaults.mediaMaxMb`(默认 5 MB上限 6 MB。
- **音频/语音/视频:** 直通传输,上限 16 MB音频作为语音消息发送`ptt: true`)。
- **文档:** 其他所有类型,上限 100 MB可用时保留文件名。
- WhatsApp GIF 风格播放:发送带 `gifPlayback: true` 的 MP4CLI`--gif-playback`),使移动客户端内联循环播放。
- MIME 检测优先使用魔术字节,其次是请求头,最后是文件扩展名。
- 说明文字来自 `--message``reply.text`;允许空说明文字。
- 日志:非详细模式显示 `↩️`/`✅`;详细模式包含大小和源路径/URL。
## 自动回复管道
- `getReplyFromConfig` 返回 `{ text?, mediaUrl?, mediaUrls? }`
- 当存在媒体时Web 发送器使用与 `openclaw message send` 相同的管道解析本地路径或 URL。
- 如果提供了多个媒体条目,则按顺序依次发送。
## 入站媒体转命令 (Pi)
- 当入站 Web 消息包含媒体时OpenClaw 会下载到临时文件并暴露模板变量:
- `{{MediaUrl}}` 入站媒体的伪 URL。
- `{{MediaPath}}` 运行命令前写入的本地临时路径。
- 当启用了每会话 Docker 沙箱时,入站媒体会被复制到沙箱工作区中,`MediaPath`/`MediaUrl` 会被重写为类似 `media/inbound/<filename>` 的相对路径。
- 媒体理解(如果通过 `tools.media.*` 或共享的 `tools.media.models` 配置)在模板化之前运行,可以将 `[Image]``[Audio]``[Video]` 块插入 `Body`
- 音频设置 `{{Transcript}}` 并使用转录文本进行命令解析,因此斜杠命令仍然有效。
- 视频和图片描述会保留说明文字用于命令解析。
- 默认仅处理第一个匹配的图片/音频/视频附件;设置 `tools.media.<cap>.attachments` 可处理多个附件。
## 限制与错误
**出站发送上限WhatsApp Web 发送)**
- 图片:重新压缩后约 6 MB 上限。
- 音频/语音/视频16 MB 上限文档100 MB 上限。
- 超大或不可读的媒体 → 日志中显示明确错误,回复将被跳过。
**媒体理解上限(转录/描述)**
- 图片默认10 MB`tools.media.image.maxBytes`)。
- 音频默认20 MB`tools.media.audio.maxBytes`)。
- 视频默认50 MB`tools.media.video.maxBytes`)。
- 超大媒体会跳过理解处理,但回复仍会以原始正文发送。
## 测试注意事项
- 覆盖图片/音频/文档场景的发送 + 回复流程。
- 验证图片的重新压缩(大小限制)和音频的语音消息标志。
- 确保多媒体回复以顺序发送的方式展开。

316
docs/zh-CN/nodes/index.md Normal file
View File

@@ -0,0 +1,316 @@
---
read_when:
- 将 iOS/Android 节点配对到 Gateway
- 使用节点 canvas/相机为智能体提供上下文
- 添加新的节点命令或 CLI 辅助工具
summary: 节点:配对、能力、权限,以及 canvas/相机/屏幕/系统的 CLI 辅助工具
title: 节点
x-i18n:
generated_at: "2026-02-01T21:18:35Z"
model: claude-opus-4-5
provider: pi
source_hash: 7f7cc1934cfbb4176f0a7ce21371e51d9a9fb459dd73b8fce5a214b58877521f
source_path: nodes/index.md
workflow: 15
---
# 节点
**节点**是一个伴侣设备macOS/iOS/Android/无头),通过 **WebSocket**(与操作员相同的端口)以 `role: "node"` 连接到 Gateway并通过 `node.invoke` 暴露命令接口(例如 `canvas.*``camera.*``system.*`)。协议详情:[Gateway 协议](/gateway/protocol)。
旧版传输:[Bridge 协议](/gateway/bridge-protocol)TCP JSONL当前节点已弃用/移除)。
macOS 也可以在**节点模式**下运行:菜单栏应用连接到 Gateway 的 WS 服务器,并将其本地 canvas/相机命令作为节点暴露(因此 `openclaw nodes …` 可以对该 Mac 使用)。
注意事项:
- 节点是**外围设备**,不是 Gateway。它们不运行 Gateway 服务。
- Telegram/WhatsApp 等消息到达的是 **Gateway**,而非节点。
## 配对 + 状态
**WS 节点使用设备配对。** 节点在 `connect` 时提供设备身份Gateway 为 `role: node` 创建设备配对请求。通过设备 CLI或 UI审批。
快速 CLI
```bash
openclaw devices list
openclaw devices approve <requestId>
openclaw devices reject <requestId>
openclaw nodes status
openclaw nodes describe --node <idOrNameOrIp>
```
注意事项:
- `nodes status` 在设备配对角色包含 `node` 时将节点标记为**已配对**。
- `node.pair.*`CLI`openclaw nodes pending/approve/reject`)是一个独立的 Gateway 拥有的节点配对存储;它**不会**拦截 WS `connect` 握手。
## 远程节点主机system.run
当你的 Gateway 运行在一台机器上而你希望命令在另一台机器上执行时,使用**节点主机**。模型仍然与 **Gateway** 通信;当选择 `host=node`Gateway 将 `exec` 调用转发给**节点主机**。
### 各部分运行位置
- **Gateway 主机**:接收消息,运行模型,路由工具调用。
- **节点主机**:在节点机器上执行 `system.run`/`system.which`
- **审批**:通过节点主机上的 `~/.openclaw/exec-approvals.json` 执行。
### 启动节点主机(前台)
在节点机器上:
```bash
openclaw node run --host <gateway-host> --port 18789 --display-name "Build Node"
```
### 启动节点主机(服务)
```bash
openclaw node install --host <gateway-host> --port 18789 --display-name "Build Node"
openclaw node restart
```
### 配对 + 命名
在 Gateway 主机上:
```bash
openclaw nodes pending
openclaw nodes approve <requestId>
openclaw nodes list
```
命名选项:
-`openclaw node run` / `openclaw node install` 上使用 `--display-name`(持久保存在节点的 `~/.openclaw/node.json` 中)。
- `openclaw nodes rename --node <id|name|ip> --name "Build Node"`Gateway 覆盖)。
### 将命令加入允许列表
执行审批是**按节点主机**的。从 Gateway 添加允许列表条目:
```bash
openclaw approvals allowlist add --node <id|name|ip> "/usr/bin/uname"
openclaw approvals allowlist add --node <id|name|ip> "/usr/bin/sw_vers"
```
审批存储在节点主机的 `~/.openclaw/exec-approvals.json` 中。
### 将执行指向节点
配置默认值Gateway 配置):
```bash
openclaw config set tools.exec.host node
openclaw config set tools.exec.security allowlist
openclaw config set tools.exec.node "<id-or-name>"
```
或按会话设置:
```
/exec host=node security=allowlist node=<id-or-name>
```
设置后,任何 `host=node``exec` 调用都会在节点主机上运行(受节点允许列表/审批限制)。
相关链接:
- [节点主机 CLI](/cli/node)
- [Exec 工具](/tools/exec)
- [Exec 审批](/tools/exec-approvals)
## 调用命令
低级别(原始 RPC
```bash
openclaw nodes invoke --node <idOrNameOrIp> --command canvas.eval --params '{"javaScript":"location.href"}'
```
对于常见的"为智能体提供 MEDIA 附件"工作流,有更高级的辅助工具。
## 截图canvas 快照)
如果节点正在显示 CanvasWebView`canvas.snapshot` 返回 `{ format, base64 }`
CLI 辅助工具(写入临时文件并输出 `MEDIA:<path>`
```bash
openclaw nodes canvas snapshot --node <idOrNameOrIp> --format png
openclaw nodes canvas snapshot --node <idOrNameOrIp> --format jpg --max-width 1200 --quality 0.9
```
### Canvas 控制
```bash
openclaw nodes canvas present --node <idOrNameOrIp> --target https://example.com
openclaw nodes canvas hide --node <idOrNameOrIp>
openclaw nodes canvas navigate https://example.com --node <idOrNameOrIp>
openclaw nodes canvas eval --node <idOrNameOrIp> --js "document.title"
```
注意事项:
- `canvas present` 接受 URL 或本地文件路径(`--target`),以及可选的 `--x/--y/--width/--height` 用于定位。
- `canvas eval` 接受内联 JS`--js`)或位置参数。
### A2UICanvas
```bash
openclaw nodes canvas a2ui push --node <idOrNameOrIp> --text "Hello"
openclaw nodes canvas a2ui push --node <idOrNameOrIp> --jsonl ./payload.jsonl
openclaw nodes canvas a2ui reset --node <idOrNameOrIp>
```
注意事项:
- 仅支持 A2UI v0.8 JSONLv0.9/createSurface 会被拒绝)。
## 照片 + 视频(节点相机)
照片(`jpg`
```bash
openclaw nodes camera list --node <idOrNameOrIp>
openclaw nodes camera snap --node <idOrNameOrIp> # 默认两个朝向2 行 MEDIA 输出)
openclaw nodes camera snap --node <idOrNameOrIp> --facing front
```
视频片段(`mp4`
```bash
openclaw nodes camera clip --node <idOrNameOrIp> --duration 10s
openclaw nodes camera clip --node <idOrNameOrIp> --duration 3000 --no-audio
```
注意事项:
- `canvas.*``camera.*` 要求节点处于**前台**(后台调用返回 `NODE_BACKGROUND_UNAVAILABLE`)。
- 片段时长有上限(当前 `<= 60s`),以避免过大的 base64 载荷。
- Android 会在可能时提示 `CAMERA`/`RECORD_AUDIO` 权限;拒绝权限时以 `*_PERMISSION_REQUIRED` 失败。
## 屏幕录制(节点)
节点暴露 `screen.record`mp4。示例
```bash
openclaw nodes screen record --node <idOrNameOrIp> --duration 10s --fps 10
openclaw nodes screen record --node <idOrNameOrIp> --duration 10s --fps 10 --no-audio
```
注意事项:
- `screen.record` 要求节点应用处于前台。
- Android 会在录制前显示系统屏幕捕获提示。
- 屏幕录制上限为 `<= 60s`
- `--no-audio` 禁用麦克风捕获iOS/Android 支持macOS 使用系统捕获音频)。
- 当有多个屏幕可用时,使用 `--screen <index>` 选择显示器。
## 位置(节点)
当设置中启用了位置功能时,节点暴露 `location.get`
CLI 辅助工具:
```bash
openclaw nodes location get --node <idOrNameOrIp>
openclaw nodes location get --node <idOrNameOrIp> --accuracy precise --max-age 15000 --location-timeout 10000
```
注意事项:
- 位置功能**默认关闭**。
- "始终"需要系统权限;后台获取为尽力而为。
- 响应包含经纬度、精度(米)和时间戳。
## 短信Android 节点)
当用户授予 **SMS** 权限且设备支持电话功能时Android 节点可以暴露 `sms.send`
低级别调用:
```bash
openclaw nodes invoke --node <idOrNameOrIp> --command sms.send --params '{"to":"+15555550123","message":"Hello from OpenClaw"}'
```
注意事项:
- 必须在 Android 设备上接受权限提示后,该功能才会被广播。
- 没有电话功能的纯 Wi-Fi 设备不会广播 `sms.send`
## 系统命令(节点主机 / Mac 节点)
macOS 节点暴露 `system.run``system.notify``system.execApprovals.get/set`
无头节点主机暴露 `system.run``system.which``system.execApprovals.get/set`
示例:
```bash
openclaw nodes run --node <idOrNameOrIp> -- echo "Hello from mac node"
openclaw nodes notify --node <idOrNameOrIp> --title "Ping" --body "Gateway ready"
```
注意事项:
- `system.run` 在载荷中返回 stdout/stderr/退出码。
- `system.notify` 遵循 macOS 应用的通知权限状态。
- `system.run` 支持 `--cwd``--env KEY=VAL``--command-timeout``--needs-screen-recording`
- `system.notify` 支持 `--priority <passive|active|timeSensitive>``--delivery <system|overlay|auto>`
- macOS 节点会丢弃 `PATH` 覆盖;无头节点主机仅在 `PATH` 前置于节点主机 PATH 时才接受。
- 在 macOS 节点模式下,`system.run` 受 macOS 应用中的执行审批限制(设置 → 执行审批)。
询问/允许列表/完全访问的行为与无头节点主机相同;拒绝的提示返回 `SYSTEM_RUN_DENIED`
- 在无头节点主机上,`system.run` 受执行审批限制(`~/.openclaw/exec-approvals.json`)。
## Exec 节点绑定
当有多个节点可用时,你可以将 exec 绑定到特定节点。
这会设置 `exec host=node` 的默认节点(可以按智能体覆盖)。
全局默认:
```bash
openclaw config set tools.exec.node "node-id-or-name"
```
按智能体覆盖:
```bash
openclaw config get agents.list
openclaw config set agents.list[0].tools.exec.node "node-id-or-name"
```
取消设置以允许任意节点:
```bash
openclaw config unset tools.exec.node
openclaw config unset agents.list[0].tools.exec.node
```
## 权限映射
节点可能在 `node.list` / `node.describe` 中包含 `permissions` 映射,以权限名称为键(例如 `screenRecording``accessibility`),布尔值为值(`true` = 已授予)。
## 无头节点主机(跨平台)
OpenClaw 可以运行**无头节点主机**(无 UI它连接到 Gateway WebSocket 并暴露 `system.run` / `system.which`。这适用于 Linux/Windows 或在服务器旁运行一个最小节点。
启动方式:
```bash
openclaw node run --host <gateway-host> --port 18789
```
注意事项:
- 仍然需要配对Gateway 会显示节点审批提示)。
- 节点主机将其节点 ID、令牌、显示名称和 Gateway 连接信息存储在 `~/.openclaw/node.json` 中。
- 执行审批通过 `~/.openclaw/exec-approvals.json` 在本地执行(参见[执行审批](/tools/exec-approvals))。
- 在 macOS 上,无头节点主机在伴侣应用执行主机可达时优先使用它,不可用时回退到本地执行。设置 `OPENCLAW_NODE_EXEC_HOST=app` 以要求使用应用,或设置 `OPENCLAW_NODE_EXEC_FALLBACK=0` 以禁用回退。
- 当 Gateway WS 使用 TLS 时,添加 `--tls` / `--tls-fingerprint`
## Mac 节点模式
- macOS 菜单栏应用作为节点连接到 Gateway WS 服务器(因此 `openclaw nodes …` 可以对该 Mac 使用)。
- 在远程模式下,应用为 Gateway 端口打开 SSH 隧道并连接到 `localhost`

View File

@@ -0,0 +1,120 @@
---
read_when:
- 添加位置节点支持或权限界面
- 设计后台位置 + 推送流程
summary: 节点的位置命令location.get、权限模式和后台行为
title: 位置命令
x-i18n:
generated_at: "2026-02-01T21:18:11Z"
model: claude-opus-4-5
provider: pi
source_hash: 23124096256384d2b28157352b072309c61c970a20e009aac5ce4a8250dc3764
source_path: nodes/location-command.md
workflow: 15
---
# 位置命令(节点)
## 简要说明
- `location.get` 是一个节点命令(通过 `node.invoke`)。
- 默认关闭。
- 设置使用选择器:关闭 / 使用时 / 始终。
- 单独的开关:精确位置。
## 为什么用选择器(而不是简单开关)
操作系统权限是多级的。我们可以在应用内提供选择器,但实际授权由操作系统决定。
- iOS/macOS用户可以在系统提示/设置中选择**使用时**或**始终**。应用可以请求升级,但操作系统可能要求进入设置。
- Android后台位置是独立的权限在 Android 10+ 上通常需要进入设置流程。
- 精确位置是独立的授权iOS 14+ "精确"Android "精确" vs "粗略")。
界面中的选择器驱动我们请求的模式;实际授权存储在操作系统设置中。
## 设置模型
每个节点设备:
- `location.enabledMode``off | whileUsing | always`
- `location.preciseEnabled`bool
界面行为:
- 选择 `whileUsing` 请求前台权限。
- 选择 `always` 首先确保 `whileUsing`,然后请求后台权限(如果需要则引导用户进入设置)。
- 如果操作系统拒绝请求的级别,则回退到已授予的最高级别并显示状态。
## 权限映射node.permissions
可选。macOS 节点通过权限映射报告 `location`iOS/Android 可能省略。
## 命令:`location.get`
通过 `node.invoke` 调用。
参数(建议):
```json
{
"timeoutMs": 10000,
"maxAgeMs": 15000,
"desiredAccuracy": "coarse|balanced|precise"
}
```
响应载荷:
```json
{
"lat": 48.20849,
"lon": 16.37208,
"accuracyMeters": 12.5,
"altitudeMeters": 182.0,
"speedMps": 0.0,
"headingDeg": 270.0,
"timestamp": "2026-01-03T12:34:56.000Z",
"isPrecise": true,
"source": "gps|wifi|cell|unknown"
}
```
错误(稳定错误码):
- `LOCATION_DISABLED`:选择器为关闭状态。
- `LOCATION_PERMISSION_REQUIRED`:缺少请求模式所需的权限。
- `LOCATION_BACKGROUND_UNAVAILABLE`:应用在后台运行但仅允许"使用时"。
- `LOCATION_TIMEOUT`:未在规定时间内获取定位。
- `LOCATION_UNAVAILABLE`:系统故障 / 无可用提供者。
## 后台行为(未来)
目标:即使节点在后台,模型也能请求位置,但仅在以下条件满足时:
- 用户选择了**始终**。
- 操作系统授予了后台位置权限。
- 应用被允许在后台运行位置服务iOS 后台模式 / Android 前台服务或特殊许可)。
推送触发流程(未来):
1. Gateway 向节点发送推送(静默推送或 FCM 数据)。
2. 节点短暂唤醒并向设备请求位置。
3. 节点将载荷转发给 Gateway。
注意事项:
- iOS需要"始终"权限 + 后台位置模式。静默推送可能被限流;预期会有间歇性失败。
- Android后台位置可能需要前台服务否则预期会被拒绝。
## 模型/工具集成
- 工具接口:`nodes` 工具添加 `location_get` 操作(需要节点)。
- CLI`openclaw nodes location get --node <id>`
- 智能体指南:仅在用户启用位置并了解范围时调用。
## 界面文案(建议)
- 关闭:"位置共享已禁用。"
- 使用时:"仅在 OpenClaw 打开时共享。"
- 始终:"允许后台定位。需要系统权限。"
- 精确:"使用精确 GPS 定位。关闭后将共享大致位置。"

View File

@@ -0,0 +1,381 @@
---
read_when:
- 设计或重构媒体理解功能
- 调优入站音频/视频/图片预处理
summary: 入站图片/音频/视频理解(可选),支持提供商 + CLI 回退
title: 媒体理解
x-i18n:
generated_at: "2026-02-01T21:18:50Z"
model: claude-opus-4-5
provider: pi
source_hash: f6c575662b7fcbf0b62c46e3fdfa4cdb7cfd455513097e4a2cdec8a34cbdbd48
source_path: nodes/media-understanding.md
workflow: 15
---
# 媒体理解(入站) — 2026-01-17
OpenClaw 可以在回复管道运行之前**总结入站媒体**(图片/音频/视频)。它会在本地工具或提供商密钥可用时自动检测,也可以禁用或自定义。如果理解功能关闭,模型仍会照常接收原始文件/URL。
## 目标
- 可选:将入站媒体预处理为简短文本,以加快路由 + 改善命令解析。
- 始终保留原始媒体向模型的传递。
- 支持**提供商 API** 和 **CLI 回退**
- 允许多个模型按顺序回退(错误/大小/超时)。
## 高层行为
1. 收集入站附件(`MediaPaths``MediaUrls``MediaTypes`)。
2. 对每个已启用的能力(图片/音频/视频),按策略选择附件(默认:**第一个**)。
3. 选择第一个符合条件的模型条目(大小 + 能力 + 认证)。
4. 如果模型失败或媒体过大,**回退到下一个条目**。
5. 成功时:
- `Body` 变为 `[Image]``[Audio]``[Video]` 块。
- 音频设置 `{{Transcript}}`;命令解析在有说明文字时使用说明文字,否则使用转录文本。
- 说明文字作为 `User text:` 保留在块内。
如果理解失败或已禁用,**回复流程继续**使用原始正文 + 附件。
## 配置概览
`tools.media` 支持**共享模型**加每能力覆盖:
- `tools.media.models`:共享模型列表(使用 `capabilities` 进行能力筛选)。
- `tools.media.image` / `tools.media.audio` / `tools.media.video`
- 默认值(`prompt``maxChars``maxBytes``timeoutSeconds``language`
- 提供商覆盖(`baseUrl``headers``providerOptions`
- Deepgram 音频选项通过 `tools.media.audio.providerOptions.deepgram` 设置
- 可选的**每能力 `models` 列表**(优先于共享模型)
- `attachments` 策略(`mode``maxAttachments``prefer`
- `scope`(可选,按渠道/聊天类型/会话键筛选)
- `tools.media.concurrency`:最大并发能力运行数(默认 **2**)。
```json5
{
tools: {
media: {
models: [
/* 共享列表 */
],
image: {
/* 可选覆盖 */
},
audio: {
/* 可选覆盖 */
},
video: {
/* 可选覆盖 */
},
},
},
}
```
### 模型条目
每个 `models[]` 条目可以是**提供商**或 **CLI** 类型:
```json5
{
type: "provider", // 省略时默认
provider: "openai",
model: "gpt-5.2",
prompt: "Describe the image in <= 500 chars.",
maxChars: 500,
maxBytes: 10485760,
timeoutSeconds: 60,
capabilities: ["image"], // 可选,用于多模态条目
profile: "vision-profile",
preferredProfile: "vision-fallback",
}
```
```json5
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
maxChars: 500,
maxBytes: 52428800,
timeoutSeconds: 120,
capabilities: ["video", "image"],
}
```
CLI 模板还可以使用:
- `{{MediaDir}}`(包含媒体文件的目录)
- `{{OutputDir}}`(为本次运行创建的临时目录)
- `{{OutputBase}}`(临时文件基础路径,无扩展名)
## 默认值和限制
推荐默认值:
- `maxChars`:图片/视频为 **500**(简短,适合命令解析)
- `maxChars`:音频**未设置**(完整转录,除非您设置限制)
- `maxBytes`
- 图片:**10MB**
- 音频:**20MB**
- 视频:**50MB**
规则:
- 如果媒体超过 `maxBytes`,该模型被跳过,**尝试下一个模型**。
- 如果模型返回超过 `maxChars`,输出会被裁剪。
- `prompt` 默认为简单的"描述该 {媒体}。"加上 `maxChars` 指导(仅图片/视频)。
- 如果 `<capability>.enabled: true` 但未配置模型OpenClaw 会在其提供商支持该能力时尝试**当前回复模型**。
### 自动检测媒体理解(默认)
如果 `tools.media.<capability>.enabled` **未**设置为 `false` 且您未配置模型OpenClaw 会按以下顺序自动检测,并在**找到第一个可用选项时停止**
1. **本地 CLI**(仅音频;如已安装)
- `sherpa-onnx-offline`(需要 `SHERPA_ONNX_MODEL_DIR` 包含 encoder/decoder/joiner/tokens
- `whisper-cli``whisper-cpp`;使用 `WHISPER_CPP_MODEL` 或内置的 tiny 模型)
- `whisper`Python CLI自动下载模型
2. **Gemini CLI**`gemini`)使用 `read_many_files`
3. **提供商密钥**
- 音频OpenAI → Groq → Deepgram → Google
- 图片OpenAI → Anthropic → Google → MiniMax
- 视频Google
要禁用自动检测,请设置:
```json5
{
tools: {
media: {
audio: {
enabled: false,
},
},
},
}
```
注意:二进制检测在 macOS/Linux/Windows 上采用尽力而为的方式;请确保 CLI 在 `PATH` 中(我们会展开 `~`),或通过完整命令路径设置显式 CLI 模型。
## 能力(可选)
如果您设置了 `capabilities`该条目仅针对指定的媒体类型运行。对于共享列表OpenClaw 可以推断默认值:
- `openai``anthropic``minimax`**图片**
- `google`Gemini API**图片 + 音频 + 视频**
- `groq`**音频**
- `deepgram`**音频**
对于 CLI 条目,**请显式设置 `capabilities`** 以避免意外匹配。
如果省略 `capabilities`,该条目对其所在列表中的所有类型均有效。
## 提供商支持矩阵OpenClaw 集成)
| 能力 | 提供商集成 | 说明 |
| ---- | ---------------------------------------------- | --------------------------------------- |
| 图片 | OpenAI / Anthropic / Google / 其他通过 `pi-ai` | 注册表中任何支持图片的模型均可使用。 |
| 音频 | OpenAI、Groq、Deepgram、Google | 提供商转录Whisper/Deepgram/Gemini。 |
| 视频 | GoogleGemini API | 提供商视频理解。 |
## 推荐提供商
**图片**
- 如果当前模型支持图片,优先使用当前模型。
- 推荐默认值:`openai/gpt-5.2``anthropic/claude-opus-4-5``google/gemini-3-pro-preview`
**音频**
- `openai/gpt-4o-mini-transcribe``groq/whisper-large-v3-turbo``deepgram/nova-3`
- CLI 回退:`whisper-cli`whisper-cpp`whisper`
- Deepgram 设置:[Deepgram音频转录](/providers/deepgram)。
**视频**
- `google/gemini-3-flash-preview`(快速)、`google/gemini-3-pro-preview`(更丰富)。
- CLI 回退:`gemini` CLI支持对视频/音频使用 `read_file`)。
## 附件策略
每能力的 `attachments` 控制处理哪些附件:
- `mode``first`(默认)或 `all`
- `maxAttachments`:处理数量上限(默认 **1**
- `prefer``first``last``path``url`
`mode: "all"` 时,输出标记为 `[Image 1/2]``[Audio 2/2]` 等。
## 配置示例
### 1) 共享模型列表 + 覆盖
```json5
{
tools: {
media: {
models: [
{ provider: "openai", model: "gpt-5.2", capabilities: ["image"] },
{
provider: "google",
model: "gemini-3-flash-preview",
capabilities: ["image", "audio", "video"],
},
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
capabilities: ["image", "video"],
},
],
audio: {
attachments: { mode: "all", maxAttachments: 2 },
},
video: {
maxChars: 500,
},
},
},
}
```
### 2) 仅音频 + 视频(图片关闭)
```json5
{
tools: {
media: {
audio: {
enabled: true,
models: [
{ provider: "openai", model: "gpt-4o-mini-transcribe" },
{
type: "cli",
command: "whisper",
args: ["--model", "base", "{{MediaPath}}"],
},
],
},
video: {
enabled: true,
maxChars: 500,
models: [
{ provider: "google", model: "gemini-3-flash-preview" },
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
},
],
},
},
},
}
```
### 3) 可选图片理解
```json5
{
tools: {
media: {
image: {
enabled: true,
maxBytes: 10485760,
maxChars: 500,
models: [
{ provider: "openai", model: "gpt-5.2" },
{ provider: "anthropic", model: "claude-opus-4-5" },
{
type: "cli",
command: "gemini",
args: [
"-m",
"gemini-3-flash",
"--allowed-tools",
"read_file",
"Read the media at {{MediaPath}} and describe it in <= {{MaxChars}} characters.",
],
},
],
},
},
},
}
```
### 4) 多模态单条目(显式能力)
```json5
{
tools: {
media: {
image: {
models: [
{
provider: "google",
model: "gemini-3-pro-preview",
capabilities: ["image", "video", "audio"],
},
],
},
audio: {
models: [
{
provider: "google",
model: "gemini-3-pro-preview",
capabilities: ["image", "video", "audio"],
},
],
},
video: {
models: [
{
provider: "google",
model: "gemini-3-pro-preview",
capabilities: ["image", "video", "audio"],
},
],
},
},
},
}
```
## 状态输出
当媒体理解运行时,`/status` 包含一行简短摘要:
```
📎 Media: image ok (openai/gpt-5.2) · audio skipped (maxBytes)
```
这显示了每个能力的结果以及适用时选择的提供商/模型。
## 注意事项
- 理解是**尽力而为**的。错误不会阻塞回复。
- 即使理解功能禁用,附件仍会传递给模型。
- 使用 `scope` 限制理解功能的运行范围(例如仅私聊)。
## 相关文档
- [配置](/gateway/configuration)
- [图片与媒体支持](/nodes/images)

97
docs/zh-CN/nodes/talk.md Normal file
View File

@@ -0,0 +1,97 @@
---
read_when:
- 在 macOS/iOS/Android 上实现对话模式
- 更改语音/TTS/打断行为
summary: 对话模式:使用 ElevenLabs TTS 进行连续语音对话
title: 对话模式
x-i18n:
generated_at: "2026-02-01T21:18:51Z"
model: claude-opus-4-5
provider: pi
source_hash: ecbc3701c9e9502970cf13227fedbc9714d13668d8f4f3988fef2a4d68116a42
source_path: nodes/talk.md
workflow: 15
---
# 对话模式
对话模式是一个连续的语音对话循环:
1. 监听语音
2. 将转录文本发送给模型主会话chat.send
3. 等待响应
4. 通过 ElevenLabs 朗读(流式播放)
## 行为macOS
- 启用对话模式时显示**常驻悬浮窗**。
- **监听 → 思考 → 朗读**阶段切换。
- **短暂停顿**(静音窗口)后,当前转录文本会被发送。
- 回复会**写入 WebChat**(与打字相同)。
- **语音打断**(默认开启):如果用户在助手朗读时开始说话,会停止播放并记录打断时间戳用于下一次提示。
## 回复中的语音指令
助手可以在回复前添加**单行 JSON** 来控制语音:
```json
{ "voice": "<voice-id>", "once": true }
```
规则:
- 仅限第一个非空行。
- 未知键会被忽略。
- `once: true` 仅应用于当前回复。
- 不带 `once` 时,该语音将成为对话模式的新默认语音。
- JSON 行在 TTS 播放前会被移除。
支持的键:
- `voice` / `voice_id` / `voiceId`
- `model` / `model_id` / `modelId`
- `speed``rate`WPM`stability``similarity``style``speakerBoost`
- `seed``normalize``lang``output_format``latency_tier`
- `once`
## 配置(`~/.openclaw/openclaw.json`
```json5
{
talk: {
voiceId: "elevenlabs_voice_id",
modelId: "eleven_v3",
outputFormat: "mp3_44100_128",
apiKey: "elevenlabs_api_key",
interruptOnSpeech: true,
},
}
```
默认值:
- `interruptOnSpeech`true
- `voiceId`:回退到 `ELEVENLABS_VOICE_ID` / `SAG_VOICE_ID`(或在 API 密钥可用时使用第一个 ElevenLabs 语音)
- `modelId`:未设置时默认为 `eleven_v3`
- `apiKey`:回退到 `ELEVENLABS_API_KEY`(或 Gateway shell 配置文件,如可用)
- `outputFormat`macOS/iOS 默认为 `pcm_44100`Android 默认为 `pcm_24000`(设置 `mp3_*` 以强制 MP3 流式传输)
## macOS UI
- 菜单栏切换:**Talk**
- 配置标签页:**Talk Mode** 组(语音 ID + 打断开关)
- 悬浮窗:
- **监听中**:云朵随麦克风音量脉动
- **思考中**:下沉动画
- **朗读中**:辐射圆环
- 点击云朵:停止朗读
- 点击 X退出对话模式
## 注意事项
- 需要语音识别 + 麦克风权限。
- 使用 `chat.send` 对会话键 `main` 发送。
- TTS 使用 ElevenLabs 流式 API配合 `ELEVENLABS_API_KEY`,在 macOS/iOS/Android 上进行增量播放以降低延迟。
- `eleven_v3``stability` 验证值为 `0.0``0.5``1.0`;其他模型接受 `0..1`
- `latency_tier` 设置时验证值为 `0..4`
- Android 支持 `pcm_16000``pcm_22050``pcm_24000``pcm_44100` 输出格式,用于低延迟 AudioTrack 流式传输。

View File

@@ -0,0 +1,72 @@
---
read_when:
- 更改语音唤醒词行为或默认值
- 添加需要唤醒词同步的新节点平台
summary: 全局语音唤醒词Gateway 拥有)及其在节点间的同步方式
title: 语音唤醒
x-i18n:
generated_at: "2026-02-01T21:19:01Z"
model: claude-opus-4-5
provider: pi
source_hash: eb34f52dfcdc3fc1ae088ae1f621f245546d3cf388299fbeea62face61788c37
source_path: nodes/voicewake.md
workflow: 15
---
# 语音唤醒(全局唤醒词)
OpenClaw 将**唤醒词视为由 Gateway 拥有的单一全局列表**。
- **没有按节点自定义的唤醒词**。
- **任何节点/应用界面均可编辑**该列表;更改由 Gateway 持久化并广播给所有人。
- 每个设备仍保留自己的**语音唤醒 启用/禁用**开关(本地用户体验和权限各异)。
## 存储Gateway 主机)
唤醒词存储在 Gateway 机器上:
- `~/.openclaw/settings/voicewake.json`
结构:
```json
{ "triggers": ["openclaw", "claude", "computer"], "updatedAtMs": 1730000000000 }
```
## 协议
### 方法
- `voicewake.get``{ triggers: string[] }`
- `voicewake.set`,参数 `{ triggers: string[] }``{ triggers: string[] }`
说明:
- 触发词会被规范化(去除空白、丢弃空值)。空列表会回退到默认值。
- 出于安全考虑,会强制执行限制(数量/长度上限)。
### 事件
- `voicewake.changed` 载荷 `{ triggers: string[] }`
接收方:
- 所有 WebSocket 客户端macOS 应用、WebChat 等)
- 所有已连接的节点iOS/Android节点连接时也会作为初始"当前状态"推送。
## 客户端行为
### macOS 应用
- 使用全局列表来控制 `VoiceWakeRuntime` 触发词。
- 在语音唤醒设置中编辑"触发词"会调用 `voicewake.set`,然后依赖广播保持其他客户端同步。
### iOS 节点
- 使用全局列表进行 `VoiceWakeManager` 触发词检测。
- 在设置中编辑唤醒词会调用 `voicewake.set`(通过 Gateway WS同时保持本地唤醒词检测的即时响应。
### Android 节点
- 在设置中提供唤醒词编辑器。
- 通过 Gateway WS 调用 `voicewake.set`,使编辑在所有设备间同步。