Smart browser task agent - describe what you want done in natural language and it completes automatically. PREFERRED tool for multi-step browser operations like searching, form filling, and data extraction.
推荐优先使用 - 这是浏览器操作的首选工具。
基于 browser-use 开源项目实现。
browser_task(
task="要完成的任务描述",
max_steps=15 # 可选,默认 15
)
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| task | string | 是 | 任务描述,用自然语言描述你想完成的操作 |
| max_steps | integer | 否 | 最大执行步骤数,默认 15 |
browser_task(task="打开百度搜索福建福州天气")
browser_task(task="打开 example.com 的注册页面,填写用户名 test123")
browser_task(task="打开 GitHub 首页,获取今日热门项目的名称")
browser_task(task="打开百度搜索福建福州,截图保存")
系统提供多条路径操作网站和浏览器,按场景选择最可靠的方案:
| 场景 | 推荐工具 | 说明 |
|---|---|---|
| 目标网站有 opencli adapter | opencli_run(最可靠) | 确定性命令 + JSON 输出,复用 Chrome 登录态 |
| 需要登录但无 adapter | browser_task → 手动组合 | 先尝试 browser_task,失败则用 click/type 手动操作 |
| 仅需读取网页内容 | web_fetch | 最快最省资源,无需浏览器 |
| 仅需搜索 | web_search | DuckDuckGo 直接搜索 |
| 复杂多步浏览器交互 | browser_task | 适合登录、填表、筛选等 |
| 单步浏览器操作 | browser_navigate/browser_click 等 | 精确控制单个操作 |
| 操作用户已登录的 Chrome | call_mcp_tool("chrome-devtools", ...) | 需用户 Chrome 开启调试端口 |
决策顺序:opencli_run(有 adapter 时)→ web_fetch/web_search(只读时)→ browser_task → 手动 browser_click/type 组合 → chrome-devtools MCP。
仅在以下情况使用 browser_navigate、browser_click 等细粒度工具:
browser_task 执行失败需要手动介入browser_screenshot){
"success": true,
"result": {
"task": "打开百度搜索福建福州",
"steps_taken": 5,
"final_result": "搜索完成,已显示福建福州相关结果",
"message": "任务完成: 打开百度搜索福建福州"
}
}
如果想让 OpenAkita 操作你已打开的 Chrome 页面,需要以调试模式启动 Chrome:
Windows:
"C:\Program Files\Google\Chrome\Application\chrome.exe" --remote-debugging-port=9222
macOS:
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --remote-debugging-port=9222
Linux:
google-chrome --remote-debugging-port=9222
启动后,OpenAkita 会自动检测并连接,可以操作你已打开的标签页。
browser_screenshot - 单独截图browser_navigate - 单独导航deliver_artifacts - 发送结果给用户