GitHub一周热点第115期

桌面AI超级助理、编程Agent知识图谱、隐身Chromium、软件CLI化工具和实时流式3D重建模型

发表于 2026/05/23

作者 IT咖啡馆

11 分钟阅读

GitHub一周热点第115期

视频

本期视频链接

「Github一周热点115期」桌面AI超级助理、编程Agent的知识图谱、隐身的Chromium、把任何软件变成CLI工具、以及实时流式3D重建模型

GitHub一周热点第115期（2026/5/17 - 2026/5/23），本期内容包括桌面AI超级助理、编程Agent的知识图谱、隐身的Chromium、把任何软件变成CLI工具、以及实时流式3D重建模型。

最后还有2份资料分享。如果觉得内容不错，别忘了点赞关注支持一下。

1. OpenHuman

项目名称：OpenHuman – 桌面AI超级助理
链接：https://github.com/tinyhumansai/openhuman

OpenHuman 是一个开源智能助手，这半年涌现好多现象级的agent工具，尤其是OpenClaw、Hermes 最为知名，OpenHuman在功能上和他们是类似的，但是不同的是它主打本地化与持久记忆。

它整体看来最有特色的是2点，第一个是OpenHuman 希望让 AI 主动来了解我们。整个项目的核心链路，可以拆成三步来理解，就是连接、抓取、记忆。

项目支持了超过118种的第三方集成和自动拉取，这里应该是使用composio的工具，在前几期我也介绍过，可以每 20 分钟遍历每个活跃连接并将新数据拉入记忆树中。

第二个是 Memory Tree 加 Obsidian Wiki 双轨制，这套机制来自 AI 大神 Andrej Karpathy 分享过的 Obsidian Wiki 工作流，思路还是很精华的。

安装还算比较简单，macOS/Linux一行curl命令搞定，Windows也有PowerShell脚本，也支持本地模型。但是目前整体的设计还是希望引导去用它的云上AI，所以虽然支持本地AI和自定义，但是挺麻烦的。

最后项目还提出了一个TokenJuice压缩层，来降低Token 开销，官方数据说能把成本和延迟压低最多 80%。

项目里也给出了和其他agent的对比，但是我觉得一个很重要的问题是：迁移，比如我熟悉了一个工具就不想切换，所以想要促进用户来使用应该学习hermes，提供自动化的迁移工具。总之项目的思路还是很值得去学习和了解的。

2. CodeGraph

项目名称：CodeGraph – 编程Agent的知识引擎

GitHub链接：https://github.com/colbymchenry/codegraph

如果你用过Claude Code或者Cursor写大项目，肯定遇到过这个问题：Agent每次都要用grep/glob到处翻文件找代码，一顿凶猛的操作的背后是token在燃烧。CodeGraph就是来解决这个痛点的——它给你的代码仓库预先建一个知识图谱，Agent直接查图谱就行了，不用再满文件乱找。

官方给的数据：平均可以便宜35%、token少59%、更快49%、减少70%的工具调用。在VS Code这种10k+文件的大仓库上效果尤其明显，Token消耗直接降到原来的四分之一左右。

使用也很简单，一条命令安装，codegraph init -i初始化项目就行，支持Claude Code、Cursor、Codex CLI、OpenCode、Hermes Agent等主流编程Agent。支持19+种编程语言，还有框架级路由识别，Django、Flask、Spring、Express这些都能识别URL到handler的映射关系。

100%本地运行，数据不上传，也没有外部API调用。对隐私敏感的开发者来说是好消息。

3. CloakBrowser

项目名称：CloakBrowser – 隐身Chromium

GitHub链接：https://github.com/CloakHQ/CloakBrowser

CloakBrowser是一个隐身版Chromium浏览器，通过了30个反爬检测网站的测试，reCAPTCHA v3评分0.9（人类水平），Cloudflare Turnstile也可以直接通过。

市面上常见的方案比如playwright-stealth、undetected-chromedriver，都是JS注入或配置层面的patch，Chrome一更新就容易失效。CloakBrowser的做法更硬核——它直接修改Chromium的C++源码，58个补丁覆盖canvas、WebGL、音频、字体、GPU、屏幕、WebRTC等指纹信息，编译成真正的二进制文件。反爬系统看到的确实就是一个正常浏览器，因为它的确就是。

对做自动化测试、数据采集、AI Agent浏览器操作的朋友来说，这个项目绝对值得关注。

4. CLI-Anything

项目名称：CLI-Anything – 把任何软件变成AI可用的CLI

GitHub链接：https://github.com/HKUDS/CLI-Anything

最近一段时间CLI的热度不断上升，这周我也出视频介绍了飞书cli，这个项目来自港大HKUDS实验室，它的想法是把所有GUI软件变成AI Agent能用的命令行工具。

原理其实不难理解——AI Agent通过命令行（CLI）来操控软件，效率远高于截图+点击GUI的方式。CLI-Anything会分析你的软件源码或GitHub仓库，自动生成一个JSON-first的命令行接口，然后AI Agent就能直接通过终端命令来使用这个软件了。

目前社区已经贡献了18+个应用的CLI适配，包括Blender、GIMP、LibreOffice、Zoom、Kdenlive这些桌面软件，甚至还有Godot游戏引擎。还有一个CLI-Hub包管理器，pip install cli-anything-hub之后就可以一键浏览安装所有社区构建的CLI。

支持Claude Code、Cursor、Codex、OpenClaw等主流AI编程平台。测试覆盖2269+个用例，质量还不错。

说实话这个项目的野心很大，如果真能做到让AI Agent通过CLI直接操控任何软件，那对整个Agent生态都是巨大的推动。不过目前每个软件的CLI都需要人手动适配和贡献，覆盖面还是一个挑战。

5. LingBot-Map

项目名称：LingBot-Map – 流式3D重建基础模型

GitHub链接：https://github.com/Robbyant/lingbot-map

LingBot-Map是一个基于几何上下文 Transformer的纯自回归的流式 3D 重建基础模型，可以从流式视频数据中实时重建3D场景。蚂蚁灵波一口气开源了 4 款大模型，LingBot-Depth、LingBot-VLA、LingBot-VA和LingBot-World覆盖感知底层、环境理解和行动输出，但中间一直缺少一个关键环节，就是如何把连续的感知数据实时构建成稳定的三维空间模型，LingBot-Map就填补了这个空缺。

简单来说，你拿着手机拍一段视频，它能一边拍一边实时重建出3D场景，速度可以达到约20FPS。支持超长序列——他们放出了一个25000帧、13分钟室内走动的演示视频，效果非常震撼。

支持室内外场景，Apache 2.0开源许可。模型在HuggingFace和ModelScope上都能下载。

如果你对3D视觉、SLAM或者自动驾驶感知感兴趣，这个项目值得深入研究。

one more thing

最后还是分享2个资料。

第一份是《重构与崛起：OpenClaw时代的中国Agent产业生态报告》主要围绕OpenClaw引发的Agent产业变革展开，分析了中国AI Agent生态在协议、模型、平台与商业模式上的重构过程。报告重点讨论了Skill经济、Agent基础设施、企业级治理、安全与部署，以及飞书CLI、MemOS等新生态方向。

第二份是《2025年人形机器人市场研究报告》它系统梳理了全球与中国人形机器人产业的发展现状、市场格局与未来趋势。报告重点分析了宇树、优必选、Figure AI等企业的发展路径，以及工业制造、物流、医疗、家庭服务等核心场景的商业化进展。

有需要的可以告诉我，以上就是本周的全部内容，那我们下次再见。