文章

GitHub一周热点第115期

桌面AI超级助理、编程Agent知识图谱、隐身Chromium、软件CLI化工具和实时流式3D重建模型

GitHub一周热点第115期

视频

本期视频链接

「Github一周热点115期」桌面AI超级助理、编程Agent的知识图谱、隐身的Chromium、把任何软件变成CLI工具、以及实时流式3D重建模型

GitHub一周热点第115期(2026/5/17 - 2026/5/23),本期内容包括 桌面AI超级助理、编程Agent的知识图谱、隐身的Chromium、把任何软件变成CLI工具、以及实时流式3D重建模型。

最后还有2份资料分享。如果觉得内容不错,别忘了点赞关注支持一下。

1. OpenHuman

  • 项目名称:OpenHuman – 桌面AI超级助理
  • 链接:https://github.com/tinyhumansai/openhuman

OpenHuman 是一个开源智能助手,这半年涌现好多现象级的agent工具,尤其是OpenClaw、Hermes 最为知名,OpenHuman在功能上和他们是类似的,但是不同的是它主打本地化与持久记忆。

它整体看来最有特色的是2点,第一个是OpenHuman 希望让 AI 主动来了解我们。整个项目的核心链路,可以拆成三步来理解,就是连接、抓取、记忆

项目支持了超过118种的第三方集成 和 自动拉取,这里应该是使用composio的工具,在前几期我也介绍过,可以每 20 分钟遍历每个活跃连接并将新数据拉入记忆树中。

第二个是 Memory Tree 加 Obsidian Wiki 双轨制,这套机制来自 AI 大神 Andrej Karpathy 分享过的 Obsidian Wiki 工作流,思路还是很精华的。

安装还算比较简单,macOS/Linux一行curl命令搞定,Windows也有PowerShell脚本,也支持本地模型。但是目前整体的设计还是希望引导去用它的云上AI,所以虽然支持本地AI和自定义,但是挺麻烦的。

最后项目还提出了一个TokenJuice压缩层,来降低Token 开销,官方数据说能把成本和延迟压低最多 80%。

项目里也给出了和其他agent的对比,但是我觉得一个很重要的问题是:迁移,比如我熟悉了一个工具就不想切换,所以想要促进用户来使用应该学习hermes,提供自动化的迁移工具。总之项目的思路还是很值得去学习和了解的。

2. CodeGraph

项目名称:CodeGraph – 编程Agent的知识引擎

GitHub链接:https://github.com/colbymchenry/codegraph

如果你用过Claude Code或者Cursor写大项目,肯定遇到过这个问题:Agent每次都要用grep/glob到处翻文件找代码,一顿凶猛的操作的背后是token在燃烧。CodeGraph就是来解决这个痛点的——它给你的代码仓库预先建一个知识图谱,Agent直接查图谱就行了,不用再满文件乱找。

官方给的数据:平均可以便宜35%、token少59%、更快49%、减少70%的工具调用。在VS Code这种10k+文件的大仓库上效果尤其明显,Token消耗直接降到原来的四分之一左右。

使用也很简单,一条命令安装,codegraph init -i初始化项目就行,支持Claude Code、Cursor、Codex CLI、OpenCode、Hermes Agent等主流编程Agent。支持19+种编程语言,还有框架级路由识别,Django、Flask、Spring、Express这些都能识别URL到handler的映射关系。

100%本地运行,数据不上传,也没有外部API调用。对隐私敏感的开发者来说是好消息。

3. CloakBrowser

项目名称:CloakBrowser – 隐身Chromium

GitHub链接:https://github.com/CloakHQ/CloakBrowser

CloakBrowser是一个隐身版Chromium浏览器,通过了30个反爬检测网站的测试,reCAPTCHA v3评分0.9(人类水平),Cloudflare Turnstile也可以直接通过。

市面上常见的方案比如playwright-stealth、undetected-chromedriver,都是JS注入或配置层面的patch,Chrome一更新就容易失效。CloakBrowser的做法更硬核——它直接修改Chromium的C++源码,58个补丁覆盖canvas、WebGL、音频、字体、GPU、屏幕、WebRTC等指纹信息,编译成真正的二进制文件。反爬系统看到的确实就是一个正常浏览器,因为它的确就是。

对做自动化测试、数据采集、AI Agent浏览器操作的朋友来说,这个项目绝对值得关注。

4. CLI-Anything

项目名称:CLI-Anything – 把任何软件变成AI可用的CLI

GitHub链接:https://github.com/HKUDS/CLI-Anything

最近一段时间CLI的热度不断上升,这周我也出视频介绍了飞书cli,这个项目来自港大HKUDS实验室,它的想法是把所有GUI软件变成AI Agent能用的命令行工具

原理其实不难理解——AI Agent通过命令行(CLI)来操控软件,效率远高于截图+点击GUI的方式。CLI-Anything会分析你的软件源码或GitHub仓库,自动生成一个JSON-first的命令行接口,然后AI Agent就能直接通过终端命令来使用这个软件了。

目前社区已经贡献了18+个应用的CLI适配,包括Blender、GIMP、LibreOffice、Zoom、Kdenlive这些桌面软件,甚至还有Godot游戏引擎。还有一个CLI-Hub包管理器,pip install cli-anything-hub之后就可以一键浏览安装所有社区构建的CLI。

支持Claude Code、Cursor、Codex、OpenClaw等主流AI编程平台。测试覆盖2269+个用例,质量还不错。

说实话这个项目的野心很大,如果真能做到让AI Agent通过CLI直接操控任何软件,那对整个Agent生态都是巨大的推动。不过目前每个软件的CLI都需要人手动适配和贡献,覆盖面还是一个挑战。

5. LingBot-Map

项目名称:LingBot-Map – 流式3D重建基础模型

GitHub链接:https://github.com/Robbyant/lingbot-map

LingBot-Map是一个基于几何上下文 Transformer的纯自回归的流式 3D 重建基础模型,可以从流式视频数据中实时重建3D场景。蚂蚁灵波一口气开源了 4 款大模型,LingBot-Depth、LingBot-VLA、LingBot-VA和LingBot-World覆盖感知底层、环境理解和行动输出,但中间一直缺少一个关键环节,就是如何把连续的感知数据实时构建成稳定的三维空间模型,LingBot-Map就填补了这个空缺。

简单来说,你拿着手机拍一段视频,它能一边拍一边实时重建出3D场景,速度可以达到约20FPS。支持超长序列——他们放出了一个25000帧、13分钟室内走动的演示视频,效果非常震撼。

支持室内外场景,Apache 2.0开源许可。模型在HuggingFace和ModelScope上都能下载。

如果你对3D视觉、SLAM或者自动驾驶感知感兴趣,这个项目值得深入研究。

one more thing

最后还是分享2个资料。

第一份是《重构与崛起:OpenClaw时代的中国Agent产业生态报告》主要围绕OpenClaw引发的Agent产业变革展开,分析了中国AI Agent生态在协议、模型、平台与商业模式上的重构过程。报告重点讨论了Skill经济、Agent基础设施、企业级治理、安全与部署,以及飞书CLI、MemOS等新生态方向。

第二份是《2025年人形机器人市场研究报告》它系统梳理了全球与中国人形机器人产业的发展现状、市场格局与未来趋势。报告重点分析了宇树、优必选、Figure AI等企业的发展路径,以及工业制造、物流、医疗、家庭服务等核心场景的商业化进展。

有需要的可以告诉我,以上就是本周的全部内容,那我们下次再见。

ARR (All Rights Reserved)