给 AI 智能体一个真实的 LLM 训练环境,让它整夜自主实验。 修改代码、训练5分钟、检验结果、保留或丢弃,循环往复。 早晨醒来,你将得到一份完整的实验日志和一个更好的模型。
你不再直接修改 Python 文件,而是编写 program.md——一份给 AI 智能体的指令文档,构建你的自主研究组织。
编写 program.md,定义研究目标、约束条件和探索方向。这是你与 AI 研究员沟通的唯一接口。
AI 智能体读取指令,自主修改 train.py——架构、超参数、优化器、批大小,一切皆可调整。
每次实验精确运行5分钟(挂钟时间),确保跨实验可比性。每小时约12次实验,整夜约100次。
以 val_bpb(验证集比特/字节)为指标,越低越好。智能体自动判断是否保留变更,继续下一轮迭代。
解析研究指令与约束
调整架构/超参/优化器
固定时间预算,公平比较
保留改善 / 丢弃退步
极简主义设计哲学——只有三个核心文件,一个指标,一块 GPU。
智能体只修改 train.py,保持变更范围可控、差异可审查,避免失控的代码扩散。
无论模型大小、批大小如何变化,训练始终精确运行5分钟。实验结果直接可比,无需额外归一化。
公平比较自动为你的具体硬件找到最优模型配置。在 H100 上的最优解与在 RTX 4090 上的不同——这正是设计意图。
硬件感知基于 nanochat 的简化单 GPU 实现,包含完整 GPT 模型、Muon + AdamW 优化器和训练循环。不是玩具,是真实研究。
生产级通过编写 program.md 来"编程"你的研究组织。随时间迭代,找到最快的研究进展路径。
除 PyTorch 和少量小型包外无其他依赖。无分布式训练,无复杂配置。一块 GPU,一个文件,一个指标。
极简刻意保持极简。每个文件都有明确的职责边界。
固定常量、一次性数据准备(下载训练数据、训练 BPE 分词器)和运行时工具(数据加载器、评估)。
智能体唯一可编辑的文件。包含完整 GPT 模型、Muon + AdamW 优化器和训练循环。架构、超参、优化器——一切皆可调。
单个智能体的基线指令。将你的智能体指向这里,让它自主运行。这是人类与 AI 研究员之间的唯一接口。
需要:单块 NVIDIA GPU(已在 H100 上测试)、Python 3.10+、uv 包管理器。
如果尚未安装 uv,运行以下命令:
克隆仓库并同步所有依赖:
下载训练数据并训练 BPE 分词器,约需 2 分钟:
先手动运行一次训练实验(约5分钟),确认环境正常:
在仓库目录中启动你的 Claude / Codex 或其他 AI 智能体(禁用所有权限),然后发送以下提示词:
💡 program.md 本质上是一个超轻量级的"技能"文件,你可以随时迭代优化它。
曾几何时,前沿 AI 研究由肉体计算机在吃饭、睡觉、娱乐的间隙完成,偶尔通过声波互联的"组会"仪式同步进展。那个时代已经过去。研究现在完全属于自主 AI 智能体群的领域,它们在天空中的计算集群巨构上运行。这个仓库,是一切开始的故事。
社区已为各种平台创建了适配分支。选择适合你硬件的版本。
macOS 适配版本,支持 Apple Silicon
基于 Apple MLX 框架的 macOS 版本
Windows + NVIDIA RTX 显卡适配
AMD GPU 适配版本
睡前启动,早晨醒来查看100次实验的结果。