刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!

关注
微调大模型不再是少数人的专利!Thinking Machines Lab推出首款产品「Tinker」,一个专为语言模型微调而生的API。它让开发者能彻底摆脱底层架构的束缚,仅用简单的Python代码便可专注于算法与数据创新。

编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:定慧 好困,创业邦经授权转载。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

Thinking Machines Lab终于首发第一款产品,Tinker!

不是模型、也不是APP,而是一个专为语言模型微调而生的API。

翻译过来就是,Tinker可以让几乎所有人,都能轻松地微调出属于自己的模型!

图片

图片

对于广大研究者和开发者而言,Tinker的诞生就是为了解决一个核心痛点:

当我们想要在SOTA模型上进行实验和定制时,往往会被复杂的分布式训练基础设施搞得焦头烂额。

而Tinker的解决方案是,你只管专注于算法和数据,他们来处理所有棘手的后台工作。

不仅如此,从一个小模型切换到一个庞然大物,操作竟简单到只需在你的Python代码中更改一个字符串。

OpenAI前CTO搞的这款产品,确实还是有点东西的。

图片

正如CEO Murati所说:「Tinker为研究人员带来了前沿工具,为编写实验和训练流水线提供了清晰的抽象接口,同时处理了分布式训练的复杂性。它为创新研究、定制模型和构建可靠的性能基准提供了可能。」

对此,大佬卡帕西也在第一时间发推盛赞,认为Tinker会改变过去模型微调的范式:

这意味着即使是像你我这样的普通用户,也能介入模型层面,而不仅仅停留在输入层面,修改few-shot!

图片

上下滑动查看

与更常见的「上传你的数据,我们对你的LLM进行后训练」的现有范式相比,卡帕西认为Tinker是一个更巧妙地将后训练复杂性「切分」的方式。

卡帕西认为微调是更好的后训练范式。

few-shot提示(就是把很多示例都塞到prompt里)在上下文长度、提示设计、推理开销上有很多限制。

但微调一个较小模型,把它训练成做一类专门任务的模型,在很多场景下可以取得更好或者更稳定的表现,并且推理速度更快、资源消耗更低。

理论上来说,Thinking Machines Lab的首款产品,不仅是针对开源模型,而且更是给所有人下放了「权力」!

比如过去模型是开源了,但是大参数的模型,比如671B的DeepSeek,没有卡无法推理;

小模型比如2B、7B的模型,初始性能又不好用。

Tinker出现后,我们都有了能力按照自己的需求和想法,可以用自己的数据来微调一个专门模型啦!

人人都可「微调」模型

Tinker只需要用非常简单的Python代码即可完成「想法表达」。

作为一个运行在Thinking Machines Lab内部集群和训练基础设施上的托管服务,它为你包办了任务调度、资源分配和故障恢复等所有繁琐事务。

用户则无需担心基础设施的管理,可以立即启动或大或小的计算任务。

Tinker的核心功能包括:

  • 提供如forward_backward和sample等Python原生操作,让用户能构建自定义的微调或强化学习(RL)算法。

  • 支持从小到大的各类开放权重模型,包括像Qwen-235B-A22B这样的专家混合(Mixture-of-Experts)架构。

  • 集成了基于LoRA的微调方法,允许多个训练任务共享计算资源池,从而优化成本效益。

  • 提供一个名为Tinker Cookbook的开源配套库,其中包含了多种后训练方法的实现。

图片

Thinking Machines Lab采用了LoRA技术,从而能够在多个训练任务间共享同一个计算资源池,以降低成本。

图片

Tinker API提供了如forward_backward和sample这样的底层操作原语,可用于实现大多数常见的后训练方法。

通过Tinker,可以微调各种规模的开放权重模型,包括像Qwen-235B-A22B这样的大型专家混合模型。

从小模型切换到大模型,仅需修改Python代码中的一个字符串即可,操作非常简单。

Tinker目前支持Qwen系列和Llama系列的模型。

图片

尽管能够直接微调模型,要取得理想成果,仍需将众多细节处理到位。

因此,他们发布了一个名为Tinker Cookbook的开源库,其中包含了基于Tinker API运行的、实现了各种先进后训练方法的代码。

图片

目前,Tinker处于免费私测阶段,未来几周内将推出基于使用量的定价模型。

想要使用Tinker,需要申请加入用户白名单,申请地址:https://form.typeform.com/to/jH2xNWIg

图片

以开发者为中心的训练API

Tinker并非又一个拖拽式界面或黑箱微调服务。

图片

相反,它提供了一个底层但用户友好的API,让研究人员能够通过标准的Python代码,对损失函数、训练循环和数据工作流进行精细控制。

图片

实际的训练工作负载运行在Thinking Machines的托管基础设施上,从而实现了快速的分布式执行,并免去了管理GPU集群带来的种种麻烦。

加州大学伯克利分校计算机科学博士生Tyler Griggs在测试该API后写道:许多强化学习微调服务都面向企业,不允许用户替换训练逻辑。

而有了Tinker,你可以完全不用操心计算资源,只需专注于「摆弄」环境、算法和数据。

图片

上下滑动查看

普林斯顿、斯坦福已率先用上了

在公开发布前,Tinker已在多家研究实验室投入使用。

早期采用者包括来自伯克利、普林斯顿、斯坦福以及Redwood Research的团队,他们各自将该API应用于独特的模型训练问题:

  • 普林斯顿的Goedel团队使用Tinker和LoRA微调用于形式化定理证明的大语言模型,仅用20%的数据便达到了与Goedel-Prover V2等全参数监督式微调(SFT)模型相当的性能。他们在Tinker上训练的模型,在MiniF2F基准测试中实现了88.1%的pass@32成功率,通过自我纠正后更是达到90.4%,超越了规模更大的闭源模型。

  • 斯坦福大学的Rotskoff实验室使用Tinker训练化学推理模型。在LLaMA 70B模型基础上进行强化学习后,从IUPAC命名转换为化学式的准确率从15%跃升至50%。研究人员称,如果没有强大的基础设施支持,这种幅度的提升在过去是无法想象的。

  • 伯克利的SkyRL团队运行了自定义的多智能体强化学习循环,其中涉及异步的离策略(off-policy)训练和多轮工具使用——而Tinker的灵活性让这一切成为可能。

  • Redwood Research使用Tinker在长上下文AI控制任务上对Qwen3-32B模型进行强化学习训练。研究员Eric Gan表示,如果没有Tinker,他很可能不会启动这个项目,并指出扩展多节点训练一直是一大障碍。

这些案例充分展示了Tinker的多功能性——无论是经典的监督式微调,还是覆盖截然不同领域的高度实验性强化学习流水线,它都能提供支持。

参考资料:

https://thinkingmachines.ai/blog/announcing-tinker/

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅