
Image by Xavi Cabrera, from Unsplash
LegoGPT:AI将文字提示转化为乐高创作
卡内基梅隆大学的研究人员推出了LegoGPT,这是一个新的人工智能系统,可以根据书面描述构建真实世界的乐高作品。
赶时间?以下是关键信息:
- 利用对物理学敏感的回滚功能,确保物理稳定性。
- 在47,000个稳定的乐高结构和GPT-4o标题上进行训练。
- 仅在20×20×20的空间内使用8种类型的砖块。
这是首个不仅能根据文本提示——如“流线型、细长的船体”——进行工作,还能确保生成的结构物理稳定并能一砖一瓦地建造起来的人工智能。
“为了实现这一目标,我们构建了一个大规模、物理稳定的乐高设计数据集,以及与之相关的描述,”该团队在他们的研究论文中解释道。
LegoGPT通过使用超过47,000个稳定的乐高模型进行训练,这些模型都配有由GPT-4o生成的详细描述。这些模型是由3D形状构建成的乐高结构,然后使用物理模拟对其在现实世界中的稳定性进行测试。
每个结构也从24个角度进行了描述,以便AI能够学习各种设计应该如何用文字来描述。
该团队使用了一种特殊的技术,称为“物理感知回溯”,在这种方法中,设计中不稳定的部分会被移除并重构,直到整个结构能够自持。这种方法使得建造成功率从24%提高到了98.8%。
这款AI模型基于Meta的LLaMA-3.2-Instruct,能预测下一个应放置的乐高积木块——这与ChatGPT预测下一个词语的方式类似。每个建议的积木块在被添加到模型之前,都会进行位置、大小和潜在碰撞的检查。
LegoGPT的作品既可以由人类制作,也可以由机器人构建。研究人员写道:“我们的实验显示,LegoGPT可以根据输入文本提示,产生稳定的、多样的、美观的乐高设计。”
目前,LegoGPT只使用八种基础积木类型,并在20×20×20的空间内工作,但团队希望能够扩大这个范围。
他们的完整数据集、代码和模型都可以在这里免费获取,所以其他人可以继续在这项研究上做出建设。或者,你也可以直接在他们的演示版上玩玩看。