在CES 2025主题演讲中,NVIDIA(英伟达)创始人兼CEO黄仁勋宣布推出了一款名为Cosmos的世界基础模型平台。该平台旨在解决通用机器人和自动驾驶领域面临的关键挑战——训练数据的获取难题。
Cosmos平台集成了先进的生成式世界基础模型(WFM)、高级视频tokenizer、安全护栏以及加速视频处理流水线,并针对NVIDIA的数据中心GPU进行了优化。这些功能将极大地推动自动驾驶汽车、机器人等物理AI系统的发展。
物理AI模型的开发成本高昂,需要大量的真实数据和测试。Cosmos通过生成大量基于物理学的逼真合成数据,帮助开发者轻松训练和评估现有模型。此外,开发者还可以通过微调Cosmos模型来构建自定义模型,以满足特定需求。
首批使用Cosmos平台的企业包括1X、思灵机器人(Agile Robots)、Agility、Figure AI、Foretellix、傅利叶(Fourier)、银河通用(Galbot)、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi和小鹏汽车等全球领先的物理AI企业,涵盖机器人、自动驾驶和共享出行等多个领域。
Cosmos模型将以开放模型许可证的方式提供,首批模型共有8款,参数量从40亿到140亿不等。用户可以通过Hugging Face或NVIDIA NGC目录下载整个系列的模型和微调框架。未来,这些模型还将以全面优化的NVIDIA NIM微服务形式提供。
开发者可以利用NVIDIA NeMo Curator加速视频处理,并使用NVIDIA NeMo定制自己的世界模型,借助NVIDIA DGX Cloud快速部署这些模型,同时获得NVIDIA AI Enterprise软件平台提供的企业级支持。
黄仁勋表示:“机器人技术的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础。”他强调,Cosmos的目的是普及物理AI,让每一位开发者都能接触到通用机器人技术。
Cosmos模型专为物理AI研发而设计,是一套开放扩散和自回归Transformer模型,能够实现基于物理学的交互、物体恒存性,并生成高质量的仿真工业环境和驾驶环境。这些模型接受了来自2000万小时的真实世界人类交互、环境、工业、机器人和自动驾驶数据的训练,可以根据文本、图像和视频等输入组合生成基于物理学的视频。
构建物理AI模型需要处理数PB的视频数据和数万小时的计算,这对数据整理、训练和模型定制提出了巨大挑战。Cosmos提供了以下功能,帮助开发者节省时间和成本:
- NVIDIA NeMo Curator驱动的加速数据处理管线:使开发者能够在14天内处理、整理和标记2000万小时的视频,而仅用cpu则需3年以上。
- NVIDIA Cosmos Tokenizer:一种先进的可视化tokenizer,可将图像和视频转换成token,总压缩率提高了8倍,处理速度提高了12倍。
- NVIDIA NeMo框架:用于高效的模型训练、定制和优化。
为了确保数据隐私和安全,Cosmos遵循NVIDIA的可信AI原则,优先考虑隐私、安全、保障、透明和减少偏见。平台加入了专为减少有害文字和图像而设计的护栏,并提供增强文字提示准确性的工具。生成的视频带有隐形水印,有助于识别AI生成的内容,减少错误信息和错误归属的可能性。
许多物理AI行业的领先者已开始使用Cosmos技术。例如,AI人形机器人公司1X使用Cosmos Tokenizer推出了1X World Model Challenge数据集;Hillbot和Skild AI正在使用Cosmos加速其通用机器人的开发;小鹏汽车也将使用Cosmos加快其人形机器人的开发。
Agility首席技术官Pras Velagapudi指出:“数据的稀缺性和可变性是在机器人环境中成功学习的主要挑战。借助Cosmos的文本、图像和视频到世界的能力,我们能够在各种任务中生成和增强逼真的场景,并利用这些场景训练模型,而不需要采集昂贵的真实数据。”
在交通运输领域,一些领先企业也在使用Cosmos构建适用于自动驾驶汽车的物理AI。Waabi正在评估Cosmos在自动驾驶汽车软件开发和仿真中的应用;Wayve也在评估使用Cosmos搜索极端驾驶场景以提高安全性和验证;Foretellix将使用Cosmos与NVIDIA Omniverse Sensor RTX API大规模评估和生成高保真测试场景与训练数据。
全球共享出行巨头Uber正与NVIDIA合作,共同加速自动驾驶汽车的发展。Uber丰富的驾驶数据集结合Cosmos平台和NVIDIA DGX Cloud的功能,能帮助合作伙伴更高效地构建强大的AI模型。Uber首席执行官Dara Khosrowshahi认为,在NVIDIA的助力下,团队能够更快开发出安全、可扩展的自动驾驶解决方案。
机器人、自动驾驶等物理AI的开发离不开大量真实数据。Cosmos平台的出现恰逢其时,通过生成高仿真虚拟世界状态的世界基础模型,为开发者们提供了教AI理解物理世界的关键工具。这不仅是NVIDIA未来AI雄心的展现,也是让AI具备更强通用智能的重要一步。通过Cosmos和Omniverse平台组合,生成逼真合成数据变得更加轻而易举,从而加速物理AI的构建与应用。
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
近期热点