公平的! Google向Genie 3展示:Sora之后,开设了一个最强,世界模型的新时代

公平的! Google向Genie 3展示:Sora之后,开设了一个最强,世界模型的新时代

Xin Zhiyuan编辑报告:KingHz [Xin Zhiyuan简介] Genie 3在这里!这可能是最接近“模拟世界”的AI的魔力。在祈祷中,您可以产生一个充满活力的互动世界。角色互动,溅水,记住一分钟前的细节。坦率地说:Genie 3是迈向AGI的关键一步。 Genie 3是历史上最先进的世界模型之一。本文仅允许您实时生成一个完全互动的世界,并且可以实时高度一致。这不仅是深度积累的结晶,而且是迈向AGI和体现药物的关键步骤。但是Genie 3如何建造?未来的世界模式是什么?刚才,Google DeepMind Jack Parker-Holder的研究科学家和研究总监Shlomi Fruchter在接受A16Z的采访中分享了他们的意见。这次对话提供了Genie 3的崇高愿景。主持人贾斯汀·摩尔(Justine Moore)在推特上发表了推文:“ Genie 3引起了互联网上的趋势。”他总结详细讨论的要点。 Genie3是两个深媒体项目(我看到2和Genie 2)之间合作的结果。真实的 – 时间真实时间世界模型具有许多潜在的应用程序。但是,应用并不是研究的主要驱动力。它们自然而然地从用户使用模型的过程中出现。 Genie 3最多可以包含一分钟的空间内存。物理定律是模型的“天然产品”,并随着培训数据的规模和深度而继续改善。当前,没有“最终模型”可以同时具有View 3和Genie 3的所有功能。 Genie 3:如果新AI Magic LLM的本地图像编辑函数并移动嘴巴PS说“说话和说话”,这次Genie 3中有什么新功能? textosimplely进入顶端,而精灵3可以产生一个动态的世界。用户可以通过720p的分辨率实时探索,最多24张图片。十多年来,Google DeepMind一直在调查SIMU局部环境。 Genie 3是最后一个也是最强大的“世界模型”,因为AI代理可以在无限丰富的模拟环境中训练,并且是迈向通用人工智能(AGI)的重要一步。去年,他们推出了第一个基本世界模型,Genie 1和Genie 2。此外,我们通过视频生成模型(例如我看到的2和我看到3)不断提高对物理学的直观理解。这些模型推动了全球模拟的各种能力。 Genie 3是Google的第一个世界模型,该模型支持真实的时间互动,同时改善一致性和现实主义。 Genie 3在视频生成时间,世界一致性,内容的转移,特殊记忆和其他方面创造了进步。人们还可以创建自己的游戏世界,训练加强学习者并培训机器人研究。所有这些应用程序本质上均来自中心功能。一个完美的世界可以用几句话产生。最新的小鬼矫正功能是特殊的内存。例如,角色拿起刷子绘制墙壁,移动到墙壁的另一侧进行绘画,然后返回其原始位置,并且仍然有先前刷牙的痕迹。特殊记忆是由DeepMind团队设计的故意目标,但最终效果意外是好的。即使是Genie 3的内部成员也参与了Genie 3,因此当我第一次看到前壁油漆的榜样时,我不敢相信。他们必须一次又一次地看到它,并验证确保Modelo真正生成的框架。精灵3具有很高的一致性。在整个互动过程中,建筑物左侧的树木始终是一致的,即使它们从视野中消失并消失了。 Genie2已经具有“记忆能力”。但是,当时,EXA在AI世界中推出,包括我看到的2型。埃德几天后。此外,由于Google的主要销售点是“创造新世界”,因此内存功能并没有强调。至于Genie 3,Google DeepMind在“内存”中做出了更大的决定,并清楚地获得了“改善记忆能力”作为其主要目标之一。当时建立的目标是一分钟以上的记忆,以支持“真实时间生成”并改善“分辨率”。实际上,这些目标本身是矛盾的,但是Google并没有担心。老实说,直到他们在项目结束时接近最终样本时,他们仍然感到惊讶。即使预期的结果也是如此,当完成时,它仍然非常令人兴奋。毕竟,研究项目不是100%真实的。在设计方面,还有另一个明确的地址:请勿使用“明确表达”。已经有几种方法可以通过使用NERF或剥落高斯来创建清晰的3D结构来实现一致性。这些甲基OD很好,在某些应用中效果很好。但是,他们坚持“按框架生成框架”。由于模型的概括能力以及适应多元化世界的能力,这很有用。智力似乎似乎以及其他生成模型继续发生,并且量表实际上改善了效果,这不是一个秘密,不是秘密。尽管从推理能力方面,它不如林格主义模型的推论表现好,但Genie 3具有令人惊讶的行为。例如,如果角色靠近门,则模型可以“假设”角色打开门。现在可以在一定程度上表达这种遵循人类直觉的行为。此外,语言理解正在不断改善,产生内容变得越来越现实,视觉效果变得更加自然。 Genie 2的改进是Genie 3非常明显,尤其是在“模拟实际能力”中。例如,性能物理效果:以及水模拟和光变化,都非常令人惊讶。现在,即使是非专家也达到了他们在观看后将其视为真实视频的观点。这很棒。在Genie 2时代,该模型可以大致显示一个物体的行为,但可以看出“这是不正确的,是由AI产生的。”当前的视频很难说出真相和错误,而进步确实令人惊讶。例如,在“递交差异”的问题中,模型必须了解这些运动与物理反馈不同,例如在沙子上行走,滑下,在水中游泳。 Google团队发现,从数据中,许多这些动作都“紧急”。促销开始游泳或飞溅。当他们接近水坑时,模型通常具有戴雨靴的角色。这些行动非常自然,并且与人类对现实世界的理解非常一致。这些是学到的通过模型本身,这确实使人们感到神奇。也有有趣的补偿。它还允许用户忠实地执行快速单词,同时保持世界的“身体一致性”。对于视频模型,“低概率事件”很困难,但是Genie 3仍然效果很好。就是这样。即使在现实生活中,Genie 3也可以沉浸在世界上,而不是制作诸如周围环境之类的无聊视频。 “文本的跟踪/对齐方式”也改善了精灵3,因为它经历了迁移和几个项目的知识交换,主要是在深厚的态度内(尤其是在我看到的项目中)。 ESTE的跨设备协作类型是DeepMind的优势。现在,世界模型是成为现实世界中代理商的最快方式。 Genie 3正在朝着这一目标迈出一步。那么Genie 4和Genie 5中的新功能是什么?虽然未来的重要且互动的现实主义E,总的来说,Genie 3团队总是一回事。使模型本身尽可能强大,产生更大的影响,使其他设备有机会创建应用程序。他们说,精灵3模型最终将开放。未来肯定是特别令人兴奋的,但是我们必须承认,世界模型还不是“精确模拟现实世界”。例如,我们不能将人们置于世代的世界中,永远不要让它按照您的意愿做任何事情。为了将虚拟世界的现实主义和自由带来更接近现实的现实主义和自由,还有很多工作要做。那里的应用程序。重要的是,如果人们可以精确模拟世界并将人们放在世界上。从“第三角度”或使用虚拟智能与身体互动也可以看到它。他们还揭示了现实和互动是未来的关键。数据目前是机器人技术领域中最大的瓶颈之一。数据可以非常有限。Genie 3可以产生几乎无限的场景,允许机器人在虚拟世界中学习,而不仅限于可以在现实生活中收集的视频。这个想法真的很令人兴奋。最后一个问题:人类生活在某种模拟中吗?这个问题已被问到很多次,并收到了一个“哲学”的答案。如果它确实是一个模拟,则在完全不同的硬件中执行。如果人类真的生活在模拟世界中,那么当前的硬件绝对不会被执行。因为世界是连续的,而不是数字化的。所有识别都是连续的信号。也许在量子级别上存在一些“硬件限制”,但至少它与当今的计算机完全不同。也许未来的量子计算机将成为执行模拟世界的真实平台。请参阅:https://www.youtubee.com/watch?v=twgjhc7djrohttps://x.com/mascobot/status/19567695417590948 59HTTPS://supersonic.video/twgjhc7djrohtpps:// //x.com/venturetwins/status/1956769043668725919
spEcial声明:以前的内容(包括照片和视频(如果有),如果有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注