世界模型调研概念辨析

调研过程的概念辨析

Procedural Content Generation(PCG)

PCGProcedural Content Generation 的缩写,中文通常翻译为程序化内容生成。它是一种通过算法和规则自动生成内容的技术,广泛应用于游戏开发、虚拟世界构建、影视制作等领域。简单来说就是使用算法创建数据而不是手动创建数据,这些数据是在运行的时候生成。在计算机图形学中,它通常用于创建纹理和 3D 模型。在视频游戏中,它用于自动创建大量游戏内容。其最初是由于硬件性能的限制,通过在运行过程中生成来减少游戏的大小等。根据实现方式,程序生成的优势可能包括更小的文件大小、更多的内容以及随机性,以实现更不可预测的游戏玩法。

img

一个过程生成的例子,这里使用 L 系统生成逼真的树木模型。通过改变确定性和随机种子,可以生成不同的模型。

构建生态解决PCG范围

image-20241128213351251

这里的类HuggingFace,其实是指像Huggingface或者Github或者DokerHub一样有完善的开源生态,也就有人源源不断地上传相应的PCG模块,来解决PCG功能单一的问题。同时利用LLM将需要复杂PCG能力的任务拆分成子任务,这样通过相应的PCG组合达到多样化的目的。

PCG Hub

image-20241128221828116

没找到但是大概可以理解就是有大量PCG模块的一个Hub,貌似来源于这篇文章CityX: Controllable Procedural Content Generation for Unbounded 3D Cities

由于有标准的Agent可以理解的文档,因此可以使用LLM进行交互。

Neural radiance field (NeRF)

神经辐射场(NeRF)是一种基于深度学习的从二维图像重建场景三维表示的方法。NeRF 算法将场景表示为深度神经网络(DNN)参数化的辐射场。该网络预测给定相机在欧拉角(θ,Φ)中的空间位置(x,y,z)和观察方向下的体积密度和视依赖发射辐射。通过沿相机射线采样许多点,传统的体积渲染技术可以生成图像。

  • 数据收集:一个 NeRF 需要为每个独特的场景重新训练。第一步是从不同角度收集场景的图像及其相应的相机姿态。这些图像是标准的 2D 图像,不需要专门的相机或软件。任何相机都能生成数据集,只要设置和捕获方法符合 SfM(从运动结构)的要求。
  • 训练:对于每个稀疏视点(图像和相机姿态)提供的信息,通过场景中的相机光线进行行进,生成一组具有给定辐射方向(进入相机)的 3D 点。对于这些点,使用多层感知器(MLP)预测体积密度和发出的辐射。然后通过经典体积渲染生成图像。因为此过程完全可微分,可以通过多个视点的梯度下降来最小化预测图像与原始图像之间的误差,鼓励 MLP 发展一个连贯的场景模型。