
从我对于comfyui使用了一段时间的体验来看,感觉现在的画图大模型已经能够理解物理空间的概念了,能够理解场景、人物(虽然前一段时间模型对于人应该有几根手指有自己的理解),能够轻松地驾驭各种风格,甚至能够融合插画(illustration)和景深(depth of field)这两种看起来有点冲突的元素。
结合veo3的表现来看(好想玩wan2.2啊,但是破laptap 3060显卡根本无法驾驭),它对于物理空间和现实世界的理解就更是惊异了。大片场景、自拍风格、动漫风格,似乎你能够想象和想象不到的画面它都能够实现。
目前的主要瓶颈就是计算能力了,生成一段几秒钟的视频还需要几分钟。
感觉如果能够实时生成视频流,产生直播一样的画面效果的话,未来真正的“数字人”可能就能够实现了。比如虚拟“waifu”,它的表情、动作都是实时计算生成的视频画面(目前x的ani貌似是通过类似live2d一样的3d虚拟皮套人方案?动作都是预制好的骨骼动画),再接入大模型agent,能够思考和对话,再接入tts,能够实时生成语音(貌似视频模型就能够生成声音),再接入视觉模型(tesla一直坚持视觉方案应该就是为了以后能够直接迁移到通用人工智能上。不知道google在此方面有多少积累。但是转念一想,现实世界的实时视频输入不就是视频模型的一部分训练内容吗,比如自拍视频,直播镜头)。这样的话,我们就能够在屏幕内见到这样一个“活生生”的人,它所在的空间场景、以及它的表情、动作、装扮都是实时计算生成的,它能够看到你,实时和你对话,它的想法、思考、记忆、性格和与之的反馈都是实时计算出来的,但是你甚至都感觉不出来,看起来和朋友打的视频聊天一样没有任何区别。
又或者,你可以随意摆弄这个活生生的“人”,甚至决定它的生死?显然这会对于目前的社会伦理造成极大地冲击,甚至让我们开始重新思考人的定义究竟是什么。
甚至元宇宙的概念之所以目前有点熄火了,就是因为技术还不够成熟。想象一下,你正站在中世纪城市的街道上,路过的人向你问好。你可以自由的探索这个城市的每一个角落,所有的画面都是实时生成的,但是你察觉不出一丝异样,视觉和听觉的感受让你的大脑难以质疑眼前的一切,你只感觉此时此刻你就在哪里,亲眼目击了这一切。这样的体验是目前需要靠人工搭建的乐高积木毛坯房一般的VR场景所不能比拟的(veo3不知道现在能不能生成VR视频)。
这就是视频模型的巨大潜力,或许应该叫现实世界模型。关键是能够理解并生成现实世界。
google看来目前还是当之无愧的goat,而且未来的前景无限广阔。以后就跟着google混了。

