想法

Author
greatqian2025-08-27 04:19
3 min read

从我对于comfyui使用了一段时间的体验来看,感觉现在的画图大模型已经能够理解物理空间的概念了,能够理解场景、人物(虽然前一段时间模型对于人应该有几根手指有自己的理解),能够轻松地驾驭各种风格,甚至能够融合插画(illustration)和景深(depth of field)这两种看起来有点冲突的元素。

结合veo3的表现来看(好想玩wan2.2啊,但是破laptap 3060显卡根本无法驾驭),它对于物理空间和现实世界的理解就更是惊异了。大片场景、自拍风格、动漫风格,似乎你能够想象和想象不到的画面它都能够实现。

目前的主要瓶颈就是计算能力了,生成一段几秒钟的视频还需要几分钟。

感觉如果能够实时生成视频流,产生直播一样的画面效果的话,未来真正的“数字人”可能就能够实现了。比如虚拟“waifu”,它的表情、动作都是实时计算生成的视频画面(目前x的ani貌似是通过类似live2d一样的3d虚拟皮套人方案?动作都是预制好的骨骼动画),再接入大模型agent,能够思考和对话,再接入tts,能够实时生成语音(貌似视频模型就能够生成声音),再接入视觉模型(tesla一直坚持视觉方案应该就是为了以后能够直接迁移到通用人工智能上。不知道google在此方面有多少积累。但是转念一想,现实世界的实时视频输入不就是视频模型的一部分训练内容吗,比如自拍视频,直播镜头)。这样的话,我们就能够在屏幕内见到这样一个“活生生”的人,它所在的空间场景、以及它的表情、动作、装扮都是实时计算生成的,它能够看到你,实时和你对话,它的想法、思考、记忆、性格和与之的反馈都是实时计算出来的,但是你甚至都感觉不出来,看起来和朋友打的视频聊天一样没有任何区别。

又或者,你可以随意摆弄这个活生生的“人”,甚至决定它的生死?显然这会对于目前的社会伦理造成极大地冲击,甚至让我们开始重新思考人的定义究竟是什么。

甚至元宇宙的概念之所以目前有点熄火了,就是因为技术还不够成熟。想象一下,你正站在中世纪城市的街道上,路过的人向你问好。你可以自由的探索这个城市的每一个角落,所有的画面都是实时生成的,但是你察觉不出一丝异样,视觉和听觉的感受让你的大脑难以质疑眼前的一切,你只感觉此时此刻你就在哪里,亲眼目击了这一切。这样的体验是目前需要靠人工搭建的乐高积木毛坯房一般的VR场景所不能比拟的(veo3不知道现在能不能生成VR视频)。

这就是视频模型的巨大潜力,或许应该叫现实世界模型。关键是能够理解并生成现实世界。

google看来目前还是当之无愧的goat,而且未来的前景无限广阔。以后就跟着google混了。

2loras_test__00068_.png

更多内容
想法2026-01-20 07:10

"现实世界,除了物理规则以及基于物理规则构筑起来的规则和秩序,其他的,特别是人类社会的规则和秩序,并没有想象中的那么稳固和牢靠。 了解和遵循自然规律,不要被教条所束缚。"

想法2026-01-20 06:59

"从三年前,解决存在主义危机的问题,重塑价值观和找到目标,到现在,解决思考方式和行动力方法论的问题。 也许游戏才刚刚开始。"

想法2026-01-20 06:56

"做自己最需要的东西。"

想法2026-01-19 11:46

"重新设计了个人网站首页和博客页面的样式,并且从vercel迁移到了cloudflare pages部署。现在看起来焕然一新,而且加载起来快多了"

想法2025-09-23 02:46

"对于时间而言,每个人一天都只有24小时,这是十分公平的。 除了吃喝拉撒睡睡觉,以及处理日常琐事的时间,人一天能够掌控,用于自由思考和行动的时间,其实相当有限。 如何利用好这宝贵的时间资源就相当重要。 感觉关键的优化点在于思考和行动的效率。再具体点就是思考的效率(具体行动的时间比较难以优化。而且行动的耗时很大一部分也是在对于行动的具体决策上)。 关于如何提高思考效率,也就是要提高阅读和处理信息(思考和决策)的速度。 阅读速度通过日积月累的阅读习惯来训练(而且阅读量多了之后,会发现很多阅读内容是重复的。辞藻的堆砌背后可能是一些早已经知道了的信息,或者早已接触过的观点,所以一眼就能够知道个大概(所谓的书越读越少?))。 思考和决策的速度主要通过主动专注以及改进思维方式来提高(自从4月份改变思维方式以来,学习速度和行动力都暴增) 就这样,通过提高自己的速度,可以让自己实质上拥有更多的时间,让时间看起来变慢(时间的相对论?)"