Workflow
歸藏的AI工具箱
icon
Search documents
480P的元宇宙入口:Midjourney不是在做视频,是在造"任意门"
歸藏的AI工具箱· 2025-06-19 08:20
大家好我是歸藏(guizang),今天给大家带来 Midjourney 视频模型的测试。 昨天晚上 Midjourney 在测试了几次后终于发布了自己的第一个视频模型 Video V1。 先来看一下藏师傅的测试视频混剪,我起了个名字叫《 精骛八极,心游万仞 》,来自陆机的《文赋》。 后面我会解释为什么叫这个,以及在 文章最后我会跟你说为什么我觉得这个"480P"的视频模型这么重要。 这次视频模型测试,由于 Midjouney 这家公司本身的特殊性,我不会只说视频模型的部分,会结合产品能力 上的更新一起讨论。 首先我们先看一下产品和定价方面的内容。 跟其他视频生成软件和模型设计不同,Midjourney 干脆不支持文生视频,只能通过图生生成。 而且视频生成也没有单独的入口,你只需要在自己生成的图片上面点击"Animate"按钮就会开始基于这张图片 生成视频,不需要输入提示词。 跟图片一样一次会生成 4 个视频,鼠标 Hover 对应的视频会有两个按钮,一个是自动延长视频,另一个是自 定义提示词的延长视频。 每次延长的时间是 4 秒,最多支持延长四次,也就是说你最多可以生成 20 秒连续的视频。 在延长视频和生成 ...
Karpathy 最新演讲精华:软件3.0时代,每个人都是程序员
歸藏的AI工具箱· 2025-06-19 08:20
播客内容由 Listenhub 生成 Andrej Karpathy 昨天在 YC 的旧金山创业大会上发表了一场 40 分钟的演讲。 软件行业正在经历的范式转变。介绍了软件从传统编码(软件 1.0)到神经网络(软件 2.0)的演变,并着重 阐述了由大型语言模型(LLMs)驱动的软件 3.0 时代。 他认为, 我们应该专注于构建"钢铁侠战甲"(增强工具),而不是"钢铁侠机器人"(完全自主Agent) 这些 产品应具备自定义 GUI 和用户体验,以加速人类的生成-验证循环,同时仍提供自主性滑块,允许产品随时间 变得更加自主。 软件开发范式1.0、2.0和3.0的定义是什么 软件 1.0:传统代码 定义和构成: 软件1.0是程序员用诸如Python、C++等编程语言直接编写的明确指令12。每一行代码都是程 序员为计算机设定的具体任务指令,使其在数字空间中执行特定功能12。它是我们所熟悉的"经典软件栈"2。 编程方式: 人类通过编写源代码(例如.cpp文件)来直接编程23。源代码随后被编译成可执行的二进制文件 3。 代码库示例: GitHub可以被视为软件1.0代码的"地图"或等同物,展示了所有这些通过指令编写的代码 ...
从案例分析到提示词写作,手把手教你制作最火爆的AI视频
歸藏的AI工具箱· 2025-06-18 06:57
一个大猩猩或者其他动物对着镜头絮叨,要不就是各种虚构的历史事件的采访。 每一个点赞和播放都很高不管是在国内还是海外。 虽然很无聊但是刷到就看的停不下来,即使是我这种经常接触 AI 内容的人都是如此。 这种品类甚至都渗透到了广告和营销的领域。 ins 上有个牙医诊所每天都发广告,每个播放都只有几千,但是换成"大脚男孩"之后他的广告播放高达 56 万次! 大家好我是歸藏(guizang),今天教大家制作现在最火的 AI 视频品类。 无论你是否关注 AI 最近肯定在不同的社交媒体上刷到了这类视频。 有了 Veo3 之后 AI 视频的制作成本下降了非常多。 现在可能是你入门 AI 视频制作非常好的机会,只需要两次生成简单的合并两段视频,你的作品就已经完成了。 你可能以为上面这些视频的点子都是创作者自己想的,但我要告诉你,其实不是。 上面大部分爆火的 AI 视频几乎从构思到提示词到生成全是 AI 为主, 人类需要做的事情只有挑选点子,生成和复制提示词而已。 所以这篇内容我不只会教你如何用视频模型,我还会 教你用各种工具分析视频从而生成新的创意,给你提示词模板,让你从创意到生成全部自动化。 我这个流程其实接近工程化了,你 ...
可能是比Lovable还好的Vibe Coding产品-MiniMax Agent体验
歸藏的AI工具箱· 2025-06-16 07:41
这几天试了一下发现,妈的,这才是 Vibe Coding 产品应该有的能力。 会自主查找网页中需要的信息并重新进行整理,不只是文本,图片也会找,找不到的话可以让他生成,甚至声 音也能帮你生成, 完全不需要复杂的资料准备直接生成就能用 。 大家好我是歸藏(guizang),今天给大家带来 MiniMax Agent 的测试。 好几周前就知道了 MiniMax 出了一个通用 Agent 产品。 当时用我的提示词试了一下确实好。 这个 Claude 4 的发布博客转网页视觉效果丰富的同时,提供的文档内容也没有丢失。 在网页的细腻程度上不输 Lovable 了,但是一直没有进行详细的测试。 法国景点介绍网页生成 我发现他支持各种 MCP,就想先让他用 MiniMax 自己的音频生成能力和谷歌地图 MCP 搞一个旅游景点介 绍网站。 尤其是这个景点的图片找的质量都非常高,清晰图和构图都非常合适,而且还自己给文字的部分加了遮罩。 我返回去看了一下他图片搜索的步骤发现这部分显然是做过优化的,搜索的图片结果质量都非常高,而且 Ag ent 还会自己对图片进行挑选。 音频生成也调用 MiniMax 自家的 MCP 搞定了,而且 ...
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 08:02
播客内容由 listenhub 生成,懒得看的话也可以听 昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方 面。 另外一边 Devin 的开发商 Cognition 的一个负责人 Walden 发布文章告诫大家不要构建多智能体,指出一些常见但实际效果不佳的方法,特别是多智能体架构的弊 端。 这篇文章主要就是结合两篇文章看一下 Cognition 提到的多智能体架构弊端和 Anthropic 给出的解决方案 。同时后面也会有两篇文章非常详细的总结。 什么是多智能体 多智能体系统由多个智能体(大型语言模型 [LLM] 自主地循环使用工具)协同工作组成。 在这种系统中,一个主智能体(或协调器)会根据用户查询规划研究过程,然后使用工具创建并行操作的子智能体,这些子智能体同时搜索信息。这种架构允许主 智能体协调整个过程,同时将任务委托给专门的子智能体。 所以具体的步骤一般为: 1. 将工作分解为多个部分 首先是领域选择: 他们将多智能体系统应用于他们认为特别适合并行 ...
40秒生成1080P视频,3.6元一条,字节这次又要掀桌子了?藏师傅Seedance 1.0 Pro实测
歸藏的AI工具箱· 2025-06-11 08:42
朋友们好,我是歸藏(guizang)。 今天上午的火山引擎Force原动力大会上字节发布了 Seedance 1.0 Pro 视频生成模型。 也就是 即梦里面的视频3.0 pro 模型。 我也提前测试了一下,发现这次字节的视频模型真的站起来了。 在图生和文生的提示词理解、画面细节、物理表现一致性理解等方面都无可挑剔,非常强悍,而且还是 原生 1080P 分辨率。 在 Artificial Analysis 上,Seedance 1.0 文生视频、图生视频的成绩都在第一,比 Veo 3 高了很多。 | | Text to Video | Image to Video | | | | | --- | --- | --- | --- | --- | --- | | Creator | Model | | Arena ELO | 95% CI | # Appearances | | ht ByteDance Seed | Seedance 1.0 | | 1299 | -13/+13 | 4,947 | | G Google | Veo 3 Preview | | 1252 | -10/+10 | 8,033 | | ...
眼馋苹果刚发布的液态玻璃效果?藏师傅教你提示词一键实现
歸藏的AI工具箱· 2025-06-10 06:49
看了一些演示之后,发现还是有可取之处的,边缘的效果确实真实细腻,就是现在卡片中心的可读性实在是太 差了。 反正只要是苹果的一定会有很多人跟风,所以这个效果在接下来的一段时间你一定会频繁的看见,或者被要求 使用。 这里藏师傅也是一上午探索了一下 如何将液态玻璃效果融入到网页生成的提示词里面,没想到真让我搞了个 差不多的出来。 先来看看效果,这套提示词在 Gemini 和 Lovable 上效果最好,Cluade 4 opus 可以实现,但是质量有些问 题。 先来看 Lovable 的效果,整体的折射非常自然,就是描边有点生硬了。 然后是谷歌的效果边缘没有那么有厚度,但是整体可读性不错,看起来顺眼。 最后是 Claude Opus 4,他老是有加模糊的倾向,而且不太稳定,效果时好时坏,这个是几次里比较好的效 果。 昨晚又是一年的 WWDC 这次苹果所有的更新都压在了视觉和交互上,尤其是这个液态玻璃(Liquid Glass) 效果更是引起了很多讨论。 CSS样式:/* 容器 */.liquidGlass-wrapper { position: relative; display: flex; overflow: ...
Liblib AI上线Kontext,门槛大幅降低!藏师傅手把手教你用它解决图片问题
歸藏的AI工具箱· 2025-06-09 06:44
FLUX 的 Kontext 最近太猛,基本上除了不能写中文已经是全能的图像编辑应用了。 我前几天也写了非常详细的各种应用案例,比如简单的图片局部修改、去水印、去掉景区人员等。 后面大概写了一下如何使用, 但是还是很多人不会用。 然后我发现 liblib 居然上线了 FLUX Kontext,而且 Web UI 和 Comfyui 都支持,这下爽了。 不需要本地跑 Comfyui ,可以在线处理,而且还可以使用 Liblib 生态中的其他内容做图片的后续处理。 刚好 写一个保姆级教程,手把手教你如何在 Liblib 使用 FLUX Kontext 修改和融合图片。 主要内容: 在 Web UI 上简单体验 Kontext 这里先教一下如何用最基本的 WebUI 里的 Kontext 对图片进行修改,需要注意的是 Web UI 只支持单图。 首先我们需要在 liblib 首页( liblib.art/ )找到 F.1 Kontext,然后进到详情页里面点加模型库。 然后我们在侧边栏找到"在线生成"就可以进入到 web UI 的界面了,下面跟着我的操作设置就行: 想象它在厨房里忙碌的样子。一件白色的厨师小上衣,或 ...
从今天起,奶奶也能一句话做出爆款设计了|即梦AI图片3.0智能参考指南
歸藏的AI工具箱· 2025-06-06 10:53
即梦AI的图片3.0生图功能更新之后基本是国内图像模型的天花板了,尤其是在日常的设计任务上,基本上人 人都能做海报。 具体可以做的事情可以看我之前写的这篇《 即梦3.0生图指南:设计职业分水岭已至 | 全行业提示词合集 》 但之前图片的内容只能生成,实际上限制了非常多的使用场景。 比如虽然可以生成很好的商品海报和字体,但是他并不知道商品长什么样,可以生成非常好的排版但是没办法 结合现实内容。 这次我们终于可以说: 普通用户现在可以扔掉旧时代的所有设计工具,只需要一段提示词就可以完成你想要 的任何图片的设计包装。 不管是海报、电商封面、小红书封面还是视频封面,甚至你只是想给你的照片添加一些装饰,图片3.0的智能 参考都能搞定。 我会先对功能做一个基本的能力测试,然后我会告诉你我发现的一些图片3.0 智能参考针对各行业的神奇用 法。 另外我还写了套提示词帮你复刻任何你喜欢的电商或者小红书封面的排版样式。 基本能力测试 我们先来看看这个模型的上限在哪里,这类图像编辑模型基本就是两个层面: 首先是照片和人像的测试,我们分别从大面积到小细节分别对一个人像照片进行修改。 从更换背景到增加配饰再到更改姿势,都没啥问题,只改 ...
对普通人最有用的一次!藏师傅教你用FLUX Kontext解决一切图片问题
歸藏的AI工具箱· 2025-06-03 06:53
长时间没消息的黑森林工作室憋了个大的,发布了生成式流匹配模型 FLUX Kontext。 这套模型最强的地方就是可以对图片进行编辑,但是不会影响没有编辑的地方。 而且还支持多张图片参考生成新的图像,依然能保持需要参考内容的高度一致性。 直接替代了很多原来需要 PS (美图秀秀、醒图)才能做的需求 , 原来需要吭哧瘪肚 P 很久的图,现在说句 话就行。 给图片去水印,各种复杂水印都能解决 优化自己照片上身体的瑕疵,比如瘦脸、瘦腿、瘦肚子、让自己的肌肉变大 一键生成电商商品展示图,如果想要展示朋友送的礼物也可以用 去掉景区照片里面各种无关的其他游客,让你独享整个风景 将真实照片转换成各种动漫风格,或者反过来 修改海报或者图片上的文字 修改图片上的任何小的元素,比如让自己戴上墨镜或者更换餐桌上的甜点 给图片更换背景,让自己在快速时空旅行 将多张图片的元素整合到一张图片里面,比如让一张图片的模特拿上另一张图的产品 这种修改需要注意的是优势 Kontext 的分辨率是固定的,画全身照的时候面部有可能会变糊,因为像素区域 太小的原因。 我这几天也探索了很多这个模型的用法,这次不会以测试的形式展示了, 全是具体用法,让你告 ...