歸藏的AI工具箱

Search documents
不会剪辑?一句话生成完整可编辑的视频:Medeo 带你看视频生成的未来
歸藏的AI工具箱· 2025-05-16 08:11
过去一年不断有人问我,"藏师傅有没有通过一个提示词生成整段视频的产品啊,我愿意付费"或者是"藏师 傅,我这里有口播稿和素材有没有能帮我剪辑的 AI 产品"。 我跟他们说的都是应该快了,马上就会有的,这次终于有了! Medeo( https://ai.medeo.app/create ):创作者的专属AI视频工作室。 无论你有多少素材,哪怕只有一句话,他都能帮你生成一个带口播、音乐的完整视频。 这篇内容我会用几个案例来展示这个产品有多强大,另外会介绍一些使用技巧。 先来看一些案例 最基础的能力是你提供素材或者口播稿,他会帮你完成剪辑并生成视频。 非常适合资讯类或者对内容控制要求高的需求。 而且你可以要求他严格按照你提供的口播稿生成视频,也可以提供信息之后让他自己发挥。 比如下面这个左边就是我提供了 Dia CEO 的发言之后让他自己发挥的,右边就是让他精准根据口播稿生成的 视频。 我还提供了一些 Dia 的截图和视频,如果不够的话他还会自己寻找素材匹配进去,整个成本非常低。 当别的信息搬运者还在复制文字的时候,你直接一个链接丢进去,已经出视频了。 下面这个科普视频,我整个提示词就只有这一段话,没有任何干预,所有 ...
Speech-02语音模型登顶国际榜单:完美复刻声音,同事听后难辨真伪
歸藏的AI工具箱· 2025-05-15 09:14
藏师傅很多时候早上上班和洗澡之前都是听音乐的,虽然我喜欢看小说, 但之前 对那种 AI 生成的音频听书 嗤之以鼻。 但是那天无意间用了一下起点新的听书功能 , 发现居然都这么牛了,前几天交流发现他们的语音生成服务居 然是用的 MiniMax 的 Speech 模型,而且就是我最喜欢那个「说书先生」的角色。 最近发现他们更新 的 Speech-02 音频模型, 在Artifici al Analysis 的 ELO 评价榜单上吊打 Open AI 和 Ele venLabs 一众海外音频模型,基本上霸榜了。 Hugging Face上,不出意外,也是第一名的成绩。 这次 Speech-02 最大的创新在于引入了可学习的说话人编码器,它能 从参考音频中提取音色特征,无需音 频转录 。基于这个就可以实现很多能力,比如 只需要一段 十几秒的 语言就能实现高质量的声音参考能力 ; 因为说话人编码器捕捉的是与语言无关的音色特征, 还能实现将音色迁移到别的语言上 ,这个对于内容出海 很有帮助; Speech-02还 带来了 非常高的可扩展性 ,音色可以用在情感控制、文本到音色、专业语音参考等下游任 务,不需要更换模型。 另 ...
不看这藏师傅篇深度拆解,你永远不知道Lovart AI有多可怕(有邀请码)
歸藏的AI工具箱· 2025-05-13 08:42
估计今天都被 Lovart AI 刷屏了,前段时间也受邀参加了测试,先看图了解一下产品基本能力。 当时看到 GPT-4o 的图片的时候,我就知道通用的设计 Agent产品出现的条件已经成熟,没想到是他们先掏了出来。 而且效果还这么好, 整个产品很好的兼顾了设计小白和专业用户,把设计门槛拉低到了令人发指的地步 。 无论你是个体户老板、营销人员、设计师、电商设计,只要你会打字,能够描述你的大致要求,哪怕只会打几个字你也可以获得高水准的设计产出。 流程深度拆解 先来看一个案例,这是个香水的视频广告,完成度非常高,,而我的提示词只有几十个字,而且从提示词来看我也没有指望他直接完成视频的制作,我写的都是为后 面做做视频做准备。 提示词:帮我为这个产品生成一个 30 秒广告需要的所有分镜图片,后续我会基于这些图片指导拍摄和生成视频 很多朋友可能对 AI 能全自动做出这个产品的难度没有概念。 我来一步一步深度拆解一下Lovart 的 Agent 是如何做的,同时看一下我的心路历程,后面我都傻了。 一般来说你肯定以为他要直接生成提示词开始画图了,但并没有,Lovart 进行了非常多的分析,比一些设计师都专业。 首先他根据我上 ...
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 08:28
LLM 的系统提示就是在对话一开始递给 AI 的"一页说明书",用来告诉它该扮演什么角色、遵守哪 些规则、用什么方式回答用户。 大概来看一下这么长的提示词里面主要都是一些什么内容: 而且整个提示词中充满了临时修改的的痕迹,这些修改往往没有使用 XML 或者 Markdown 格式的列表,就 是一段话,看起来像是针对一些热点事件或者问题修复打的补丁。 **Acknowledgments** I would like to thank my supervisor, for his kind of support. I would like to thank my supervisor, for his kind of support. 如果懒得看内容可以听一下,播客使用 listenhub 制作 前几天 Cluade 新的系统提示词泄露了,居然有 16,739 个单词,非常长。 相比之下,OpenAI 在 ChatGPT 中的 o4-mini 的系统提示有 2,218 个单词,只是 Claude 的 13%。 什么是系统提示词 Claude 整个系统提示词这么长维护和更新甚至版本控制应该都需要一个专门的流程,不然 ...
生成网页可以垫视频了?教你用 Gemini 2.5 最强大的能力
歸藏的AI工具箱· 2025-05-09 08:34
Core Viewpoint - The article highlights the advanced capabilities of Gemini 2.5 Pro 0506, particularly its ability to generate high-fidelity web effects from uploaded interactive videos, showcasing significant improvements in front-end development and user interface design [1][4]. Group 1: Version Overview - Gemini 2.5 Pro 0506 was released on May 6, 2023, in preparation for the Google I/O conference [4]. - The main updates include substantial enhancements in front-end and user interface development, as well as improvements in basic coding tasks such as code conversion and editing [4]. Group 2: Testing and Capabilities - Initial tests demonstrated that Gemini can create interactive web pages from videos, leveraging its strong video multimodal understanding capabilities [5][6]. - Further tests revealed that while Gemini performs well in generating interactive animations, it may overlook some finer details, such as color changes and spacing [7][8]. Group 3: Usage Guidelines - A template for effective prompts was provided, emphasizing the need to describe key animation effects and details that Gemini might miss due to its limitations [10][11]. - Users are advised to upload videos to AI Studio for optimal results, ensuring videos are compressed and not too lengthy to maintain context [13]. Group 4: Conclusion and Community Engagement - The article concludes by encouraging users to explore the potential of Gemini's capabilities beyond simple animations and invites community discussion for further innovative applications [14].
设计师的 ChatGPT 时刻:Figma 这次把“设计即代码”玩成现实
歸藏的AI工具箱· 2025-05-08 08:55
Core Viewpoint - The article discusses the emergence of two main categories of AI programming products following the popularity of Cursor and AI programming, highlighting their distinct functionalities and target audiences [1]. Group 1: AI IDE Products - AI IDE products like Cursor and Windsurf possess all the capabilities of traditional IDEs, with AI functionalities such as code completion, chat, and agents being supplementary. Users can still write code without utilizing these AI features [2]. - These products cater to a specific audience that is familiar with coding, allowing for a more traditional development experience enhanced by AI tools [2]. Group 2: Vibe Coding Products - Vibe Coding products, such as V0 and Lovable, primarily rely on dialogue with AI coding agents for coding, limiting their ability to view and edit code directly [3]. - Lovable-type products have a broader user base since they allow users to describe their needs in natural language, making them more accessible to non-developers [5]. - However, Vibe Coding products face challenges in accurately translating design elements into code, particularly with nuanced design details that are difficult to describe verbally [5]. Group 3: Figma's Role in Vibe Coding - Figma is positioned as a key player in the Vibe Coding space, leveraging its existing ecosystem to facilitate the conversion of design files into code. The CEO emphasizes "Design as Prompt," indicating that design files serve as precise prompts for code generation [7]. - Figma's new product, Figma Make, allows users to import design files directly and generate web pages, significantly enhancing the expressiveness of the generated output [10]. Group 4: User Interaction and Iteration - Figma Make features a user-friendly interface that supports direct interaction with design elements, allowing for precise modifications without excessive communication with AI [11][12]. - The product also integrates advanced capabilities, such as embedding maps and utilizing 3D materials, enhancing the functionality of web pages created from design files [14][16]. Group 5: Future Implications - The introduction of Figma Make is expected to expand the responsibilities of designers, with the emergence of roles like Prompt Engineer, as designers increasingly engage with coding [19]. - The article suggests that Figma's strategic approach to AI development is more coherent compared to competitors like Adobe, indicating a clear understanding of which aspects to innovate and which to maintain [19].
一图展示全部信息:提示词 + Figma 十秒精修,让长网页秒变封面(内有白嫖福利)
歸藏的AI工具箱· 2025-05-06 08:09
其实这个是从藏师傅的 3.0 网页生成提示词拓展而来的,如果你还没看 3.0 的提示词可以看看《 藏师傅的网 页生成提示词 3.0| 原来 Gemini 2.5 Pro 这么强 》。 上周 Orange 来找我说用我的 3.0 提示词把刚发布的千问 3 模型内容变成类似苹果发布会 PPT 的一图流展 示非常直观。 开头先来个福利: 我最近发现我自己的网页提示词在 Gemini 效果很好,但是 AI Studio 的 Gemini 2.5 是限速的。 谷歌现在 Gemini 应用会给学生免费到 2026 年,会在八月验证 edu 邮件,所以你起码 可以免费试 用三个月的 Gemini 高级版 ,这里点击 Get Offer 领取: https://gemini.google/students/ 上周发了个 DeepSeek-Prover-V2 的一图流介绍,一张图展示了 Prover-V2 的主要信息,非常清晰直观, 很多朋友都问怎么做的。 今天就教一下大家, 如何用提示词生成网页之后再将网页变成对应的图片,而且我还会教你怎么用 Figma 调 整生成之后的小问题,导出完美的图片 。 就是有个问题是生成的网页很 ...
设计速度提升100倍,质量翻10倍:豆包超能创意1.0体验
歸藏的AI工具箱· 2025-04-29 08:18
豆包前段时间新的图片模型的实力大家应该也看到了。 强大的提示词理解加上字体和营销图片生成能力直接让人人都能生成自己需要的营销图片或者进行字体设计。 就在前天 豆包又更新了超能创意 1.0 模式 ,我被灰度到了试了一下,给我整麻了。 图片的生成效率和修改效率大幅提升,让本来就很低的设计门槛又低了一大截。 我们可以先看个例子再介绍 我输入的提示词为: 参考下面的提示词帮我生成十个其他知名品牌的胶囊 16:9 图片,先基于品牌和主营业务更改提示词 中的内容然后在生成。 示例提示词为:一个高高的、外观逼真且充满活力的胶囊体水平漂浮着。它的左半边是标志性的星 巴克绿色,标有"Starbucks – Uplifting the Everyday"字样以及经典的美人鱼(Siren)标志。右半 边是透明的,里面填充着漂浮的烘焙咖啡豆、细腻的奶泡漩涡、手绘咖啡杯图标以及代表社区连接 的抽象暖色调线条,需要有背景色。 来看看他给我的结果,我根本没提要哪些品牌,也没提这些品牌的主营业务和典型产品。 他直接从LLM 模型拿到了这些知识然后还按照要求改了提示词 ,太离谱了,而且 这十张图片的生成速度比 4 o 一张都要快很多 。 我测 ...
AI 工具堆里最豪横的那一个:纳米 MCP 万能工具箱上手(内有邀请码和藏师傅手搓智能体)
歸藏的AI工具箱· 2025-04-28 10:45
上周真是 MCP 诞生以来热度最高的一周,大家扎堆发布 MCP 的 Agents 工具。 纳米也发布了自己基于 MCP 驱动的 Agents 服务 "MCP万能工具箱"。 这个工具箱不仅包含纳米AI自研的十几个MCP工具,还引入了近百个第三方MCP工具,工具总量目前位居国内第一。 MCP 工具覆盖办公协作、学术研究、生活服务、搜索引擎、金融、媒体娱乐、数据抓取等多个领域。 今天终于有空详细玩了一下,还基于纳米的能力做了一个 Agents 帮大家生成藏师傅同款的展示网页。 深度研究智能体 先来看一下深度研究智能体,这部分直接就可以用不需要你任何配置,直接调用纳米的规划、搜索能力最后帮你生成各种形式的展示内容。 你可以在纳米 AI 客户端左侧智能体的部分找到深度研究智能体的入口,然后点击使用就行。 这里除了可以搜索网上内容外,也支持搜索你自己个人知识库的内容,比如我这里就让他基于网络和我自己的知识库搜索 MCP 的相关内容并且生成对应的网页解 释和 PDF 文件。 他经过 20 分钟的搜索和思考之后给了一个非常详细的报告,PDF 里面的内容非常丰富,总共消耗了 47 万 Token,而且这些都是免费的。 比如 M ...
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
歸藏的AI工具箱· 2025-04-24 09:34
最近真是捅了 MCP 窝了,上周火山开了一次开发者见面会,发布了挺多东西的,主要有: RTC 硬件这个也不太好测试,主要我也不懂,而且需要硬件,这次主要试一下 DeepSearch 服务。 其实现在所谓的 Agents 服务主要的任务和内容还是基于AI 搜索信息的加工和再整理,这部分是核心,也是 非常吃技术能力的地方。 火山把这部分能力变成应用之后对于开发者来说省了很多事情,人人都能搞 DeepSearch 了。 效果怎么样 先来一个最常见的问题和测试旅游规划。 即使这种看起来简单的任务很多 AI 搜索其实做的不好,看着内容输出很多,很多都是各个景点介绍的废话。 用户其实需要的是实时性比较强的信息,比如交通怎么安排,怎么样可以顺路,一些危险的项目需要准备哪些 东西等。 正式发布了豆包深度思考模型 Doubao-1.5-thinking-pro 和全新的视觉理解模型 Doubao-1.5-vision- pro,这个咱们上周介绍过了,视觉推理非常强大, 感兴趣可以去看我的测试 。 还发布了方舟 × RTC 硬件:把端侧自动唤醒与云端大模型语音能力一次打包,让玩具、家居、穿戴等设备 一键升级为能与人自然实时对话的 ...