Neural Network

Search documents
Why GPT-4.5 Failed
Matthew Berman· 2025-07-03 16:04
What went wrong with GPT 4.5%. It was a bet on full scale. We're just going to take all the data. We're going to make this ridiculously big model and we're going to trade it.It is much smarter than 40 and 4.1% to be completely clear. I've I've said it's the first model to make me laugh like cuz it's actually funny. But in general, it's not that useful and it's too slow and it's too expensive.But you have this issue called overparameterization. Uh if you build a neural network and you feed it some data, it w ...
X @Avi Chawla
Avi Chawla· 2025-06-26 19:34
10 GitHub repos to build a career in AI engineering.It covers:- Basics of AI/ML- Neural networks- Research paper implementations- MLOps- LLMs/RAG/Agents, etc.Check the 100% free roadmap in the thread below: https://t.co/xktAEy8cFyAvi Chawla (@_avichawla):10 GitHub repos that will set you up for a career in AI engineering (100% free): ...
X @Avi Chawla
Avi Chawla· 2025-06-26 06:49
Links:- ML for Beginners: https://t.co/4BjD3ePOET- AI for Beginners: https://t.co/RMGBL5sRfe- NN Zero to Hero: https://t.co/BGKZvCTGeN- Paper implementations: https://t.co/SN0DH2BLQq- Made with ML: https://t.co/2xrM6s50X0- Hands-on LLMs: https://t.co/KTZUVbsAFY- Advanced RAG techniques: https://t.co/3n1fgpc72t- Agents for Beginners: https://t.co/O52uS8quyh- Agents towards production: https://t.co/3n1fgpc72t- AI Engg. Hub: https://t.co/b2WVNQqcBANote: This roadmap moves toward LLMs, NLP, and AI agents after ...
Muon作者仅用一篇博客,就被OpenAI看中了
机器之心· 2025-06-16 04:04
Keller Jordan,OpenAI 深度学习团队主要成员之一,用一篇博客就撬开了 OpenAI 的大门。 这篇名为《 Muon: An optimizer for hidden layers in neural networks 》的博客发布于 2024 年 12 月,而 Keller Jordan 入职 OpenAI 的时间恰好也在此时。 机器之心报道 机器之心编辑部 「许多博士(包括过去的我)都陷入了这样一个误区:认为只有在顶级会议上发表论文才是终极目标。」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。 但现在,发表论文并不与学术影响力直接画等号了。 在这篇博客中,Keller Jordan 提出并构建了一种用于神经网络隐藏层的优化器 Muon,其能够在保证神经网络(包括 Transformer 和 CNN)的准确度的前提上大幅 提升其训练速度。 为何只发了博客,而不是发表一篇正式的 arXiv 论文,Keller Jordan 这样解释:能否发表一篇关于新优化器的论文,且包含大量看起来不错的结果,和这个优化器 是否真的有效之间没有任何联系。「我只相信速通。」 一直以来 ...
Google首席科学家万字演讲回顾AI十年:哪些关键技术决定了今天的大模型格局?
机器人圈· 2025-04-30 09:10
Google 首席科学家Jeff Dean 今年4月于在苏黎世联邦理工学院发表关于人工智能重要趋势的演讲,本次演讲回顾 了奠定现代AI基础的一系列关键技术里程碑,包括神经网络与反向传播、早期大规模训练、硬件加速、开源生 态、架构革命、训练范式、模型效率、推理优化等。算力、数据量、模型规模扩展以及算法和模型架构创新对AI 能力提升的关键作用。 以下是本次演讲 实录 经数字开物团队编译整理 01 AI 正以前所未有的规模和算法进步改变计算范式 Jeff Dean: 今天我将和大家探讨 AI 的重要趋势。我们会回顾:这个领域是如何发展到今天这个模型能力水平的?在当前的技 术水平下,我们能做些什么?以及,我们该如何塑造 AI 的未来发展方向? 这项工作是与 Google 内外的众多同仁共同完成的,所以并非全是我个人的成果,其中许多是合作研究。有些工作 甚至并非由我主导,但我认为它们都非常重要,值得在此与大家分享和探讨。 我们先来看一些观察发现,其中大部分对在座各位而言可能显而易见。首先,我认为最重要的一点是,机器学习 彻底改变了我们对计算机能力的认知和期待。回想十年前,当时的计算机视觉技术尚处初级阶段,计算机几乎谈 ...