这是要出大事了。。。
直接把大模型装在芯片面上。。。 这样什么内存带宽限制之类都不存在了。。。 而且性能非常夸张: 在这块专用芯片上跑Llama 3.1,速度能达到17000 token/秒。。。 英伟达最强的H200大概230 token/秒。。。 英伟达超级大芯片B200也就2000 token/秒。。。 来源:贩财局 这个春节,有个叫Taalas的芯片新公司横空出世,它干了一件让英伟达震惊的事情: 这个差距不是一点半点,是直接降维打击。。 想体验可以到这里:chatjimmy.ai 我试了一下,感受到快、非常快、恐怖的快。。。不亚于第一次使用ChatGPT的震撼 按照现在发展速度,很快实现22,000 tokens/s,意味着AI的反应速度已经超过了人类神经的传导速度。 我总结它的优点: 每次升级都得换硬件。。。。 打个比方,传统GPU像是任天堂Switch游戏机,卡槽一插,想玩《塞尔达》玩《塞尔达》,想玩《马里 奥》玩《马里奥》,换游戏只需要换卡带。 Taalas相当于直接把《塞尔达》这部游戏烧死在主板上。想玩《马里奥》?没法下载,也没法插卡,只 能把整台机器扔掉,买一台出厂就烧好《马里奥》的新机器。 不管怎么样,Taal ...