long-context

Search documents
X @Avi Chawla
Avi Chawla· 2025-07-09 19:29
RT Avi Chawla (@_avichawla)The fastest serving engine for LLMs is here (open-source)!LMCache is an LLM serving engine designed to reduce time-to-first-token and increase throughput, especially under long-context scenarios.It boosts vLLM with 7x faster access to 100x more KV caches.100% open-source! https://t.co/IfyZzdnq4z ...
X @Avi Chawla
Avi Chawla· 2025-07-09 06:30
The fastest serving engine for LLMs is here (open-source)!LMCache is an LLM serving engine designed to reduce time-to-first-token and increase throughput, especially under long-context scenarios.It boosts vLLM with 7x faster access to 100x more KV caches.100% open-source! https://t.co/IfyZzdnq4z ...
晚点对话 MiniMax 闫俊杰:千万别套用移动互联网的逻辑来做 AI
晚点LatePost· 2025-01-17 07:46
以下文章来源于晚点对话 ,作者程曼祺 晚点对话 . 最一手的商业访谈,最真实的企业家思考。 "创业没有天选之子。" 文丨程曼祺 编辑丨宋玮 *头图是 Dota 2019 国际邀请赛决赛(TI9)中,OG 战队的 Ana 使用 IO(小精灵,图中球形发光体)的经典作战。 经过 "一切在加速" 的 2024 年,围绕中国大模型创业的讨论,从 "谁又融资了?" 变成 "谁会第一个倒 下?" 行业分化时刻,我们与中国大模型六小龙之一,估值已超 30 亿美元的 MiniMax 创始人兼 CEO 闫俊杰访 谈 3 小时,聊了 MiniMax 的新技术目标、新模型,去年一年的公司变化和人员调整,和他作为一个 "练习 时长 3 年" 的初次 CEO 的自我复盘。我们也对他进行了 "信仰之问"。 10 个月前, 闫俊杰也接受过《晚点》访谈 ,那时他提了 16 次字节、47 次 OpenAI,8 次 Anthropic。 这次再聊,他主动提字节少了,提 Anthropic 多了。这与行业风向形成微妙的反差。 闫俊杰更在意字节的 2024 年 3 月,中国大模型创业公司势头正盛,此前 6 个月里,各模型公司至少融了 20 亿美元。 ...