负载均衡

Search documents
HPC网络瓶颈,何解?
半导体行业观察· 2025-07-06 02:49
来源:内容编译自hpcwire 。 高性能计算 (HPC) 以太网旨在促进计算节点之间的快速通信,最大限度地降低延迟并最大化带宽, 以确保快速可靠的数据传输。尽管近年来数据传输速率有所提高,但技术进步仍在不断突破传统网络 的界限。人工智能工作负载尤其苛刻,严重依赖于稳健、可扩展的网络架构。超级以太网联盟(UEC) 最近通过了超级以太网规范 1.0,确保了基于以太网的通信路径的持续发展,以满足现代人工智能和 HPC 系统的严苛需求。 随着数据量和计算需求的激增,专业人员面临着高昂的运营成本、低下的可扩展性以及意想不到的性 能限制。他们该如何避免日益常见的系统膨胀和瓶颈? 公众号记得加星标⭐️,第一时间看推送不会错过。 HPC 网络的膨胀和瓶颈 面对新出现的瓶颈,企业正在快速扩张,投资新硬件,并增加云计算支出,这导致网络变得过于复 杂,配置过度。关键在于,问题在于访问的便捷性,而非计算速度。 技术进步带来了显著的性能提升。然而,现代硬件无法充分发挥其潜力,因为数据密集型工作负载会 造成性能瓶颈。即使是最强大的组件,如果受到低效存储系统的阻碍,也会受到阻碍。 导致这些代价高昂的问题的关键趋势 在 AI 工作流程中, ...
3个中国程序员 vs 3个美国程序员,不得不承认,差距太大了!
猿大侠· 2025-06-27 14:57
Core Insights - The article reflects on the missed opportunity of creating a photo-sharing platform similar to Instagram, highlighting the importance of execution and timing in the tech industry [1][4][47]. Technical Architecture - Instagram's initial architecture was designed to be simple, avoiding reinventing the wheel and utilizing reliable technologies [9][7]. - The application was built on Amazon EC2 and Ubuntu Linux, with a focus on scalability and performance [6][7]. User Session Management - User sessions begin when the Instagram app is opened, sending requests to a load balancer that distributes traffic to application servers [10][14]. - Initially, Instagram used two Nginx servers for load balancing, later upgrading to Amazon's Elastic Load Balancer for better reliability [15]. Data Storage and Management - Instagram utilized PostgreSQL for storing user and photo metadata, implementing sharding to manage the large volume of data generated by user activity [21][23]. - The photo storage solution involved Amazon S3 and CloudFront, enabling efficient distribution of images globally [28]. Caching and Performance Optimization - Redis was initially used for mapping photo IDs to user IDs, with optimizations reducing memory usage significantly [30]. - Memcached was employed for session caching, ensuring quick access to frequently used data [31]. Monitoring and Error Handling - Instagram implemented Sentry for real-time error monitoring and used Munin for tracking system metrics, allowing for proactive issue resolution [39][40]. - External service monitoring was managed through Pingdom, with PagerDuty handling event notifications [41]. Reflection on Market Timing - The article emphasizes that the founders' lack of experience with modern technologies and cloud services at the time hindered their ability to capitalize on the emerging market [43][46]. - It concludes that many opportunities may be missed due to a lack of insider knowledge and market readiness [49].
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 07:17
" 一半以上训练时间都浪费在了 「 等待 」 。 " 作者丨李希 随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要方 向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模型参数 的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境下进行训练 时,训练效率不足,已成为亟待解决的难题。 01 MoE大规模训练难题:一半以上的训练时间在等待? 华为构建了名为 AutoDeploy 的 仿真平台 ,它是一个 基于昇腾硬件训练系统的 "数字孪生"平台,通过 计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术, 能在 1 小时 内模拟 百万次训练场景 , 实现 MoE模型多样化训练负载的快速分析 和自动找到与 集群硬件规格 匹配的最优策略选择。在训练实践验证中,该建模框架可达到 90%精度指标 ,实现低成本且高效的最优 并行选择。 针对 Pangu Ultra MoE 718B 模型,在单卡内存使用约束下,华为通过 AutoDeploy 以训练性能为目标 找到了 TP8/ ...
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
量子位· 2025-05-20 05:12
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 昨天的文章已经提到,昇腾超大规模MoE模型推理部署技术在本周会有持续的技术披露,果然第二天的技术报告又如期而至了。前情提要: 《华为 +DeepSeek,推理性能创新高!技术报告也公布出来了》 要问最近哪个模型最火, 混合专家模型 (MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的 专家网络 ,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以"雨露均沾"的方式去分配——专家网络们的 负载均衡问题 ,就会显得尤为 突出。 这个问题的根源,是因为某些专家网络总是被频繁调用( 热专家 ),而另一些专家网络则鲜有机会派上用场( 冷专家 )。 没错,MoE里的"专家们"也是有冷热之分的,而且被调用频率的差距甚至可以达到 一个数量级以上! 如此负载不均衡的现象,就会导致整个系统推理的时间被延长,以及还有资源利用率、系统性能受限等问题。 那么此局又该如何破解? 别急, 华为团队 已经给出了 ...
国电通申请基于负载均衡的与外部系统统一数据交互的装置专利,提高了系统的资源利用率
Jin Rong Jie· 2025-04-29 03:13
金融界2025年4月29日消息,国家知识产权局信息显示,北京国电通网络技术有限公司;国网信息通信产 业集团有限公司申请一项名为"一种基于负载均衡的与外部系统统一数据交互的装置"的专利,公开号 CN119892740A,申请日期为 2024 年 12 月。 国网信息通信产业集团有限公司,成立于2015年,位于北京市,是一家以从事软件和信息技术服务业为 主的企业。企业注册资本1502231.015155万人民币。通过天眼查大数据分析,国网信息通信产业集团有 限公司共对外投资了41家企业,参与招投标项目5000次,财产线索方面有商标信息311条,专利信息 4572条,此外企业还拥有行政许可7个。 专利摘要显示,本发明提供了一种基于负载均衡的与外部系统统一数据交互的装置,包括数据交互服务 管理模块、定时器模块、业务优先级调整模块、数据处理模块和数据重置模块。通过智能负载均衡算法 动态调整扫描频率和任务优先级,并结合数据处理与重置模块实现数据的高效交互、容错和管理。该装 置提高了系统的资源利用率、任务处理效率及稳定性,适用于复杂业务场景。 天眼查资料显示,北京国电通网络技术有限公司,成立于2000年,位于北京市,是一家 ...
Deepseek-V3/R1利润率545%怎么算的?
小熊跑的快· 2025-03-02 06:45
在24小时统计时段内,DeepSeekV3和R1:输入token总数为608B,其中342B tokens(56.3%)命中KVCache硬盘缓存。输出token总数为168B。平 均输出速率为20~22tps,平均每输出一个token的KVCache长度是4989。平均每台H800的吞吐量为:对于prefill任务,输入吞吐约73.7k tokens/s (含缓存命中);对于decode任务,输出吞吐约14.8k tokens/s。如果所有tokens全部按照DeepSeek R1的定价计算,理论一天的总收入为 $562,027,成本利润率545%。 实际利润率: 上述利润率测算仅基于理论,DeepSeek实际利润率将明显低于上述水准,具体原因如下: 标题: DeepSeek官方发布的《DeepSeek-V3/R1推理系统概览》文章显示,假定GPU租赁成本为2美元/小时,DeepSeek V3/R1推理系 统的日均成本为87072美元。然而,若按照DeepSeek R1的定价计算,其单日理论收入竟高达562027美元,成本利润率因此达到了惊人 的545%。 结论: 利润率 500% 怎么计算的? 欢迎指正! ...