
当Token使用量暴涨,LLM推理性能如何评估?
2026-05-06 14:49:01
不管你是不是技术相关从业者,都已经被AI热潮席卷。你的手机app一定会被推送各种AI文章和相关热词,“大语言模型”,“ChatGPT/DeepSeek/千问/豆包…”,“推理模型”,“token”,“AI agent”,“Openclaw(小龙虾)”… 如今AI已经开始大规模落地,正在改变各行各业,甚至将重塑整个世界。它并非只是一款巧妙的应用程序,也不是某个单一的模型,而是如同电力和互联网一样,成为必不可少的基础设施。AI 依托真实的能源、硬件和基础架构,正在大规模地生产智能,给各行各业赋予AI能力。毫不夸张地说,每家公司都正在应用 AI, 每个国家或地区都正在发展 AI。 在英伟达GTC 2026上,黄仁勋对当前AI的发展做了3个阶段的精辟总结: 据估算,AI从感知,到生成,到推理,再到如今真正能够完成工作,推理所需的计算量增长了约10,000倍,token使用量增长了约100倍。 传统的数据中心,它存储了大量文件和数据,并利用CPU算力对数据进行处理,然后提供各种客户应用服务。而目前各国大力发展的“智算中心”或者“AI工厂”,则是主要使用GPU算力,使用各种结构化和非结构化数据,对大模型进行训练和推理,更终生产token,来支持各类AI应用和智能体。
根据规模更大的AII模型聚合网管平台OpenRouter统计报告,当前2026年,相对与2023年,单次LLM请求的token长度变长3-4倍,而调用次数则增长为10倍。(来源:https://openrouter.ai/state-of-ai)。预计未来智能算力(通常用token来衡量),将会成为像水电煤气一样不可缺少的基础设施。 同时,即使是更智能的AI应用和Agent,如果它响应缓慢,或者不能在高访问压力下稳定提供服务,也将无法被作为基础设施来使用。所以下一个关键问题是,如何评估这些AI工厂,准确说是AI推理引擎的性能、效率以及可靠性? 它能否在不断增长的各种数据类型输入,大量用户并发,长时间、多轮次任务中,依然保证性能不下降?这里有一些指标需要关注: 针对用户侧的使用体验: • 提示词的处理速率(prompt rate) • 首token时间、尾token时间(time to firstlast token) • Token的产生速率(token rate) • 用户并发数量 针对推理引擎本身的统计指标: • GPU使用率 • 高速内存使用率 • KV-cache的使用情况 • Prefill和decode的时间
Keysight推出Keysight AI Inference Builder (KAI 推理构建器) 来解决以上问题,并把这些重要的指标实时统计并采集,更终展示在同一个统计面板中,为AI云服务提供商、硬件供应商和应用开发人员提供了一个可扩展的测试解决方案,用于测量、验证和优化实际环境中的推理性能。
人工智能推理的硬件和软件技术栈,包括加速计算层(例如,GPU、TPU、ASIC)、高速内存和存储、网络连接以及与之配套的整个软件栈 从LLM、推理引擎、服务和编排层等等。 从宏观角度来看,人工智能在生成回答之前,会经历以下主要的推理阶段: • 分词(tokenization):将人类语言用户提示分解成离散的词汇索引,并将其转换为 LLM 可以进一步处理的固定宽度整数张量(tensor)。此步骤由分词器(例如 BPE 或 WordPiece)执行。 • 预填充(prefill):模型通过一次大规模的架构迭代来处理整个上下文,计算初始键值缓存,并以此为基础理解用户的请求意图。由于并行处理,此阶段表现为计算密集行为。 • 解码(decode):每个输出token标记以自回归的方式逐个生成,模型会反复从内存中获取并更新键值缓存,以保持上下文。由于GPU和内存之间需要传输大量数据,因此该阶段主要表现为内存密集行为。 • 逆分词(Detokenization):将输出token标记转换回字符序列,使用相同的标记器,词汇表将更高概率的输出索引翻译成人类语言。 • 更终输出:后处理过滤器或安全防护措施处理生成的字符串,比如禁止内容(PII、毒性或幻觉触发因素),并将响应流式传输给客户端。 正因为人工智能推理流程的复杂性,而且涉及的环节众多,下面举例一些典型的性能瓶颈: GPU计算瓶颈 虽然GPU计算瓶颈在AI训练中非常常见,但在推理过程中也存在,因此业界针对推理阶段,甚至定制开发了的TPU,LPU。特别是预填充阶段,需要针对提示信息词的并行处理,因此计算量巨大。特别是长上下文提示词、长文件导入以及RAG的场景,都会导致GPU高负载运行。 在这种情况下,从客户端角度来看,更明显的影响是首token响应时间(Time to First Token,简称TTFT)显著延长。而在推理服务器端统计数据,例如tensor core张量核心和流式多处理器(SM)核心的利用率偏高,则是此类瓶颈的主要指标。 内存带宽限制 AI推理面临的更突出挑战之一就是内存带宽,也称为内存墙。这一限制在解码阶段(decode)尤为突出,因为在解码阶段,token词元以自回归的方式顺序生成,这涉及到内存和GPU之间的大量数据传输,例如模型权重和提示词上下文。高带宽内存(HBM)的瓶颈在长时间或复杂的应答生成任务,以及高并发期间尤为突出。 用户体验到的结果是整体响应速度缓慢,因为token的生成速度变慢。在服务器端,会注意到每个输出词元的生成时间(TPOT)较高,同时GPU利用率不足,从而导致资源利用率低下。 内存容量 在高并发、长时间长上下文会话或多轮对话期间,内存使用会不断增加,以致成为瓶颈。AI客户端会注意到响应时间过长、请求失败,甚至由于内存泄漏或崩溃导致系统无响应。在AI服务器端,缓存利用率将接近100%,队列长度将显著增加,而GPU则再次处于低使用率状态。
首先,Keysight AI Inference Builder (KAI 推理构建器)会部署 test agent来模拟大量用户,他们将按照用户配置,发送特定种类的提示词进行问题输入,并等待AI推理引擎进行回复,从而来统计用户侧的体验类指标。 同时,Keysight AI Inference Builder (KAI 推理构建器)可以集成AI推理引擎本身的遥测统计数据,接入这些统计数据并实时放入同的统计面板,进行展示。用户可以从中分析得出性能瓶颈的原因。 • Contract review (long-context, high prefill, memory growth) 合同审查(长上下文,高预填充,内存增长) • Historical case research (retrieval latency + decode) • Multi-document financial modeling (High prefill+High decode) • Real-time strategy simulation (latency-sensitive, concurrency-heavy) • Patient record summarization (context-heavy) • Clinical reasoning chains (multi-hop, memory-persistent) • Literature synthesis (High decode) • Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy) KAI IB的研究不仅限于行业垂直建模,它还构建了针对特定功能的提示词组合,旨在探测推理引擎的特定组件。这些包括: • GPU + HBM stress profiles GPU + HBM 压力配置文件 • Model architecture sensitivity profiles 模型架构敏感性配置文件 • Memory and KV-cache targeted prompts 针对内存和 KV 缓存的提示词 • Networking and fabric stress prompts 针对网络压力的提示词 Keysight AI Inference Builder (KAI 推理构建器) 提供了一个统一的统计界面,将提示词回复生成的指标与实时AI推理引擎的遥测数据关联起来。一方面,它跟踪工作负载特性、提示类型、并发性、突发模式、TTFT、TPOT 和令牌生成速率。另一方面,它接入AI推理引擎自身的统计数据,例如 GPU 利用率、内存消耗、缓存增长、队列延迟、网络压力和token速率。 因为这些数据集是时间对齐的,团队可以直接将特定的提示类型映射到其精确的基础设施影响上。Prefill峰值可以与 GPU 使用率相关联;Decode可变性可以追溯到内存带宽;尾部延迟可以与队列深度或并发量相关联。 Keysight AI Inference Builder(KAI 推理构建器)打破了传统的基准测试模式,通过贴近真实的性能测试,成为基础设施顾问。NVIDIA DSX AIR的AI仿真工厂方案,也推荐使用Keysight AI Inference Builder(KAI 推理构建器)进行建模和测试。 NVIDIA DSX AIR提供了一个AI工厂的数字孪生,团队可以在物理部署之前设计、建模和验证其 AI 基础设施。Keysight AI Inference Builder (KAI 推理构建器) 则通过引入逼真的工作负载模拟和分析功能来完善这一环境,使模拟的基础设施能够在类似生产的流量条件下得到验证。
历史案例研究(检索延迟+解码)
多文档金融建模(高预填充+高解码)
实时策略模拟(对延迟敏感,高度并发)
患者记录摘要(上下文密集型)
临床推理链(多跳,记忆持久)
文献综述(高解码)
迭代推理和引用扩展(多跳,KV 缓存密集型)