当Token使用量暴涨，LLM推理性能如何评估？

不管你是不是技术相关从业者，都已经被AI热潮席卷。你的手机app一定会被推送各种AI文章和相关热词，“大语言模型”，“ChatGPT/DeepSeek/千问/豆包…”，“推理模型”，“token”，“AI agent”，“Openclaw（小龙虾）”…

如今AI已经开始大规模落地，正在改变各行各业，甚至将重塑整个世界。它并非只是一款巧妙的应用程序，也不是某个单一的模型，而是如同电力和互联网一样，成为必不可少的基础设施。AI 依托真实的能源、硬件和基础架构，正在大规模地生产智能，给各行各业赋予AI能力。毫不夸张地说，每家公司都正在应用 AI，每个国家或地区都正在发展 AI。

人工智能的3个发展阶段

在英伟达GTC 2026上，黄仁勋对当前AI的发展做了3个阶段的精辟总结：

第一阶段（2023年）

ChatGPT，开启生成式AI大模型时代。

大量生成式大语言模型涌现，ChatGPT，Grok，Gemini，Claud，以及国内的DeepSeek，Kimi，千问…它虽然是基本的“对话机器人”形态，但可以理解人类自然语言，甚至语音，视频等非结构化数据，给出真人对话般的合理答案。AI科学家们相信scaling law，给与大模型更多的数据以及算力，让它使用更多的参数，就能训练出更大更好的模型版本。

第二阶段（2024年）

ChatGPT o1以及DeepSeek R1模型，开启了AI推理时代。

当“训练”大模型的scaling law开始遇到瓶颈，AI科学家们看到大模型“推理”能力的潜力。推理能力使AI能够自我反思、规划、分解问题。将AI无法直接理解的问题拆解为可处理的步骤。为此，输入上下文的token量和用于思考的输出token量大幅增加，计算量也随之显著提升。

第三阶段（2025年）

Claud Code以及OpenClaw，开启AI Agent时代。

AI agent 不再是一个问答机器人，它已经可以替人类完成各种任务。用户不再只能询问AI“是什么、在哪里、怎么做”，而是可以让它“创建、执行、构建”，让它主动使用工具、读取文件、分解问题、付诸行动。AI Agent为了给用户提供周到、主动的服务，它记录了大量用户历史信息并放入上下文，再提交给大语言模型进行处理，这会消耗大量token。

据估算，AI从感知，到生成，到推理，再到如今真正能够完成工作，推理所需的计算量增长了约10,000倍，token使用量增长了约100倍。

传统的数据中心，它存储了大量文件和数据，并利用CPU算力对数据进行处理，然后提供各种客户应用服务。而目前各国大力发展的“智算中心”或者“AI工厂”，则是主要使用GPU算力，使用各种结构化和非结构化数据，对大模型进行训练和推理，更终生产token，来支持各类AI应用和智能体。

关键问题：如何评估 AI推理基础设施的性能？

根据规模更大的AII模型聚合网管平台OpenRouter统计报告，当前2026年，相对与2023年，单次LLM请求的token长度变长3-4倍，而调用次数则增长为10倍。（来源：https://openrouter.ai/state-of-ai）。预计未来智能算力（通常用token来衡量），将会成为像水电煤气一样不可缺少的基础设施。

同时，即使是更智能的AI应用和Agent，如果它响应缓慢，或者不能在高访问压力下稳定提供服务，也将无法被作为基础设施来使用。所以下一个关键问题是，如何评估这些AI工厂，准确说是AI推理引擎的性能、效率以及可靠性？

它能否在不断增长的各种数据类型输入，大量用户并发，长时间、多轮次任务中，依然保证性能不下降？这里有一些指标需要关注：

针对用户侧的使用体验：

•

提示词的处理速率（prompt rate）

•

首token时间、尾token时间（time to firstlast token）

•

Token的产生速率（token rate）

•

用户并发数量

针对推理引擎本身的统计指标：

•

GPU使用率

•

高速内存使用率

•

KV-cache的使用情况

•

Prefill和decode的时间

Keysight推出Keysight AI Inference Builder (KAI 推理构建器) 来解决以上问题，并把这些重要的指标实时统计并采集，更终展示在同一个统计面板中，为AI云服务提供商、硬件供应商和应用开发人员提供了一个可扩展的测试解决方案，用于测量、验证和优化实际环境中的推理性能。

AI推理的软件栈和技术难点

人工智能推理的硬件和软件技术栈，包括加速计算层（例如，GPU、TPU、ASIC）、高速内存和存储、网络连接以及与之配套的整个软件栈从LLM、推理引擎、服务和编排层等等。

从宏观角度来看，人工智能在生成回答之前，会经历以下主要的推理阶段：

•

分词（tokenization）：将人类语言用户提示分解成离散的词汇索引，并将其转换为 LLM 可以进一步处理的固定宽度整数张量（tensor）。此步骤由分词器（例如 BPE 或 WordPiece）执行。

•

预填充（prefill）：模型通过一次大规模的架构迭代来处理整个上下文，计算初始键值缓存，并以此为基础理解用户的请求意图。由于并行处理，此阶段表现为计算密集行为。

•

解码（decode）：每个输出token标记以自回归的方式逐个生成，模型会反复从内存中获取并更新键值缓存，以保持上下文。由于GPU和内存之间需要传输大量数据，因此该阶段主要表现为内存密集行为。

•

逆分词（Detokenization）：将输出token标记转换回字符序列，使用相同的标记器，词汇表将更高概率的输出索引翻译成人类语言。

•

更终输出：后处理过滤器或安全防护措施处理生成的字符串，比如禁止内容（PII、毒性或幻觉触发因素），并将响应流式传输给客户端。

正因为人工智能推理流程的复杂性，而且涉及的环节众多，下面举例一些典型的性能瓶颈：

GPU计算瓶颈

虽然GPU计算瓶颈在AI训练中非常常见，但在推理过程中也存在，因此业界针对推理阶段，甚至定制开发了的TPU，LPU。特别是预填充阶段，需要针对提示信息词的并行处理，因此计算量巨大。特别是长上下文提示词、长文件导入以及RAG的场景，都会导致GPU高负载运行。

在这种情况下，从客户端角度来看，更明显的影响是首token响应时间（Time to First Token，简称TTFT）显著延长。而在推理服务器端统计数据，例如tensor core张量核心和流式多处理器（SM）核心的利用率偏高，则是此类瓶颈的主要指标。

内存带宽限制

AI推理面临的更突出挑战之一就是内存带宽，也称为内存墙。这一限制在解码阶段（decode）尤为突出，因为在解码阶段，token词元以自回归的方式顺序生成，这涉及到内存和GPU之间的大量数据传输，例如模型权重和提示词上下文。高带宽内存（HBM）的瓶颈在长时间或复杂的应答生成任务，以及高并发期间尤为突出。

用户体验到的结果是整体响应速度缓慢，因为token的生成速度变慢。在服务器端，会注意到每个输出词元的生成时间（TPOT）较高，同时GPU利用率不足，从而导致资源利用率低下。

内存容量

在高并发、长时间长上下文会话或多轮对话期间，内存使用会不断增加，以致成为瓶颈。AI客户端会注意到响应时间过长、请求失败，甚至由于内存泄漏或崩溃导致系统无响应。在AI服务器端，缓存利用率将接近100%，队列长度将显著增加，而GPU则再次处于低使用率状态。

Keysight AI Inference Builder (KAI 推理构建器)如何解决问题？

首先，Keysight AI Inference Builder (KAI 推理构建器)会部署 test agent来模拟大量用户，他们将按照用户配置，发送特定种类的提示词进行问题输入，并等待AI推理引擎进行回复，从而来统计用户侧的体验类指标。

同时，Keysight AI Inference Builder (KAI 推理构建器)可以集成AI推理引擎本身的遥测统计数据，接入这些统计数据并实时放入同的统计面板，进行展示。用户可以从中分析得出性能瓶颈的原因。

Keysight AI Inference Builder (KAI 推理构建器) 通过将提示词进行如下预分类以及子分类，并可以配置分类提示词的比重，来模拟各种真实使用场景：

Law Firms 律师事务所

•

Contract review (long-context, high prefill, memory growth)

合同审查（长上下文，高预填充，内存增长）

•

Historical case research (retrieval latency + decode)
历史案例研究（检索延迟+解码）

Quantitative Finance 量化金融

•

Multi-document financial modeling (High prefill+High decode)
多文档金融建模（高预填充+高解码）

•

Real-time strategy simulation (latency-sensitive, concurrency-heavy)
实时策略模拟（对延迟敏感，高度并发）

Healthcare 医疗保健

•

Patient record summarization (context-heavy)
患者记录摘要（上下文密集型）

•

Clinical reasoning chains (multi-hop, memory-persistent)
临床推理链（多跳，记忆持久）

Academia 学术界

•

Literature synthesis (High decode)
文献综述（高解码）

•

Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy)
迭代推理和引用扩展（多跳，KV 缓存密集型）

KAI IB的研究不仅限于行业垂直建模，它还构建了针对特定功能的提示词组合，旨在探测推理引擎的特定组件。这些包括：

•

GPU + HBM stress profiles

GPU + HBM 压力配置文件

•

Model architecture sensitivity profiles

模型架构敏感性配置文件

•

Memory and KV-cache targeted prompts

针对内存和 KV 缓存的提示词

•

Networking and fabric stress prompts

针对网络压力的提示词

Keysight AI Inference Builder (KAI 推理构建器) 提供了一个统一的统计界面，将提示词回复生成的指标与实时AI推理引擎的遥测数据关联起来。一方面，它跟踪工作负载特性、提示类型、并发性、突发模式、TTFT、TPOT 和令牌生成速率。另一方面，它接入AI推理引擎自身的统计数据，例如 GPU 利用率、内存消耗、缓存增长、队列延迟、网络压力和token速率。

因为这些数据集是时间对齐的，团队可以直接将特定的提示类型映射到其精确的基础设施影响上。Prefill峰值可以与 GPU 使用率相关联；Decode可变性可以追溯到内存带宽；尾部延迟可以与队列深度或并发量相关联。

Keysight AI Inference Builder(KAI 推理构建器)打破了传统的基准测试模式，通过贴近真实的性能测试，成为基础设施顾问。NVIDIA DSX AIR的AI仿真工厂方案，也推荐使用Keysight AI Inference Builder(KAI 推理构建器)进行建模和测试。

NVIDIA DSX AIR提供了一个AI工厂的数字孪生，团队可以在物理部署之前设计、建模和验证其 AI 基础设施。Keysight AI Inference Builder (KAI 推理构建器) 则通过引入逼真的工作负载模拟和分析功能来完善这一环境，使模拟的基础设施能够在类似生产的流量条件下得到验证。

← 返回列表

上一篇：快响应太阳能电池阵列模拟器在卫星研制与批产中的应用下一篇：极速“捕风”，万屏“秒懂”：让每一次频谱脉动有迹可循

技术前沿资讯

当Token使用量暴涨，LLM推理性能如何评估？