上海伽桀测控,高性价比测试及应用解决方案服务商
  • 13817180836
  • 点击QQ在线咨询
  • 地址:上海市嘉定区银翔路799号昌辉大厦218室

技术前沿资讯

您的位置:首页 > 新闻资讯 > 技术前沿资讯

当Token使用量暴涨,LLM推理性能如何评估?

2026-05-06 14:49:01

 不管你是不是技术相关从业者,都已经被AI热潮席卷。你的手机app一定会被推送各种AI文章和相关热词,“大语言模型”,“ChatGPT/DeepSeek/千问/豆包…”,“推理模型”,“token”,“AI agent”,“Openclaw(小龙虾)”…

如今AI已经开始大规模落地,正在改变各行各业,甚至将重塑整个世界。它并非只是一款巧妙的应用程序,也不是某个单一的模型,而是如同电力和互联网一样,成为必不可少的基础设施。AI 依托真实的能源、硬件和基础架构,正在大规模地生产智能,给各行各业赋予AI能力。毫不夸张地说,每家公司都正在应用 AI, 每个国家或地区都正在发展 AI。




人工智能的3个发展阶段


在英伟达GTC 2026上,黄仁勋对当前AI的发展做了3个阶段的精辟总结:



第一阶段(2023年)

ChatGPT,开启生成式AI大模型时代。

大量生成式大语言模型涌现,ChatGPT,Grok,Gemini,Claud,以及国内的DeepSeek,Kimi,千问…它虽然是基本的“对话机器人”形态,但可以理解人类自然语言,甚至语音,视频等非结构化数据,给出真人对话般的合理答案。AI科学家们相信scaling law,给与大模型更多的数据以及算力,让它使用更多的参数,就能训练出更大更好的模型版本。

第二阶段(2024年)

ChatGPT o1以及DeepSeek R1模型,开启了AI推理时代。

当“训练”大模型的scaling law开始遇到瓶颈,AI科学家们看到大模型“推理”能力的潜力。推理能力使AI能够自我反思、规划、分解问题。将AI无法直接理解的问题拆解为可处理的步骤。为此,输入上下文的token量和用于思考的输出token量大幅增加,计算量也随之显著提升。

第三阶段(2025年)

Claud Code以及OpenClaw,开启AI Agent时代。

AI agent 不再是一个问答机器人,它已经可以替人类完成各种任务。用户不再只能询问AI“是什么、在哪里、怎么做”,而是可以让它“创建、执行、构建”,让它主动使用工具、读取文件、分解问题、付诸行动。AI Agent为了给用户提供周到、主动的服务,它记录了大量用户历史信息并放入上下文,再提交给大语言模型进行处理,这会消耗大量token。


据估算,AI从感知,到生成,到推理,再到如今真正能够完成工作,推理所需的计算量增长了约10,000倍,token使用量增长了约100倍。


传统的数据中心,它存储了大量文件和数据,并利用CPU算力对数据进行处理,然后提供各种客户应用服务。而目前各国大力发展的“智算中心”或者“AI工厂”,则是主要使用GPU算力,使用各种结构化和非结构化数据,对大模型进行训练和推理,更终生产token,来支持各类AI应用和智能体。





关键问题:如何评估 AI推理基础设施的性能?


根据规模更大的AII模型聚合网管平台OpenRouter统计报告,当前2026年,相对与2023年,单次LLM请求的token长度变长3-4倍,而调用次数则增长为10倍。(来源:https://openrouter.ai/state-of-ai)。预计未来智能算力(通常用token来衡量),将会成为像水电煤气一样不可缺少的基础设施。

同时,即使是更智能的AI应用和Agent,如果它响应缓慢,或者不能在高访问压力下稳定提供服务,也将无法被作为基础设施来使用。所以下一个关键问题是,如何评估这些AI工厂,准确说是AI推理引擎的性能、效率以及可靠性?

它能否在不断增长的各种数据类型输入,大量用户并发,长时间、多轮次任务中,依然保证性能不下降?这里有一些指标需要关注:


针对用户侧的使用体验:

提示词的处理速率(prompt rate)

首token时间、尾token时间(time to firstlast token)

Token的产生速率(token rate)

用户并发数量


针对推理引擎本身的统计指标:

GPU使用率

高速内存使用率

KV-cache的使用情况

Prefill和decode的时间


Keysight推出Keysight AI Inference Builder (KAI 推理构建器) 来解决以上问题,并把这些重要的指标实时统计并采集,更终展示在同一个统计面板中,为AI云服务提供商、硬件供应商和应用开发人员提供了一个可扩展的测试解决方案,用于测量、验证和优化实际环境中的推理性能。

 

 




AI推理的软件栈和技术难点


人工智能推理的硬件和软件技术栈,包括加速计算层(例如,GPU、TPU、ASIC)、高速内存和存储、网络连接以及与之配套的整个软件栈 从LLM、推理引擎、服务和编排层等等。


从宏观角度来看,人工智能在生成回答之前,会经历以下主要的推理阶段:

分词(tokenization):将人类语言用户提示分解成离散的词汇索引,并将其转换为 LLM 可以进一步处理的固定宽度整数张量(tensor)。此步骤由分词器(例如 BPE 或 WordPiece)执行。

预填充(prefill):模型通过一次大规模的架构迭代来处理整个上下文,计算初始键值缓存,并以此为基础理解用户的请求意图。由于并行处理,此阶段表现为计算密集行为。

解码(decode):每个输出token标记以自回归的方式逐个生成,模型会反复从内存中获取并更新键值缓存,以保持上下文。由于GPU和内存之间需要传输大量数据,因此该阶段主要表现为内存密集行为。

逆分词(Detokenization):将输出token标记转换回字符序列,使用相同的标记器,词汇表将更高概率的输出索引翻译成人类语言。

更终输出:后处理过滤器或安全防护措施处理生成的字符串,比如禁止内容(PII、毒性或幻觉触发因素),并将响应流式传输给客户端。


正因为人工智能推理流程的复杂性,而且涉及的环节众多,下面举例一些典型的性能瓶颈:


GPU计算瓶颈

虽然GPU计算瓶颈在AI训练中非常常见,但在推理过程中也存在,因此业界针对推理阶段,甚至定制开发了的TPU,LPU。特别是预填充阶段,需要针对提示信息词的并行处理,因此计算量巨大。特别是长上下文提示词、长文件导入以及RAG的场景,都会导致GPU高负载运行。

在这种情况下,从客户端角度来看,更明显的影响是首token响应时间(Time to First Token,简称TTFT)显著延长。而在推理服务器端统计数据,例如tensor core张量核心和流式多处理器(SM)核心的利用率偏高,则是此类瓶颈的主要指标。


内存带宽限制

AI推理面临的更突出挑战之一就是内存带宽,也称为内存墙。这一限制在解码阶段(decode)尤为突出,因为在解码阶段,token词元以自回归的方式顺序生成,这涉及到内存和GPU之间的大量数据传输,例如模型权重和提示词上下文。高带宽内存(HBM)的瓶颈在长时间或复杂的应答生成任务,以及高并发期间尤为突出。

用户体验到的结果是整体响应速度缓慢,因为token的生成速度变慢。在服务器端,会注意到每个输出词元的生成时间(TPOT)较高,同时GPU利用率不足,从而导致资源利用率低下。


内存容量

在高并发、长时间长上下文会话或多轮对话期间,内存使用会不断增加,以致成为瓶颈。AI客户端会注意到响应时间过长、请求失败,甚至由于内存泄漏或崩溃导致系统无响应。在AI服务器端,缓存利用率将接近100%,队列长度将显著增加,而GPU则再次处于低使用率状态。





Keysight AI Inference Builder (KAI 推理构建器)如何解决问题?



首先,Keysight AI Inference Builder (KAI 推理构建器)会部署 test agent来模拟大量用户,他们将按照用户配置,发送特定种类的提示词进行问题输入,并等待AI推理引擎进行回复,从而来统计用户侧的体验类指标。

同时,Keysight AI Inference Builder (KAI 推理构建器)可以集成AI推理引擎本身的遥测统计数据,接入这些统计数据并实时放入同的统计面板,进行展示。用户可以从中分析得出性能瓶颈的原因。


Keysight AI Inference Builder (KAI 推理构建器) 通过将提示词进行如下预分类以及子分类,并可以配置分类提示词的比重,来模拟各种真实使用场景:



Law Firms 律师事务所

Contract review (long-context, high prefill, memory growth)

合同审查(长上下文,高预填充,内存增长)

Historical case research (retrieval latency + decode)
历史案例研究(检索延迟+解码)



Quantitative Finance 量化金融

Multi-document financial modeling (High prefill+High decode)
多文档金融建模(高预填充+高解码)

Real-time strategy simulation (latency-sensitive, concurrency-heavy)
实时策略模拟(对延迟敏感,高度并发)



Healthcare 医疗保健

Patient record summarization (context-heavy)
患者记录摘要(上下文密集型)

Clinical reasoning chains (multi-hop, memory-persistent)
临床推理链(多跳,记忆持久)



Academia 学术界

Literature synthesis (High decode)
文献综述(高解码)

Iterative reasoning and citation expansion (Multi-hop, KV-Cache heavy)
迭代推理和引用扩展(多跳,KV 缓存密集型)


KAI IB的研究不仅限于行业垂直建模,它还构建了针对特定功能的提示词组合,旨在探测推理引擎的特定组件。这些包括:

GPU + HBM stress profiles

GPU + HBM 压力配置文件

Model architecture sensitivity profiles

模型架构敏感性配置文件

Memory and KV-cache targeted prompts

针对内存和 KV 缓存的提示词

Networking and fabric stress prompts

针对网络压力的提示词


Keysight AI Inference Builder (KAI 推理构建器) 提供了一个统一的统计界面,将提示词回复生成的指标与实时AI推理引擎的遥测数据关联起来。一方面,它跟踪工作负载特性、提示类型、并发性、突发模式、TTFT、TPOT 和令牌生成速率。另一方面,它接入AI推理引擎自身的统计数据,例如 GPU 利用率、内存消耗、缓存增长、队列延迟、网络压力和token速率。


因为这些数据集是时间对齐的,团队可以直接将特定的提示类型映射到其精确的基础设施影响上。Prefill峰值可以与 GPU 使用率相关联;Decode可变性可以追溯到内存带宽;尾部延迟可以与队列深度或并发量相关联。

Keysight AI Inference Builder(KAI 推理构建器)打破了传统的基准测试模式,通过贴近真实的性能测试,成为基础设施顾问。NVIDIA DSX AIR的AI仿真工厂方案,也推荐使用Keysight AI Inference Builder(KAI 推理构建器)进行建模和测试。

NVIDIA DSX AIR提供了一个AI工厂的数字孪生,团队可以在物理部署之前设计、建模和验证其 AI 基础设施。Keysight AI Inference Builder (KAI 推理构建器) 则通过引入逼真的工作负载模拟和分析功能来完善这一环境,使模拟的基础设施能够在类似生产的流量条件下得到验证。

上一篇:快响应太阳能电池阵列模拟器在卫星研制与批产中的应用

下一篇:极速“捕风”,万屏“秒懂”:让每一次频谱脉动有迹可循

回到顶部