婷婷色国产精品视频一区,浴室人妻的情欲hd三级

阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM)通義千問 Qwen3，此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE)，235B-A22B（總參數(shù) 2,350 億，激活參數(shù) 220 億）和 30B-A3B，以及六款稠密 (Dense) 模型 0.6B、1.7B、4B、8B、14B、32B。

現(xiàn)在，開發(fā)者能夠基于 NVIDIA GPU，使用NVIDIA TensorRT-LLM、Ollama、SGLang、vLLM等推理框架高效集成和部署 Qwen3 模型，從而實現(xiàn)極快的詞元 (token) 生成，以及生產(chǎn)級別的應用研發(fā)。

本文提供使用 Qwen3 系列模型的最佳實踐，我們會展示如何使用上述框架來部署模型實現(xiàn)高效推理。開發(fā)者可以根據(jù)他們的應用場景需求來選擇合適的框架，例如高吞吐量、低延遲、或是 GPU 內(nèi)存占用 (GPU footprint)。

Qwen3 模型

Qwen3 是中國首個混合推理模型，在 AIME、LiveCodeBench、ArenaHard、BFCL 等權威評測集上均獲得出色的表現(xiàn)（信息來源于阿里巴巴官方微信公眾號）。Qwen3 提供的系列開源稠密和 MoE 模型在推理、指令遵循、Agent 能力、多語言支持等方面均大幅增強，是全球領先的開源模型。

大語言模型的推理性能對于實時、經(jīng)濟高效的生產(chǎn)級部署至關重要

LLM 生態(tài)系統(tǒng)快速演進，新模型和新技術不斷更新迭代，需要一種高性能且靈活的解決方案來優(yōu)化模型。

推理系統(tǒng)設計頗具挑戰(zhàn)，要求也不斷提升，這些挑戰(zhàn)包括 LLM 推理計算預填充 (prefill) 和解碼 (decode) 兩個階段對于計算能力和顯存大小 / 帶寬的需求差異，超大尺寸模型并行分布式推理，海量并發(fā)請求，輸入輸出長度高度動態(tài)請求等。

目前在推理引擎上有許多優(yōu)化技術可用，包括高性能 kernel、低精度量化、Batch 調(diào)度、采樣優(yōu)化、KV 緩存 (KV cache) 優(yōu)化等等，選擇最適合自己應用場景的技術組合需要耗費開發(fā)者大量精力。

NVIDIA TensorRT-LLM提供了最新的極致優(yōu)化的計算 kernel、高性能 Attention 實現(xiàn)、多機多卡通信分布式支持、豐富的并行和量化策略等，從而在 NVIDIA GPU 上實現(xiàn)高效的 LLM 推理。此外，TensorRT-LLM 采用PyTorch 的新架構還提供了直觀、簡潔且高效的模型推理配置 LLM API，從而能夠兼顧極佳性能和靈活友好的工作流。

通過使用 TensorRT-LLM，開發(fā)者可以迅速上手先進的優(yōu)化技術，其中包括定制的 Attention kernel、連續(xù)批處理 (in-flight batching)、分頁KV 緩存 (Paged KV cache)、量化 (FP8、FP4、INT4 AWQ、INT8 SmoothQuant)、投機采樣等諸多技術。

使用 TensorRT-LLM運行 Qwen3 的推理部署優(yōu)化

下面以使用 Qwen3-4B 模型配置 PyTorch backend為例，描述如何快捷進行基準測試以及服務化的工作。采用類似的步驟，也可以實現(xiàn) Qwen3 其他 Dense 和 MoE 模型的推理部署優(yōu)化。

1. 首先準備 benchmark 測試數(shù)據(jù)集合和extra-llm-api-config.yml
配置文件：

python3/path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py 
 --tokenizer=/path/to/Qwen3-4B 
 --stdout token-norm-dist--num-requests=32768
 --input-mean=1024--output-mean=1024
 --input-stdev=0--output-stdev=0>/path/to/dataset.txt


cat>/path/to/extra-llm-api-config.yml<

	

	2. 通過trtllm-bench運行 benchmark 指令：

	
trtllm-bench 
  --modelQwen/Qwen3-4B 
  --model_path/path/to/Qwen3-4B 
   throughput 
  --backendpytorch 
  --max_batch_size128
  --max_num_tokens16384
  --dataset/path/to/dataset.txt
  --kv_cache_free_gpu_mem_fraction0.9
  --extra_llm_api_options/path/to/extra-llm-api-config.yml
  --concurrency128
  --num_requests32768
  --streaming

	

	相同 GPU 環(huán)境配置下，基于 ISL = 1K，OSL = 1K，相較 BF16 基準，Qwen3-4B 稠密模型使用 TensorRT-LLM 在 BF16 的推理吞吐（每秒生成的 token 數(shù)）加速比最高可達 16.04 倍。

	

	圖 1：Qwen3-4B 稠密模型在 TensorRT-LLM BF16 與 BF16 基準的推理吞吐性能比較

	該圖片來源于 NVIDIA Blog:Integrate and Deploy Tongyi Qwen3 Models into Production Applications with NVIDIA，若您有任何疑問或需要使用該圖片，請聯(lián)系 NVIDIA

	3. 通過trtllm-serve運行 serve 指令：

	
trtllm-serve 
 /path/to/Qwen3-4B 
--hostlocalhost 
--port8000
--backendpytorch 
--max_batch_size128
--max_num_tokens16384
--kv_cache_free_gpu_memory_fraction0.95
--extra_llm_api_options/path/to/extra-llm-api-config.yml

	

	4. 模型啟動成功后，便可通過標準 OpenAI API 進行模型推理調(diào)用。

	
curl -X POST"http://localhost:8000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
     "Max_tokens": 1024,
     "Temperature": 0,
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

	

	使用 Ollama，SGLang，vLLM 框架運行 Qwen3-4B

	除了 TensorRT-LLM，Qwen 模型也可以使用諸如 Ollama，SGLang，vLLM 等框架，通過簡單幾步部署到 NVIDIA GPU。Qwen3 提供了多種模型可以運行在終端和設備上，例如NVIDIA Jeston以及適用于 Windows 開發(fā)者的NVIDIA RTX。

	使用 Ollama 在本地運行 Qwen3-4B：

	1. 從以下網(wǎng)址下載和安裝最新版本的 Ollama: ollama.com/download。

	2. 使用ollama run命令運行模型，此操作將加載并初始化模型用于后續(xù)與用戶交互。

	
ollamarun qwen3:4b

	

	3. 在用戶提示詞或系統(tǒng)消息中添加/think（默認值）和/no_think可在模型的思考模式之間切換。運行ollama run命令后，可以直接在終端中使用以下的示例提示詞，來測試思考模式：

	
"Writeapython lambda functiontoadd two numbers" - Thinking mode enabled
"Writeapython lambda functiontoadd two numbers /no_think" - Non-thinking mode

	

	4. 參考ollama.com/library/qwen3查看更多模型變量，這些變量基于 NVIDIA GPU 完成了優(yōu)化。

	使用 SGLang 運行 Qwen3-4B：

	1. 安裝 SGLang 庫

	
pipinstall"sglang[all]"

	

	2. 下載模型，在這個演示中，我們使用的是 Hugging Face 上的 huggingfaceCLI 命令提示符執(zhí)行，請注意需要提供一個 API key 來下載模型。

	
huggingface-cli download--resume-downloadQwen/Qwen3-4B--local-dir./

	

	3. 加載和運行模型，請注意，根據(jù)不同的需求，可以傳遞額外的參數(shù)。更多詳細信息可以參考相關文檔。

	
python-m sglang.launch_server   
--model-path /ssd4TB/huggingface/hub/models/ 
--trust-remote-code 
--device "cuda:0" 
--port 30000 
--host 0.0.0.0

	

	4. 調(diào)用模型推理

	
curl -X POST"http://localhost:30000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

	

	使用 vLLM 運行 Qwen3-4B：

	1. 安裝 vLLM 庫

	
pipinstall vllm

	

	2. 通過vllm serve加載和運行模型，請注意，根據(jù)不同的需求，可以傳遞額外的參數(shù)。更多詳細信息可以參考相關文檔。

	
vllm serve "Qwen/Qwen3-4B" 
--tensor-parallel-size 1 
--gpu-memory-utilization 0.85 
--device "cuda:0" 
--max-num-batched-tokens 8192 
--max-num-seqs 256

	

	3. 調(diào)用模型推理

	
curl -X POST"http://localhost:8000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

	

	總結

	僅通過幾行代碼，開發(fā)者即可通過包括 TensorRT-LLM 在內(nèi)的流行推理框架來使用最新的 Qwen 系列模型。

	此外，對模型推理和部署框架的技術選型需要考慮到諸多關鍵因素，尤其是在把 AI 模型部署到生產(chǎn)環(huán)境中時，對性能、資源和成本的平衡。

	作者

	Ankit Patel

	NVIDIA 資深總監(jiān)，負責軟件開發(fā)工具包、應用程序編程接口以及開發(fā)者工具方面的開發(fā)者拓展工作。2011 年作為 GPU 產(chǎn)品經(jīng)理加入 NVIDIA，之后從事虛擬化、光線追蹤和 AI 等產(chǎn)品在軟件產(chǎn)品管理方面的工作。Ankit 畢業(yè)于康考迪亞大學 (Concordia University)，獲計算機科學學士學位，并在康奈爾大學 (Cornell University) 取得工商管理碩士學位 (MBA)。

	劉川

	NVIDIA 解決方案架構經(jīng)理，整體負責中國區(qū)云計算行業(yè) GPU 解決方案。于南京大學獲計算機科學與技術專業(yè)碩士學位。帶領團隊主要從事大語言模型、生成式 AI 以及搜索推薦等重點 AI 任務的 GPU 適配、優(yōu)化和加速方案的設計、部署和落地，幫助多家頭部互聯(lián)網(wǎng)公司在諸多業(yè)務中大幅降本增效。

	金國強

	NVIDIA 資深解決方案架構師，主要負責深度學習生成式 AI 領域模型訓練、推理優(yōu)化以及大模型開發(fā)與應用云端落地等技術方向合作。

	郝尚榮

	NVIDIA 深度學習解決方案架構師，2021 年加入 NVIDIA 解決方案架構團隊，主要從事模型推理優(yōu)化加速的工作，目前主要支持國內(nèi) CSP 客戶在大語言模型推理加速的工作。

	谷鋆

	NVIDIA 深度學習解決方案架構師，于 2022 年加入 NVIDIA 解決方案架構師團隊，專門為國內(nèi) CSP 進行 LLM 模型推理優(yōu)化。

	高慧怡

	NVIDIA 深度學習解決方案架構師，2020 年加入 NVIDIA 解決方案架構團隊，從事深度學習應用在異構系統(tǒng)的加速工作，目前主要支持國內(nèi) CSP 客戶在大語言模型的訓練加速工作。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5444

瀏覽量
108600
阿里巴巴

阿里巴巴

+關注

關注
7

文章
1643

瀏覽量
48845
模型

模型

+關注

關注
1

文章
3618

瀏覽量
51543
通義千問

通義千問

+關注

關注
1

文章
37

瀏覽量
506

原文標題：NVIDIA 實現(xiàn)通義千問 Qwen3 的生產(chǎn)級應用集成和部署

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關注！文章轉載請注明出處。

18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

搜索歷史

NVIDIA使用Qwen3系列模型的最佳實踐

評論