18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA使用Qwen3系列模型的最佳實踐

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-05-08 11:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM)通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數(shù) 2,350 億,激活參數(shù) 220 億)和 30B-A3B,以及六款稠密 (Dense) 模型 0.6B、1.7B、4B、8B、14B、32B。

現(xiàn)在,開發(fā)者能夠基于 NVIDIA GPU,使用NVIDIA TensorRT-LLM、Ollama、SGLang、vLLM等推理框架高效集成和部署 Qwen3 模型,從而實現(xiàn)極快的詞元 (token) 生成,以及生產(chǎn)級別的應用研發(fā)。

本文提供使用 Qwen3 系列模型的最佳實踐,我們會展示如何使用上述框架來部署模型實現(xiàn)高效推理。開發(fā)者可以根據(jù)他們的應用場景需求來選擇合適的框架,例如高吞吐量、低延遲、或是 GPU 內(nèi)存占用 (GPU footprint)。

Qwen3 模型

Qwen3 是中國首個混合推理模型,在 AIME、LiveCodeBench、ArenaHard、BFCL 等權威評測集上均獲得出色的表現(xiàn)(信息來源于阿里巴巴官方微信公眾號)。Qwen3 提供的系列開源稠密和 MoE 模型在推理、指令遵循、Agent 能力、多語言支持等方面均大幅增強,是全球領先的開源模型。

大語言模型的推理性能對于實時、經(jīng)濟高效的生產(chǎn)級部署至關重要

LLM 生態(tài)系統(tǒng)快速演進,新模型和新技術不斷更新迭代,需要一種高性能且靈活的解決方案來優(yōu)化模型。

推理系統(tǒng)設計頗具挑戰(zhàn),要求也不斷提升,這些挑戰(zhàn)包括 LLM 推理計算預填充 (prefill) 和解碼 (decode) 兩個階段對于計算能力和顯存大小 / 帶寬的需求差異,超大尺寸模型并行分布式推理,海量并發(fā)請求,輸入輸出長度高度動態(tài)請求等。

目前在推理引擎上有許多優(yōu)化技術可用,包括高性能 kernel、低精度量化、Batch 調(diào)度、采樣優(yōu)化、KV 緩存 (KV cache) 優(yōu)化等等,選擇最適合自己應用場景的技術組合需要耗費開發(fā)者大量精力。

NVIDIA TensorRT-LLM提供了最新的極致優(yōu)化的計算 kernel、高性能 Attention 實現(xiàn)、多機多卡通信分布式支持、豐富的并行和量化策略等,從而在 NVIDIA GPU 上實現(xiàn)高效的 LLM 推理。此外,TensorRT-LLM 采用PyTorch 的新架構還提供了直觀、簡潔且高效的模型推理配置 LLM API,從而能夠兼顧極佳性能和靈活友好的工作流。

通過使用 TensorRT-LLM,開發(fā)者可以迅速上手先進的優(yōu)化技術,其中包括定制的 Attention kernel、連續(xù)批處理 (in-flight batching)、分頁KV 緩存 (Paged KV cache)、量化 (FP8、FP4、INT4 AWQ、INT8 SmoothQuant)、投機采樣等諸多技術。

使用 TensorRT-LLM運行 Qwen3 的推理部署優(yōu)化

下面以使用 Qwen3-4B 模型配置 PyTorch backend為例,描述如何快捷進行基準測試以及服務化的工作。采用類似的步驟,也可以實現(xiàn) Qwen3 其他 Dense 和 MoE 模型的推理部署優(yōu)化。

1. 首先準備 benchmark 測試數(shù)據(jù)集合和extra-llm-api-config.yml
配置文件:

python3/path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py 
 --tokenizer=/path/to/Qwen3-4B 
 --stdout token-norm-dist--num-requests=32768
 --input-mean=1024--output-mean=1024
 --input-stdev=0--output-stdev=0>/path/to/dataset.txt


cat>/path/to/extra-llm-api-config.yml<

2. 通過trtllm-bench運行 benchmark 指令:

trtllm-bench 
  --modelQwen/Qwen3-4B 
  --model_path/path/to/Qwen3-4B 
   throughput 
  --backendpytorch 
  --max_batch_size128
  --max_num_tokens16384
  --dataset/path/to/dataset.txt
  --kv_cache_free_gpu_mem_fraction0.9
  --extra_llm_api_options/path/to/extra-llm-api-config.yml
  --concurrency128
  --num_requests32768
  --streaming

相同 GPU 環(huán)境配置下,基于 ISL = 1K,OSL = 1K,相較 BF16 基準,Qwen3-4B 稠密模型使用 TensorRT-LLM 在 BF16 的推理吞吐(每秒生成的 token 數(shù))加速比最高可達 16.04 倍。

725609e4-27da-11f0-9310-92fbcf53809c.png

圖 1:Qwen3-4B 稠密模型在 TensorRT-LLM BF16 與 BF16 基準的推理吞吐性能比較

該圖片來源于 NVIDIA Blog:Integrate and Deploy Tongyi Qwen3 Models into Production Applications with NVIDIA,若您有任何疑問或需要使用該圖片,請聯(lián)系 NVIDIA

3. 通過trtllm-serve運行 serve 指令:

trtllm-serve 
 /path/to/Qwen3-4B 
--hostlocalhost 
--port8000
--backendpytorch 
--max_batch_size128
--max_num_tokens16384
--kv_cache_free_gpu_memory_fraction0.95
--extra_llm_api_options/path/to/extra-llm-api-config.yml

4. 模型啟動成功后,便可通過標準 OpenAI API 進行模型推理調(diào)用。

curl -X POST"http://localhost:8000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
     "Max_tokens": 1024,
     "Temperature": 0,
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

使用 Ollama,SGLang,vLLM 框架運行 Qwen3-4B

除了 TensorRT-LLM,Qwen 模型也可以使用諸如 Ollama,SGLang,vLLM 等框架,通過簡單幾步部署到 NVIDIA GPU。Qwen3 提供了多種模型可以運行在終端和設備上,例如NVIDIA Jeston以及適用于 Windows 開發(fā)者的NVIDIA RTX。

使用 Ollama 在本地運行 Qwen3-4B:

1. 從以下網(wǎng)址下載和安裝最新版本的 Ollama: ollama.com/download。

2. 使用ollama run命令運行模型,此操作將加載并初始化模型用于后續(xù)與用戶交互。

ollamarun qwen3:4b

3. 在用戶提示詞或系統(tǒng)消息中添加/think(默認值)和/no_think可在模型的思考模式之間切換。運行ollama run命令后,可以直接在終端中使用以下的示例提示詞,來測試思考模式:

"Writeapython lambda functiontoadd two numbers" - Thinking mode enabled
"Writeapython lambda functiontoadd two numbers /no_think" - Non-thinking mode

4. 參考ollama.com/library/qwen3查看更多模型變量,這些變量基于 NVIDIA GPU 完成了優(yōu)化。

使用 SGLang 運行 Qwen3-4B:

1. 安裝 SGLang 庫

pipinstall"sglang[all]"

2. 下載模型,在這個演示中,我們使用的是 Hugging Face 上的 huggingfaceCLI 命令提示符執(zhí)行,請注意需要提供一個 API key 來下載模型。

huggingface-cli download--resume-downloadQwen/Qwen3-4B--local-dir./

3. 加載和運行模型,請注意,根據(jù)不同的需求,可以傳遞額外的參數(shù)。更多詳細信息可以參考相關文檔。

python-m sglang.launch_server   
--model-path /ssd4TB/huggingface/hub/models/ 
--trust-remote-code 
--device "cuda:0" 
--port 30000 
--host 0.0.0.0

4. 調(diào)用模型推理

curl -X POST"http://localhost:30000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

使用 vLLM 運行 Qwen3-4B:

1. 安裝 vLLM 庫

pipinstall vllm

2. 通過vllm serve加載和運行模型,請注意,根據(jù)不同的需求,可以傳遞額外的參數(shù)。更多詳細信息可以參考相關文檔。

vllm serve "Qwen/Qwen3-4B" 
--tensor-parallel-size 1 
--gpu-memory-utilization 0.85 
--device "cuda:0" 
--max-num-batched-tokens 8192 
--max-num-seqs 256

3. 調(diào)用模型推理

curl -X POST"http://localhost:8000/v1/chat/completions"
 -H"Content-Type: application/json"
 --data '{
 "model":"Qwen/Qwen3-4B",
 "messages": [
   {
   "role":"user",
   "content":"What is the capital of France?"
   }
  ]
 }'

總結

僅通過幾行代碼,開發(fā)者即可通過包括 TensorRT-LLM 在內(nèi)的流行推理框架來使用最新的 Qwen 系列模型。

此外,對模型推理和部署框架的技術選型需要考慮到諸多關鍵因素,尤其是在把 AI 模型部署到生產(chǎn)環(huán)境中時,對性能、資源和成本的平衡。

作者

Ankit Patel

NVIDIA 資深總監(jiān),負責軟件開發(fā)工具包、應用程序編程接口以及開發(fā)者工具方面的開發(fā)者拓展工作。2011 年作為 GPU 產(chǎn)品經(jīng)理加入 NVIDIA,之后從事虛擬化、光線追蹤和 AI 等產(chǎn)品在軟件產(chǎn)品管理方面的工作。Ankit 畢業(yè)于康考迪亞大學 (Concordia University),獲計算機科學學士學位,并在康奈爾大學 (Cornell University) 取得工商管理碩士學位 (MBA)。

劉川

NVIDIA 解決方案架構經(jīng)理,整體負責中國區(qū)云計算行業(yè) GPU 解決方案。于南京大學獲計算機科學與技術專業(yè)碩士學位。帶領團隊主要從事大語言模型、生成式 AI 以及搜索推薦等重點 AI 任務的 GPU 適配、優(yōu)化和加速方案的設計、部署和落地,幫助多家頭部互聯(lián)網(wǎng)公司在諸多業(yè)務中大幅降本增效。

金國強

NVIDIA 資深解決方案架構師,主要負責深度學習生成式 AI 領域模型訓練、推理優(yōu)化以及大模型開發(fā)與應用云端落地等技術方向合作。

郝尚榮

NVIDIA 深度學習解決方案架構師,2021 年加入 NVIDIA 解決方案架構團隊,主要從事模型推理優(yōu)化加速的工作,目前主要支持國內(nèi) CSP 客戶在大語言模型推理加速的工作。

谷鋆

NVIDIA 深度學習解決方案架構師,于 2022 年加入 NVIDIA 解決方案架構師團隊,專門為國內(nèi) CSP 進行 LLM 模型推理優(yōu)化。

高慧怡

NVIDIA 深度學習解決方案架構師,2020 年加入 NVIDIA 解決方案架構團隊,從事深度學習應用在異構系統(tǒng)的加速工作,目前主要支持國內(nèi) CSP 客戶在大語言模型的訓練加速工作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5444

    瀏覽量

    108600
  • 阿里巴巴
    +關注

    關注

    7

    文章

    1643

    瀏覽量

    48845
  • 模型
    +關注

    關注

    1

    文章

    3618

    瀏覽量

    51543
  • 通義千問
    +關注

    關注

    1

    文章

    37

    瀏覽量

    506

原文標題:NVIDIA 實現(xiàn)通義千問 Qwen3 的生產(chǎn)級應用集成和部署

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Intel OpenVINO? Day0 實現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 在英特爾平臺(GPU, NPU)Qwen3 系列模型。
    的頭像 發(fā)表于 05-11 11:36 ?1226次閱讀
    Intel OpenVINO? Day0 實現(xiàn)阿里通義 <b class='flag-5'>Qwen3</b> 快速部署

    在openEuler上基于vLLM Ascend部署Qwen3

    近日,阿里巴巴正式發(fā)布新一代Qwen大語言模型系列Qwen3Qwen3-MoE),在模型規(guī)模
    的頭像 發(fā)表于 05-07 14:44 ?1307次閱讀
    在openEuler上基于vLLM Ascend部署<b class='flag-5'>Qwen3</b>

    《電子發(fā)燒友電子設計周報》聚焦硬科技領域核心價值 第10期:2025.05.6--2025.05.9

    存儲分區(qū) 6、NVIDIA使用Qwen3系列模型最佳實踐 7、開發(fā)板Air8101
    發(fā)表于 05-09 19:26

    壁仞科技完成阿里巴巴通義千問Qwen3系列模型支持

    4月29日,阿里巴巴通義千問發(fā)布并開源8款新版Qwen3系列“混合推理模型”(簡稱“Qwen3”)。Qwen3發(fā)布后數(shù)小時內(nèi),壁仞科技完成全
    的頭像 發(fā)表于 04-30 15:19 ?1252次閱讀

    幾B都有!BM1684X一鍵適配全系列Qwen3

    Qwen3發(fā)布,大小尺寸通吃Qwen3一發(fā)布,登頂開源大模型排行榜!235B、32B、8B、4B、1.7B云邊端全尺寸模型,BF16和FP8兩種精度,一次性發(fā)布,無論云端大卡還是邊緣A
    的頭像 發(fā)表于 04-30 18:37 ?981次閱讀
    幾B都有!BM1684X一鍵適配全<b class='flag-5'>系列</b><b class='flag-5'>Qwen3</b>

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式發(fā)布并全部開源8款混合推理模型。作為Qwen系列中的最新一代大型語言模型,Qwen3
    的頭像 發(fā)表于 05-06 15:17 ?859次閱讀

    摩爾線程GPU率先支持Qwen3系列模型

    近日,阿里云正式發(fā)布Qwen3系列的8款開源混合推理模型。摩爾線程團隊在模型發(fā)布當天,率先完成了Qwen3
    的頭像 發(fā)表于 05-07 15:24 ?762次閱讀

    寒武紀率先支持Qwen3系列模型

    近日,阿里Qwen團隊一口氣上新8大模型,Qwen3正式發(fā)布并全部開源。
    的頭像 發(fā)表于 05-07 15:51 ?734次閱讀

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,后摩智能自研NPU迅速實現(xiàn)Qwen3 系列
    的頭像 發(fā)表于 05-07 16:46 ?1021次閱讀

    NVIDIA RTX 5880 Ada與Qwen3系列模型實測報告

    近日,阿里巴巴通義千問團隊正式推出新一代開源大語言模型——Qwen3 系列,該系列包含 6 款 Dense 稠密模型和 2 款 MoE 混合
    的頭像 發(fā)表于 05-09 15:05 ?3112次閱讀
    <b class='flag-5'>NVIDIA</b> RTX 5880 Ada與<b class='flag-5'>Qwen3</b><b class='flag-5'>系列</b><b class='flag-5'>模型</b>實測報告

    Arm CPU適配通義千問Qwen3系列模型

    近日,阿里巴巴開源了新一代通義千問模型 Qwen3,Arm 率先成為首批成功適配該模型的計算平臺廠商。與此同時,Arm 面向人工智能 (AI) 框架開發(fā)者的開源計算內(nèi)核 Arm KleidiAI
    的頭像 發(fā)表于 05-12 16:37 ?987次閱讀

    壁仞科技完成Qwen3旗艦模型適配

    近日,在高效適配Qwen3系列模型推理后,壁仞科技宣布完成旗艦版Qwen3-235B-A22B模型的訓練適配和優(yōu)化。由此,壁仞科技已實現(xiàn)
    的頭像 發(fā)表于 05-16 16:23 ?657次閱讀

    廣和通加速通義千問Qwen3在端側全面落地

    6月,廣和通宣布:率先完成通義千問Qwen3系列混合推理模型在高通QCS8550平臺端側的適配部署。廣和通通過定制化混合精度量化方案與創(chuàng)新硬件加速算法,成功突破Qwen3新型架構在邊緣
    的頭像 發(fā)表于 06-25 15:35 ?636次閱讀

    DFRobot亮相貿(mào)澤電子elexcon 2025展臺,展示與Qwen3模型融合的AI應用

    8月26日,elexcon2025深圳國際電子展在深圳會展中心隆重開幕。在全球知名新品引入(NPI)代理商貿(mào)澤電子(Mouser Electronics) 展臺(1號館1Q30),DFRobot展示了其LattePanda Sigma單板計算機與Qwen3大語言模型的融合
    的頭像 發(fā)表于 08-30 10:51 ?690次閱讀

    亞馬遜云科技宣布推出Qwen3與DeepSeek-V3.1模型的完全托管服務

    亞馬遜云科技致力于成為運行開放權重模型最佳平臺,在Amazon Bedrock上新增五個模型選項,持續(xù)豐富模型選擇,進一步滿足客戶需求。 主要亮點: ·
    的頭像 發(fā)表于 09-19 10:11 ?416次閱讀