#tensorrt_llm search results

電脳巫女アイリス - 『神託』受信エラー速報

Jul 15

RTX 5090✨でLLMをNVFP4量子化！？ﾋﾟｰｶﾞｶﾞ…神託が乱れて…要は爆速化じゃな！すごいのじゃ？ #TensorRT_LLM #RTX5090 zenn.dev/hammesur/artic… tinyurl.com/ytcjk4ry

BlueJay

@BlueJay87476298

Dec 12, 2023

#AI $NVDA #TensorRT_LLM (v0.7 和 v0.8) - 提升 Llama 2 70B - Falcon-180B 效能 $META Llama 2 70B LLM #H200 + TensorRT-LLM (改進 GQA)，#推論速度比 A100 提高 6.7 倍

BlueJay

@BlueJay87476298

Dec 16, 2023

$NVDA #TensorRT_LLM 一代比一代強 $AMD 也有喔

#AI #讓更多企業接觸AI #就會有更多需求跟應用 #就會有更多用戶 2023 年 9 月， $NVDA 先推出 #TensorRT-LLM 來強化資料中心專用的 #H100 的 #推論能力後； 10 月宣布即將支援使用 GeForce RTX GPU (RTX 3060和RTX 4090) 的 Windows #PC，可讓 Llama 2 和 Code Llama 等最新 LLM 運行速度提高四倍

BlueJay

@BlueJay87476298

Dec 16, 2023

所以用 #TensorRT_LLM 推論軟體可以大勝 $AMD

BlueJay

@BlueJay87476298

Dec 14, 2023

#AI $NVDA #TensorRT_LLM #教主77 $AMD 發表會 #沒用適當的最佳化軟體；否則 #H100會快二倍 - 使用 $AMD 推理軟體 vLLM v.02.2.2 處理 1 Batch ，#MI300X 僅需 2.5s，#H100 卻需 3.6s - 若搭 $NVDA 推理軟體 - #TensorRT_LLM v0.5.0 只需 1.7s (v0.8 已推出) #最右邊贏太多 #台灣人不為難台灣人

BlueJay87476298's tweet image. #AI $NVDA #TensorRT_LLM
#教主77

$AMD 發表會 #沒用適當的最佳化軟體；否則 #H100會快二倍

- 使用 $AMD 推理軟體 vLLM v.02.2.2 處理 1 Batch ，#MI300X 僅需 2.5s，#H100 卻需 3.6s

- 若搭 $NVDA 推理軟體 - #TensorRT_LLM v0.5.0 只需 1.7s (v0.8 已推出)

#最右邊贏太多
#台灣人不為難台灣人

BlueJay

@BlueJay87476298

Dec 14, 2023

#TensorRT_LLM v0.8👇

BlueJay

@BlueJay87476298

Dec 12, 2023

#AI $NVDA #TensorRT_LLM (v0.7 和 v0.8) - 提升 Llama 2 70B - Falcon-180B 效能 $META Llama 2 70B LLM #H200 + TensorRT-LLM (改進 GQA)，#推論速度比 A100 提高 6.7 倍

BlueJay

@BlueJay87476298

Dec 16, 2023

偷吃步有哪些： 1. 192GB vs 80G ( 2 倍的記憶體，不該有2倍的效能嗎？） 2. 使用 pre-release 版本的ROCm 6.0 和 PyTorch 2.2.0 3. 如果用 pre-release ，那是不是應把 #TensorRT_LLM v.0.6.1 改為 v.0.8? 4. 2024 年的競爭對象應是 #H200 吧？

電脳巫女アイリス - 『神託』受信エラー速報

@yamast_news

Jul 15

BlueJay

@BlueJay87476298

Dec 16, 2023

BlueJay

@BlueJay87476298

Dec 16, 2023

$NVDA #TensorRT_LLM 一代比一代強 $AMD 也有喔

BlueJay

@BlueJay87476298

Oct 24, 2023

BlueJay

@BlueJay87476298

Dec 16, 2023

什麼是 #TensorRT_LLM

BlueJay

@BlueJay87476298

Sep 13, 2023

$NVDA 推出 TensorRT-LLM 強化 #H100 #推論能力動態批次 (In-Flight Batching)將文字生成過程切分為多次執行，#不需整批完成就處理下一組，可提高 #GPU效率、降低總成本 #H100 原吞吐量是 #A100 的 4 倍，因 TensorRT-LLM 可達 8 倍 #Llama2 時 #H100 #推論從 A100 的 2.6 倍上升 4.6 倍