2026 新模型
RTX 4090 LOCAL MODEL SNAPSHOT
4090 当前可用模型对比
截至 2026-03-21 的静态快照页,聚焦 24GB VRAM 单卡 本地部署中具有代表性的模型。页面按证据强度划分为三类:官方明确单卡可运行、官方给出 24GB 类消费卡或量化依据、以及基于参数规模与官方量化版本存在性的保守估算。
2026 NEW WAVE
最新模型层
本区聚焦 2026 年新近发布、且已出现官方模型卡或官方量化卡的条目,用于快速筛选当前值得持续观察的 4090 候选。
2026 新模型
Qwen3.5-35B-A3B
主卡 2026-02-24 / Int4 2026-03-03Qwen3.5
Qwen3.5-27B
2026 年新增的高关注度多模态主模型,已同时具备官方主卡与官方 GPTQ Int4 卡。对 RTX 4090 而言,它属于量化后可部署、但上下文预算需要严格控制的高性能候选。
Qwen3.5
Qwen3.5-35B-A3B
面向前沿架构观察的多模态 MoE 模型,官方已提供主卡与 Int4 卡。虽然 active 参数仅 3B,但总权重仍决定了 4090 上的部署边界。
Mistral
Mistral Small 3.1
官方明确注明可在单张 RTX 4090 上运行,是本页工程确定性最高的通用多模态模型之一。
Gemma
Gemma 3 27B QAT
Google 提供了明确的 24GB 类消费卡与 14.1GB int4 权重显存依据,是资料最完整的 27B 多模态单卡候选之一。
Qwen
QwQ-32B-AWQ
强化学习驱动的推理模型,量化路线明确,适合在 4090 上评估复杂推理与代码任务。与通用 instruct 模型相比,其优势更多体现在思维深度而非响应速度。
DeepSeek
DeepSeek-R1-Distill-Qwen-32B
Distill-Qwen-32B 是 DeepSeek-R1 蒸馏族中的代表条目,但官方示例已体现出更偏双卡的部署倾向。对 4090 而言,更适合作为量化研究对象,而非常规默认配置。
判断逻辑
本页将单卡判断分为三层:官方单卡声明、官方消费卡或量化显存依据、以及 基于参数规模与官方 4-bit 版本存在性的保守估算。所有显存条仅表示模型权重的大致占用,不包含长上下文场景中持续增长的 KV Cache。
厂商或官方材料直接标注可在单张 4090 或同级显卡运行。
24GB 卡上余量较大,适合作为默认优先评估项。
通常依赖 4-bit、AWQ 或 GGUF,并需控制上下文长度。
存在可行性,但更适合研究验证或更保守的运行配置。