RTX 4090 LOCAL MODEL SNAPSHOT

4090 当前可用模型对比

截至 2026-03-21 的静态快照页,聚焦 24GB VRAM 单卡 本地部署中具有代表性的模型。页面按证据强度划分为三类:官方明确单卡可运行、官方给出 24GB 类消费卡或量化依据、以及基于参数规模与官方量化版本存在性的保守估算。

CLAWSPACE 静态应用 无后端依赖 来源可追溯

2026 NEW WAVE

最新模型层

本区聚焦 2026 年新近发布、且已出现官方模型卡或官方量化卡的条目,用于快速筛选当前值得持续观察的 4090 候选。

2026 新模型

Qwen3.5-27B

主卡 2026-02-24 / Int4 2026-03-03
27.6B dense 多模态 单卡压线 / 量化优先

2026 新模型

Qwen3.5-35B-A3B

主卡 2026-02-24 / Int4 2026-03-03
35B total / 3B active 多模态 谨慎尝试 / 实验型
4090 适配档位
模态
发布时间层

Qwen3.5

Qwen3.5-27B

单卡压线 / 量化优先 2026 新模型

2026 年新增的高关注度多模态主模型,已同时具备官方主卡与官方 GPTQ Int4 卡。对 RTX 4090 而言,它属于量化后可部署、但上下文预算需要严格控制的高性能候选。

27.6B dense 262K 多模态 发布 2026-02-24
权重显存 ~15-16GB 权重显存(Int4 估算)
此处仅反映权重大致占用,实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。
新一代中文通用模型评估图文混合问答单卡量化实验

Qwen3.5

Qwen3.5-35B-A3B

谨慎尝试 / 实验型 2026 新模型

面向前沿架构观察的多模态 MoE 模型,官方已提供主卡与 Int4 卡。虽然 active 参数仅 3B,但总权重仍决定了 4090 上的部署边界。

35B total / 3B active 262K 多模态 发布 2026-02-24
权重显存 ~18-19GB 权重显存(Int4 估算)
此处仅反映权重大致占用,实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。
MoE 架构研究多模态实验新模型观察

Mistral

Mistral Small 3.1

官方单卡 2025 稳定档

官方明确注明可在单张 RTX 4090 上运行,是本页工程确定性最高的通用多模态模型之一。

24B dense 128K 多模态 发布 2025-03-17
权重显存 ~13GB 权重显存(估算)
此处仅反映权重大致占用,实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。
默认优先评估项图文问答轻量代理工作流

Gemma

Gemma 3 27B QAT

官方 24GB 证明 2025 稳定档

Google 提供了明确的 24GB 类消费卡与 14.1GB int4 权重显存依据,是资料最完整的 27B 多模态单卡候选之一。

27B dense 128K 多模态 发布 2025-03-12
权重显存 14.1GB 权重显存(官方 int4)
此处仅反映权重大致占用,实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。
多模态桌面工具截图与图像分析显存预算明确的部署

Qwen

QwQ-32B-AWQ

单卡压线 / 推理特化 2025 稳定档

强化学习驱动的推理模型,量化路线明确,适合在 4090 上评估复杂推理与代码任务。与通用 instruct 模型相比,其优势更多体现在思维深度而非响应速度。

32.5B dense 32K / 131K with YaRN 文本 发布 2025-03-05
权重显存 ~18-19GB 权重显存(估算)
此处仅反映权重大致占用,实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。
复杂推理代码分析难题求解实验

DeepSeek

DeepSeek-R1-Distill-Qwen-32B

谨慎尝试 2025 稳定档

Distill-Qwen-32B 是 DeepSeek-R1 蒸馏族中的代表条目,但官方示例已体现出更偏双卡的部署倾向。对 4090 而言,更适合作为量化研究对象,而非常规默认配置。

32B dense 32K demo config 文本 发布 2025-01-20
权重显存 ~18-20GB 权重显存(估算)
此处仅反映权重大致占用,实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。
DeepSeek 蒸馏路线研究推理模型量化测试架构对比

判断逻辑

本页将单卡判断分为三层:官方单卡声明官方消费卡或量化显存依据、以及 基于参数规模与官方 4-bit 版本存在性的保守估算。所有显存条仅表示模型权重的大致占用,不包含长上下文场景中持续增长的 KV Cache。

官方单卡

厂商或官方材料直接标注可在单张 4090 或同级显卡运行。

舒适区

24GB 卡上余量较大,适合作为默认优先评估项。

压线区

通常依赖 4-bit、AWQ 或 GGUF,并需控制上下文长度。

谨慎尝试

存在可行性,但更适合研究验证或更保守的运行配置。