RTX 4090 LOCAL MODEL SNAPSHOT

4090 当前可用模型对比

截至 2026-03-21 的静态快照页，聚焦 24GB VRAM 单卡 本地部署中具有代表性的模型。页面按证据强度划分为三类：官方明确单卡可运行、官方给出 24GB 类消费卡或量化依据、以及基于参数规模与官方量化版本存在性的保守估算。

CLAWSPACE 静态应用无后端依赖来源可追溯

2026 NEW WAVE

最新模型层

本区聚焦 2026 年新近发布、且已出现官方模型卡或官方量化卡的条目，用于快速筛选当前值得持续观察的 4090 候选。

2026 新模型

Qwen3.5-27B

主卡 2026-02-24 / Int4 2026-03-03

27.6B dense 多模态单卡压线 / 量化优先

2026 新模型

Qwen3.5-35B-A3B

主卡 2026-02-24 / Int4 2026-03-03

35B total / 3B active 多模态谨慎尝试 / 实验型

Qwen3.5

Qwen3.5-27B

单卡压线 / 量化优先 2026 新模型

2026 年新增的高关注度多模态主模型，已同时具备官方主卡与官方 GPTQ Int4 卡。对 RTX 4090 而言，它属于量化后可部署、但上下文预算需要严格控制的高性能候选。

27.6B dense 262K 多模态发布 2026-02-24

权重显存 ~15-16GB 权重显存（Int4 估算）

此处仅反映权重大致占用，实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。

新一代中文通用模型评估图文混合问答单卡量化实验

Qwen3.5

Qwen3.5-35B-A3B

谨慎尝试 / 实验型 2026 新模型

面向前沿架构观察的多模态 MoE 模型，官方已提供主卡与 Int4 卡。虽然 active 参数仅 3B，但总权重仍决定了 4090 上的部署边界。

35B total / 3B active 262K 多模态发布 2026-02-24

权重显存 ~18-19GB 权重显存（Int4 估算）

此处仅反映权重大致占用，实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。

MoE 架构研究多模态实验新模型观察

Mistral

Mistral Small 3.1

官方单卡 2025 稳定档

官方明确注明可在单张 RTX 4090 上运行，是本页工程确定性最高的通用多模态模型之一。

24B dense 128K 多模态发布 2025-03-17

权重显存 ~13GB 权重显存（估算）

此处仅反映权重大致占用，实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。

默认优先评估项图文问答轻量代理工作流

Gemma

Gemma 3 27B QAT

官方 24GB 证明 2025 稳定档

Google 提供了明确的 24GB 类消费卡与 14.1GB int4 权重显存依据，是资料最完整的 27B 多模态单卡候选之一。

27B dense 128K 多模态发布 2025-03-12

权重显存 14.1GB 权重显存（官方 int4）

此处仅反映权重大致占用，实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。

多模态桌面工具截图与图像分析显存预算明确的部署

Qwen

QwQ-32B-AWQ

单卡压线 / 推理特化 2025 稳定档

强化学习驱动的推理模型，量化路线明确，适合在 4090 上评估复杂推理与代码任务。与通用 instruct 模型相比，其优势更多体现在思维深度而非响应速度。

32.5B dense 32K / 131K with YaRN 文本发布 2025-03-05

权重显存 ~18-19GB 权重显存（估算）

此处仅反映权重大致占用，实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。

复杂推理代码分析难题求解实验

DeepSeek

DeepSeek-R1-Distill-Qwen-32B

谨慎尝试 2025 稳定档

Distill-Qwen-32B 是 DeepSeek-R1 蒸馏族中的代表条目，但官方示例已体现出更偏双卡的部署倾向。对 4090 而言，更适合作为量化研究对象，而非常规默认配置。

32B dense 32K demo config 文本发布 2025-01-20

权重显存 ~18-20GB 权重显存（估算）

此处仅反映权重大致占用，实际部署仍需叠加 KV Cache 与上下文长度带来的额外显存开销。

DeepSeek 蒸馏路线研究推理模型量化测试架构对比

SELECTED MODEL

Qwen3.5-27B

参数规模 27.6B dense

上下文 262K

模态 多模态

单卡结论 单卡压线 / 量化优先

主卡日期 2026-02-24

官方量化卡 2026-03-03

核心观察

官方主模型卡创建于 2026-02-24，属于本轮新增模型。
官方 GPTQ Int4 卡创建于 2026-03-03，单卡量化部署路径明确。
模型卡标注多模态能力与 262K 上下文，文本模式可进一步释放 KV Cache 预算。

4090 部署提示

在 4090 上更适合量化后运行短至中等上下文任务。若同时追求多模态输入与超长上下文，显存压力会快速上升。

适用场景

新一代中文通用模型评估
图文混合问答
单卡量化实验

主要来源

Qwen3.5-27B official model card 官方主模型卡。创建时间 2026-02-24，支持多模态与 262K 上下文。 Qwen3.5-27B-GPTQ-Int4 official model card 官方 Int4 量化卡。创建时间 2026-03-03，是 4090 落地的关键证据。 NVIDIA Ada GPU Architecture (RTX 4090 24GB spec table) 用来固定这页的 24GB VRAM 基线。

判断逻辑

本页将单卡判断分为三层：官方单卡声明、官方消费卡或量化显存依据、以及 基于参数规模与官方 4-bit 版本存在性的保守估算。所有显存条仅表示模型权重的大致占用，不包含长上下文场景中持续增长的 KV Cache。

官方单卡

厂商或官方材料直接标注可在单张 4090 或同级显卡运行。

舒适区

24GB 卡上余量较大，适合作为默认优先评估项。

压线区

通常依赖 4-bit、AWQ 或 GGUF，并需控制上下文长度。

谨慎尝试

存在可行性，但更适合研究验证或更保守的运行配置。