开云(中国)2026世界杯官方app下载清华系团队脱手！一张 4090 即可「爆改」，1.3B小钢炮颤动开源

发布日期：2026-05-15 10:15 来源：未知作者：admin 浏览次数：

新智元报说念

裁剪：YHluck

【新智元导读】端侧多模态，卷出新天花板。仅1.3B，性能反超，成果翻倍，一张4090就能「爆改」。刚刚，清华系团队面壁智能开源了新一代「」MiniCPM-V 4.6，再次讲解了在端侧AI领域，中国团队坚韧站辞寰宇前沿。

思象一下：你将一支笔放进装满水的玻璃杯，用手机拍下像片，然后问它：「这个情状的原因是什么」？

几秒钟后，手机屏幕上出现了「光的折射」的准确回应和原解析释，视觉问答进展惊东说念主：

还有机票识别，翰墨提真金不怕火精确：

银河国际游戏平台官网

通盘这个词经由丝滑畅通，莫得联网，莫得恭候云霄办事器的反映，不产生天价token账单。

而达成这一切的，不是云霄某个需要列队等API的千亿参数模子，而是一个刚刚开源、仅有1.3B的「小钢炮」——MiniCPM-V 4.6。

5月11日，「国产端侧大模子担当」面壁智能和谐清华大学、OpenBMB开源社区郑重开源了新一代端侧多模态大模子MiniCPM-V 4.6。

MiniCPM-V 4.6仍是发布，立即给1B量级多模态模子再行端正了起跑线，给日趋尖锐化的端侧AI赛说念投下了一枚重磅炸弹！

它不仅在性能上全面超过了 Qwen3.5-0.8B和谷歌Gemma4-E2B-it等同级敌手，更在成果上达成了惊东说念主的「反超」——参数更大，跑得却更快。

这波操作，径直禁绝了行业里「小尺寸=阉割版」的老例默契。

MiniCPM-V 4.6用塌实硬核的数据向行业讲解：1B级模子，也不错是性能强悍、足以在端云两栖部署的工业级刀兵。

此外，在尺寸上，MiniCPM-V 4.6是MiniCPM-V系列模子上有史以来参数畛域最小的模子，惟有1B傍边，但智能密度却为同尺寸模子范围内最高，这再次考证了面壁智能在2024年提倡并登上Nature子刊的「密度定律」。

字据Artificial Analysis（AA）榜单评测，MiniCPM-V 4.6 1.3B（非推理版块）的运行仅虚耗5.4M token量，仅为Qwen3.5-0.8B（非推理版块，101M）的1/19、Qwen 3.5-0.8B（推理版块，233M）的1/43：

Hugging Face：

https://huggingface.co/openbmb/MiniCPM-V-4.6

GitHub：

https://github.com/OpenBMB/MiniCPM-V

Modelscope：

https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

Web Demo：

https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

APP Demo：

https://github.com/OpenBMB/MiniCPM-V-Apps

性能越级，成果反超

体感是最终设施

Talk is cheap，径直上数据。

在多个主流Benchmark上，MiniCPM-V 4.6的进展隆起一个「反知识」。

非论是作念通用图文解析、解数学题，照旧搞文档OCR，它的Instruct版和Thinking版基本皆是乱杀局，全面碾压Qwen3.5-0.8B与Gemma4-E2B-it。

在更看详细实力的Artificial Analysis（AA）榜单上，MiniCPM-V 4.6的得分也进展出色，擢升Mistral 3 3B、Qwen 3.5-0.8B等在内的一众模子一个身位，成为了1B多模态大模子赛说念的「新科状元」！

但着实让技巧圈兴隆的，是它的成果！

推理笼统量：径直干到1.5倍

拿一张4090跑高并发，MiniCPM-V 4.6处罚高清图的笼统量是Qwen3.5-0.8B 的1.5倍。

什么宗旨？雷同的办事器资本，你能扛住昔日1.5倍的用户流量。关于SaaS办事来说，这就是赤裸裸的利润。

首响延伸（TTFT）：延伸弧线被拉直了！

处罚3136²的超高清大图，它的首响延伸比敌手快了2.2倍。更惊东说念主的是，当图片别离率暴涨49倍，它的延伸增长尽然不到2.5倍。

这条简直被「拉直」的延伸弧线，意味着你的4090非论加载多大的图，用户体感皆差未几——一个字，稳！

这两个维度共同指向并吞个论断：MiniCPM-V 4.6用更短的视觉序列和更小的 KV-Cache，把端侧体感与云侧ROI同期推到了新的高度。

对端侧产物而言，这意味着畅通；对云霄工业场景而言，这意味着同等资本下的笼统翻倍。

参数更大，跑得更快，这听起来就像是物理学不存在了。但这背后，是两个荒谬硬核的架构翻新。

技巧深扒：这成果「外挂」是怎样开的？

为什么一个比Qwen3.5-0.8B参数更大的模子，反而跑得更快？

谜底藏在MiniCPM-V 4.6的两项中枢架构翻新里：一个是ViT架构翻新，另一个是4倍/16倍混杂视觉token压缩率。

ViT架构重构

LLaVA-UHD v4开路

传统ViT（视觉编码器）在编码图像时，会让多量冗余视觉token一起跑整个程，开云体育·(KAIYUN SPORTS)官方网站形成显贵的算力虚耗。

就像个直率的打工东说念主，收到一堆视觉Token（图像信息块），不管有效没用、全部拉通处罚一遍，筹划量遍及。

而MiniCPM-V 4.6失当「教悔东说念主」，给与了面壁智能和谐清华大学自研的LLaVA-UHD v4技巧，在 ViT 里面很早就把没用的Token给优化掉了，提前完成视觉token的压缩，算力径直约略约50%！

也就是说，仅在图像编码这一门径，MiniCPM-V 4.6就比传统ViT道路少跑了一半的支出，且性能不掉点。

这亦然为什么 MiniCPM-V 4.6固然参数比Qwen3.5-0.8B略大，却在推理成果上达成反超的根柢原因。

具体是怎样作念到的？

主如果LLaVA-UHD v4围绕两个标的作念了优化：怎样更高效地看高清大图，以及怎样更早地减少视觉Token带来的筹划背负。

一是「切片大法」：不傻乎乎地处罚整张高清大图，而是先切成小块，分而治之。这么Attention筹划量就不会随别离率指数爆炸。MiniCPM-V 4.6的盘考团队作念了不同尺寸和不同数据量的模子考试，讲解切片比较于全局编码不掉点——这实质是一个「反知识」的技巧突破。

二是「提前压缩」：最要害的一步。在ViT刚启动责任没多久，就用一个小巧的压缩模块（Intra-ViT Early Compressor）把Token数目压下来。这么一来，后续ViT层的筹划支出约略75%+。

LLaVA-UHD v4 论文推敲：https://huggingface.co/papers/2605.08985

通过这一假想，视觉Token压缩不错踏实地前移到 ViT 浅层，在大幅裁减后续筹划量的同期，仍然保抓较好的图像表征质料和卑劣任务进展。

这就是MiniCPM-V 4.6「成果反超」的好意思妙刀兵：在最耗算力的门径，只干最该干的活。

4倍/16倍混杂压缩

给足缔造者选拔权

视觉token压缩率，影响的是显存占用、首响延伸、推理笼统、功耗这些中枢成果办法，压缩率越高，反映速率就越快。

市面上的多模态大模子，绝大部分皆焊死在了固定的4倍压缩上。而MiniCPM-V系列从2024年起就当先扶植16倍压缩，此前扶植在4倍/16倍中二选一，但此次MiniCPM-V 4.6达成了鱼和熊掌可兼得：

4倍花式（精度更高）：符合高条目识别任务，如文档解析、密集翰墨识别等。跑文档识别、医疗影像这种任务，一个像素皆不成错。

16倍花式（速率更快）：跑手机端及时交互、云霄高并发API，速率就是生命线。

这个假想，让并吞个模子既能塞进手机里作念你的随身AI，又能部署在云霄扛住千万级日活。两全其好意思，缔造者便无需作念弃取。

这可不是PPT技巧。快手的保举大模子OneRec，扛下主场景25%的流量，就给与了MiniCPM-V系列模子。16倍压缩的工业级实战才调，已经被真金白银考证过了。

论文地址：

https://arxiv.org/abs/2502.18965

只需一张 4090

为「魔改」而生的开源生态

技巧再牛，部署和微调不行、缔造者照样不买账。

面壁智能此次径直把缔造者体验拉满了。

最炸裂的极少是：一张消费级的RTX 4090，就能无缺跑下全量微调！

这意味着什么？非论是孤苦缔造者、小团队照旧学术圈，多模态模子的定制化缔造，皆能用得起MiniCPM-V 4.6，门槛从「办事器集群」径直降到了「一台高性能PC」。这才是着实的AI普惠！

配套的器用链也安排得清鲜明白！

MiniCPM-V 4.6达成了与面前主流开源生态的全面无缝对接，让缔造者澈底告别繁琐的环境竖立：

微调：原生扶植最火的LLaMA-Factory和ms-swift——

微调框架

LLaMA-Factory：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

ms-swift：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

推理：vLLM、SGLang、llama.cpp、Ollama全家桶无缝衔尾——

推理框架：

vLLM：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

SGLang：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

llama.cpp：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

Ollama：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

极低的显存占用、极高的并发笼统量、完备的高卑劣器用链——不错说MiniCPM-V 4.6天生就是为了被「魔改」而生，是缔造者用于构建高并发筹划、极速反映的垂直利用的高性价比多模态底座。

它把最硬核的底层优化作念完，把最纯果然考订空间留给了社区。

附端侧部署指南：

https://github.com/tc-mb/MiniCPM-V-edge-demo/blob/main/README_zh.md

从「被抄袭」到「界说者」

端侧 AI 的中国叙事

从2024年4月的V 2.0算起，MiniCPM-V已经走过了6代。

戒指2026年3月，MiniCPM-V系列在开源社区累计下载量已接近3000万，屡次霸榜GitHub Trending与HuggingFace趋势榜。

在产业落地端，已先后办事于联思、祯祥、上汽各人、广汽、马自达、红旗等厂商，遮蔽汽车、PC、手机、智能家居等多场景。

回来面壁智能的MiniCPM-V系列，你会发现一条荒谬了了的进化旅途——追求极致的「智能密度」。

也就是，用最小的代价，干最智能的事。

从2024年面壁智能密度定律登上《Nature子刊》，到MiniCPM-V2.5被斯坦福盘考团队「套壳」激励全球温雅，再到今天MiniCPM-V 4.6用1.3B模子再行界说端侧成果，面壁智能已经变成端侧AI赛说念的最大「界说者」。

MiniCPM-V 4.6的发布，不仅仅一个更强的模子，更是一个信号：端侧AI的「和解」时期，正在收场。

MiniCPM-V 4.6讲解了：1B多模态模子不错又强又快又省，也不错同期担任端侧最好基座和云霄高并发利器。

面壁在作念的事情，从来不是卷参数、卷榜单。

他们在用一种近乎过头的面貌，把AI才调塞进每一块你能思到的屏幕里——手机、平板、车载屏、智能家居面板、工场质检末端……但凡有屏幕、有芯片的地点，皆是他们思遮蔽的场景。这即是所谓「智周万物」。

上一篇：上一篇：开云体育·(KAIYUN SPORTS)官方网站愧对远征球迷！客场0-3完败，罗塞尼尔赛后谢场时向球迷抚胸致歉

下一篇：下一篇：开云体育·(KAIYUN SPORTS)官方网站 iPhone 18 ProMax材质大变革: 试错后, 苹果终于找到了最好决策?

关于开云

开云(中国)2026世界杯官方app下载 清华系团队脱手！一张 4090 即可「爆改」，1.3B小钢炮颤动开源

开云(中国)2026世界杯官方app下载清华系团队脱手！一张 4090 即可「爆改」，1.3B小钢炮颤动开源