开云(中国)2026世界杯官方app下载 清华系团队脱手!一张 4090 即可「爆改」,1.3B小钢炮颤动开源


新智元报说念
裁剪:YHluck
【新智元导读】端侧多模态,卷出新天花板。仅1.3B,性能反超,成果翻倍,一张4090就能「爆改」。刚刚,清华系团队面壁智能开源了新一代「」MiniCPM-V 4.6,再次讲解了在端侧AI领域,中国团队坚韧站辞寰宇前沿。
思象一下:你将一支笔放进装满水的玻璃杯,用手机拍下像片,然后问它:「这个情状的原因是什么」?

几秒钟后,手机屏幕上出现了「光的折射」的准确回应和原解析释,视觉问答进展惊东说念主:
还有机票识别,翰墨提真金不怕火精确:
银河国际游戏平台官网通盘这个词经由丝滑畅通,莫得联网,莫得恭候云霄办事器的反映,不产生天价token账单。
而达成这一切的,不是云霄某个需要列队等API的千亿参数模子,而是一个刚刚开源、仅有1.3B的「小钢炮」——MiniCPM-V 4.6。
5月11日,「国产端侧大模子担当」面壁智能和谐清华大学、OpenBMB开源社区郑重开源了新一代端侧多模态大模子MiniCPM-V 4.6。
MiniCPM-V 4.6仍是发布,立即给1B量级多模态模子再行端正了起跑线,给日趋尖锐化的端侧AI赛说念投下了一枚重磅炸弹!

它不仅在性能上全面超过了 Qwen3.5-0.8B和谷歌Gemma4-E2B-it等同级敌手,更在成果上达成了惊东说念主的「反超」——参数更大,跑得却更快。
这波操作,径直禁绝了行业里「小尺寸=阉割版」的老例默契。
MiniCPM-V 4.6用塌实硬核的数据向行业讲解:1B级模子,也不错是性能强悍、足以在端云两栖部署的工业级刀兵。
此外,在尺寸上,MiniCPM-V 4.6是MiniCPM-V系列模子上有史以来参数畛域最小的模子,惟有1B傍边,但智能密度却为同尺寸模子范围内最高,这再次考证了面壁智能在2024年提倡并登上Nature子刊的「密度定律」。
字据Artificial Analysis(AA)榜单评测,MiniCPM-V 4.6 1.3B(非推理版块)的运行仅虚耗5.4M token量,仅为Qwen3.5-0.8B(非推理版块,101M)的1/19、Qwen 3.5-0.8B(推理版块,233M)的1/43:

Hugging Face:
https://huggingface.co/openbmb/MiniCPM-V-4.6
GitHub:
https://github.com/OpenBMB/MiniCPM-V
Modelscope:
https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
Web Demo:
https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
APP Demo:
https://github.com/OpenBMB/MiniCPM-V-Apps
性能越级,成果反超
体感是最终设施
Talk is cheap,径直上数据。
在多个主流Benchmark上,MiniCPM-V 4.6的进展隆起一个「反知识」。
非论是作念通用图文解析、解数学题,照旧搞文档OCR,它的Instruct版和Thinking版基本皆是乱杀局,全面碾压Qwen3.5-0.8B与Gemma4-E2B-it。


在更看详细实力的Artificial Analysis(AA)榜单上,MiniCPM-V 4.6的得分也进展出色,擢升Mistral 3 3B、Qwen 3.5-0.8B等在内的一众模子一个身位,成为了1B多模态大模子赛说念的「新科状元」!

但着实让技巧圈兴隆的,是它的成果!
推理笼统量:径直干到1.5倍
拿一张4090跑高并发,MiniCPM-V 4.6处罚高清图的笼统量是Qwen3.5-0.8B 的1.5倍。
什么宗旨?雷同的办事器资本,你能扛住昔日1.5倍的用户流量。关于SaaS办事来说,这就是赤裸裸的利润。

首响延伸(TTFT):延伸弧线被拉直了!
处罚3136²的超高清大图,它的首响延伸比敌手快了2.2倍。更惊东说念主的是,当图片别离率暴涨49倍,它的延伸增长尽然不到2.5倍。
这条简直被「拉直」的延伸弧线,意味着你的4090非论加载多大的图,用户体感皆差未几——一个字,稳!

这两个维度共同指向并吞个论断:MiniCPM-V 4.6用更短的视觉序列和更小的 KV-Cache,把端侧体感与云侧ROI同期推到了新的高度。
对端侧产物而言,这意味着畅通;对云霄工业场景而言,这意味着同等资本下的笼统翻倍。
参数更大,跑得更快,这听起来就像是物理学不存在了。但这背后,是两个荒谬硬核的架构翻新。
技巧深扒:这成果「外挂」是怎样开的?
为什么一个比Qwen3.5-0.8B参数更大的模子,反而跑得更快?
谜底藏在MiniCPM-V 4.6的两项中枢架构翻新里:一个是ViT架构翻新,另一个是4倍/16倍混杂视觉token压缩率。
ViT架构重构
LLaVA-UHD v4开路
传统ViT(视觉编码器) 在编码图像时,会让多量冗余视觉token一起跑整个程,开云体育·(KAIYUN SPORTS)官方网站形成显贵的算力虚耗。
就像个直率的打工东说念主,收到一堆视觉Token(图像信息块),不管有效没用、全部拉通处罚一遍,筹划量遍及。
而MiniCPM-V 4.6失当「教悔东说念主」,给与了面壁智能和谐清华大学自研的LLaVA-UHD v4技巧,在 ViT 里面很早就把没用的Token给优化掉了,提前完成视觉token的压缩,算力径直约略约50%!
也就是说,仅在图像编码这一门径,MiniCPM-V 4.6就比传统ViT道路少跑了一半的支出,且性能不掉点。
这亦然为什么 MiniCPM-V 4.6固然参数比Qwen3.5-0.8B略大,却在推理成果上达成反超的根柢原因。
具体是怎样作念到的?
主如果LLaVA-UHD v4围绕两个标的作念了优化:怎样更高效地看高清大图,以及怎样更早地减少视觉Token带来的筹划背负。
一是「切片大法」:不傻乎乎地处罚整张高清大图,而是先切成小块,分而治之。这么Attention筹划量就不会随别离率指数爆炸。MiniCPM-V 4.6的盘考团队作念了不同尺寸和不同数据量的模子考试,讲解切片比较于全局编码不掉点——这实质是一个「反知识」的技巧突破。
二是「提前压缩」:最要害的一步。在ViT刚启动责任没多久,就用一个小巧的压缩模块(Intra-ViT Early Compressor)把Token数目压下来。这么一来,后续ViT层的筹划支出约略75%+。

LLaVA-UHD v4 论文推敲:https://huggingface.co/papers/2605.08985
通过这一假想,视觉Token压缩不错踏实地前移到 ViT 浅层,在大幅裁减后续筹划量的同期,仍然保抓较好的图像表征质料和卑劣任务进展。
这就是MiniCPM-V 4.6「成果反超」的好意思妙刀兵:在最耗算力的门径,只干最该干的活。
4倍/16倍混杂压缩
给足缔造者选拔权
视觉token压缩率,影响的是显存占用、首响延伸、推理笼统、功耗这些中枢成果办法,压缩率越高,反映速率就越快。
市面上的多模态大模子,绝大部分皆焊死在了固定的4倍压缩上。而MiniCPM-V系列从2024年起就当先扶植16倍压缩,此前扶植在4倍/16倍中二选一,但此次MiniCPM-V 4.6达成了鱼和熊掌可兼得:
4倍花式(精度更高):符合高条目识别任务,如文档解析、密集翰墨识别等。跑文档识别、医疗影像这种任务,一个像素皆不成错。
16倍花式(速率更快):跑手机端及时交互、云霄高并发API,速率就是生命线。
这个假想,让并吞个模子既能塞进手机里作念你的随身AI,又能部署在云霄扛住千万级日活。两全其好意思,缔造者便无需作念弃取。
这可不是PPT技巧。快手的保举大模子OneRec,扛下主场景25%的流量,就给与了MiniCPM-V系列模子。16倍压缩的工业级实战才调,已经被真金白银考证过了。

论文地址:
https://arxiv.org/abs/2502.18965
只需一张 4090
为「魔改」而生的开源生态
技巧再牛,部署和微调不行、缔造者照样不买账。
面壁智能此次径直把缔造者体验拉满了。
最炸裂的极少是:一张消费级的RTX 4090,就能无缺跑下全量微调!
这意味着什么?非论是孤苦缔造者、小团队照旧学术圈,多模态模子的定制化缔造,皆能用得起MiniCPM-V 4.6,门槛从「办事器集群」径直降到了「一台高性能PC」。这才是着实的AI普惠!
配套的器用链也安排得清鲜明白!
MiniCPM-V 4.6达成了与面前主流开源生态的全面无缝对接,让缔造者澈底告别繁琐的环境竖立:
微调:原生扶植最火的LLaMA-Factory和ms-swift——
微调框架
LLaMA-Factory:
MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook
ms-swift:
MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook
推理:vLLM、SGLang、llama.cpp、Ollama全家桶无缝衔尾——
推理框架:
vLLM:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md
SGLang:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md
llama.cpp:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md
Ollama:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md
极低的显存占用、极高的并发笼统量、完备的高卑劣器用链——不错说MiniCPM-V 4.6天生就是为了被「魔改」而生,是缔造者用于构建高并发筹划、极速反映的垂直利用的高性价比多模态底座。
它把最硬核的底层优化作念完,把最纯果然考订空间留给了社区。
附端侧部署指南:
https://github.com/tc-mb/MiniCPM-V-edge-demo/blob/main/README_zh.md
从「被抄袭」到「界说者」
端侧 AI 的中国叙事
从2024年4月的V 2.0算起,MiniCPM-V已经走过了6代。

戒指2026年3月,MiniCPM-V系列在开源社区累计下载量已接近3000万,屡次霸榜GitHub Trending与HuggingFace趋势榜。
在产业落地端,已先后办事于联思、祯祥、上汽各人、广汽、马自达、红旗等厂商,遮蔽汽车、PC、手机、智能家居等多场景。
回来面壁智能的MiniCPM-V系列,你会发现一条荒谬了了的进化旅途——追求极致的「智能密度」。
也就是,用最小的代价,干最智能的事。
从2024年面壁智能密度定律登上《Nature子刊》,到MiniCPM-V2.5被斯坦福盘考团队「套壳」激励全球温雅,再到今天MiniCPM-V 4.6用1.3B模子再行界说端侧成果,面壁智能已经变成端侧AI赛说念的最大「界说者」。
MiniCPM-V 4.6的发布,不仅仅一个更强的模子,更是一个信号:端侧AI的「和解」时期,正在收场。
MiniCPM-V 4.6讲解了:1B多模态模子不错又强又快又省,也不错同期担任端侧最好基座和云霄高并发利器。
面壁在作念的事情,从来不是卷参数、卷榜单。
他们在用一种近乎过头的面貌,把AI才调塞进每一块你能思到的屏幕里——手机、平板、车载屏、智能家居面板、工场质检末端……但凡有屏幕、有芯片的地点,皆是他们思遮蔽的场景。这即是所谓「智周万物」。