Meta 发表多模态 Llama 3.2 开源模型，视觉领先 GPT4o-mini，还有适合装在手机的 1B 版本

AI 进步速度真的快得吓人，继 7 月底时 Meta 推出 Llama 3.1 之後，才过 2 个月时间，Meta 又再度推新开源模型「Llama 3.2」，而且这次厉害地方在：支援多模态，意味着现在 Llama 3.2 可以读图像资讯了。

不仅如此，Llama 3.2 还有推出适合在笔电、手机本地运行的 3B 和 1B 版本，现在已经可以下载试用。

支援多模态的 Meta Llama 3.2 开源模型登场，共有四种版本

这次 Meta Llama 3.2 开源模型共有四种版本

Llama 3.2 90B Vision：目前 Meta最先进的模型，与 11B 模型类似，但支援更进阶的图像推理应用，可以处理更大范围和更复杂的图表、地图等视觉资料，以及提供更准确和详细的图像描述和推理结果。
Llama 3.2 11B Vision：支援图像推理应用，包括文件级理解（如图表和图形），能做到用自然语言描述图像中的物体、快速回答图表中企业最佳销售月份资料、以及透过地图推理出，走路路线的坡度变化，或特定路径距离等问题
Llama 3.2 3B：与 1B 模型相似，具备更强大的多语言文字生成和工具调用能力，支援更复杂的应用场景和多样化的任务需求，适合在笔电中运行。
Llama 3.2 1B：轻量级模型，拥有高效的多语言文字生成能力，能摘要最近的消息、提取行动项目等，适合在行动装置上运行。

Meta 也有提供一些范例，像是视觉模型，上传图後，就会透过文字描述出这张图，接着可以针对文字提示，找出符合的图像内容：

在手机上运行 Llama 3.2，可以当成作为文字编辑助手、总结 Demo、或是重写内容，Meta 还说为了让移动装置能更相容运行模型，进行更多创新，他们有跟高通、联发科、ARM 合作，未来会分享更多相关资讯：

而跟其他模型效能比较部分，Meta 也有分享一些实测数据，首先是 11B 和 90B 版本，比对对象是 Claude 3 – Haiku 和 GPT-4o-mini。

图像测试的 MMMU 中，11B 以 50.7 赢过 Claude 3 – Haiku 的 50.2；90B 则以 60.3 赢过 GPT-4o-mini 的 59.4
MMU-Pro, Stadard 和 MathVista 也是 Llama 3.2获胜，不过 Vision 模式 90B 的 33.8 稍微落後 GPT-4o-mini
文字测试的 MMLU 中，90B 赢过 GPT-4o-mini，11B 则小输 Claude 3 – Haiku。
MATH测试 11B赢Claude 3 – Haiku不少。
GPQA 和 MGSM表现都差不多。

Llama 3.2 的 1B 和 3B 比对对象是 Gemma 2 2B IT 和 Phi-3.5-mini IT，所有测试中，长内容部分 Llama 3.2 优势比较明显，其他有赢有输，大图部分可以到 Meta官网查看：

目前 Llama 3.2 已经在 Meta 官网和 Hugging Face 网站上开放下载，有需要的人可以按前方连结跳转。