AI 进步速度真的快得吓人,继 7 月底时 Meta 推出 Llama 3.1 之後,才过 2 个月时间,Meta 又再度推新开源模型「Llama 3.2」,而且这次厉害地方在:支援多模态,意味着现在 Llama 3.2 可以读图像资讯了。
不仅如此,Llama 3.2 还有推出适合在笔电、手机本地运行的 3B 和 1B 版本,现在已经可以下载试用。
支援多模态的 Meta Llama 3.2 开源模型登场,共有四种版本
这次 Meta Llama 3.2 开源模型共有四种版本
- Llama 3.2 90B Vision:目前 Meta最先进的模型,与 11B 模型类似,但支援更进阶的图像推理应用,可以处理更大范围和更复杂的图表、地图等视觉资料,以及提供更准确和详细的图像描述和推理结果。
- Llama 3.2 11B Vision:支援图像推理应用,包括文件级理解(如图表和图形),能做到用自然语言描述图像中的物体、快速回答图表中企业最佳销售月份资料、以及透过地图推理出,走路路线的坡度变化,或特定路径距离等问题
- Llama 3.2 3B:与 1B 模型相似,具备更强大的多语言文字生成和工具调用能力,支援更复杂的应用场景和多样化的任务需求,适合在笔电中运行。
- Llama 3.2 1B:轻量级模型,拥有高效的多语言文字生成能力,能摘要最近的消息、提取行动项目等,适合在行动装置上运行。
Meta 也有提供一些范例,像是视觉模型,上传图後,就会透过文字描述出这张图,接着可以针对文字提示,找出符合的图像内容:
在手机上运行 Llama 3.2,可以当成作为文字编辑助手、总结 Demo、或是重写内容,Meta 还说为了让移动装置能更相容运行模型,进行更多创新,他们有跟高通、联发科、ARM 合作,未来会分享更多相关资讯:
Llama 3.2跟其他竞争模型比较
而跟其他模型效能比较部分,Meta 也有分享一些实测数据,首先是 11B 和 90B 版本,比对对象是 Claude 3 – Haiku 和 GPT-4o-mini。
- 图像测试的 MMMU 中,11B 以 50.7 赢过 Claude 3 – Haiku 的 50.2;90B 则以 60.3 赢过 GPT-4o-mini 的 59.4
- MMU-Pro, Stadard 和 MathVista 也是 Llama 3.2获胜,不过 Vision 模式 90B 的 33.8 稍微落後 GPT-4o-mini
- 文字测试的 MMLU 中,90B 赢过 GPT-4o-mini,11B 则小输 Claude 3 – Haiku。
- MATH测试 11B赢Claude 3 – Haiku不少。
- GPQA 和 MGSM表现都差不多。
Llama 3.2 的 1B 和 3B 比对对象是 Gemma 2 2B IT 和 Phi-3.5-mini IT,所有测试中,长内容部分 Llama 3.2 优势比较明显,其他有赢有输,大图部分可以到 Meta官网查看:
Llama 3.2哪里可以下载
目前 Llama 3.2 已经在 Meta 官网和 Hugging Face 网站上开放下载,有需要的人可以按前方连结跳转。