Meta 发表多模态 Llama 3.2 开源模型,视觉领先 GPT4o-mini,还有适合装在手机的 1B 版本

on

|

views

and

comments

AI 进步速度真的快得吓人,继 7 月底时 Meta 推出 Llama 3.1 之後,才过 2 个月时间,Meta 又再度推新开源模型「Llama 3.2」,而且这次厉害地方在:支援多模态,意味着现在 Llama 3.2 可以读图像资讯了。

不仅如此,Llama 3.2 还有推出适合在笔电、手机本地运行的 3B 和 1B 版本,现在已经可以下载试用。

支援多模态的 Meta Llama 3.2 开源模型登场,共有四种版本

这次 Meta Llama 3.2 开源模型共有四种版本

  • Llama 3.2 90B Vision:目前 Meta最先进的模型,与 11B 模型类似,但支援更进阶的图像推理应用,可以处理更大范围和更复杂的图表、地图等视觉资料,以及提供更准确和详细的图像描述和推理结果。
  • Llama 3.2 11B Vision:支援图像推理应用,包括文件级理解(如图表和图形),能做到用自然语言描述图像中的物体、快速回答图表中企业最佳销售月份资料、以及透过地图推理出,走路路线的坡度变化,或特定路径距离等问题
  • Llama 3.2 3B:与 1B 模型相似,具备更强大的多语言文字生成和工具调用能力,支援更复杂的应用场景和多样化的任务需求,适合在笔电中运行。
  • Llama 3.2 1B:轻量级模型,拥有高效的多语言文字生成能力,能摘要最近的消息、提取行动项目等,适合在行动装置上运行。

Meta 也有提供一些范例,像是视觉模型,上传图後,就会透过文字描述出这张图,接着可以针对文字提示,找出符合的图像内容:

在手机上运行 Llama 3.2,可以当成作为文字编辑助手、总结 Demo、或是重写内容,Meta 还说为了让移动装置能更相容运行模型,进行更多创新,他们有跟高通、联发科、ARM 合作,未来会分享更多相关资讯:

Llama 3.2跟其他竞争模型比较

而跟其他模型效能比较部分,Meta 也有分享一些实测数据,首先是 11B 和 90B 版本,比对对象是 Claude 3 – Haiku 和 GPT-4o-mini。

  • 图像测试的 MMMU 中,11B 以 50.7 赢过 Claude 3 – Haiku 的 50.2;90B 则以 60.3 赢过 GPT-4o-mini 的 59.4
  • MMU-Pro, Stadard 和 MathVista 也是 Llama 3.2获胜,不过 Vision 模式 90B 的 33.8 稍微落後 GPT-4o-mini
  • 文字测试的 MMLU 中,90B 赢过 GPT-4o-mini,11B 则小输 Claude 3 – Haiku。
  • MATH测试 11B赢Claude 3 – Haiku不少。
  • GPQA 和 MGSM表现都差不多。

Llama 3.2 的 1B 和 3B 比对对象是 Gemma 2 2B IT 和 Phi-3.5-mini IT,所有测试中,长内容部分 Llama 3.2 优势比较明显,其他有赢有输,大图部分可以到 Meta官网查看:

Llama 3.2哪里可以下载

目前 Llama 3.2 已经在 Meta 官网和 Hugging Face 网站上开放下载,有需要的人可以按前方连结跳转。

openvpn是什么软件

热门文章

首幅画作以108万美元成交 机器人艾达将受访

AI机器人「艾达」(Ai-Da)首件画作已经透过苏富比拍卖行出售,原先预计售价为120,000至180,000美元,但最终买家以高达108万美金的惊人价格拍下。

储能/需量反应带来巨大价值 绿色微电网进可攻退可守

用电量不容小觑的资料中心,已成为地区电网能否稳定运作的新考验。如果资料中心运作所需的电力,能有一部分透过结合绿...

Google AI Overviews 支援超过 100 个国家,台湾也能用

透过 Google 搜寻中的 AI 总览(AI Overviews),用户能以自然对话方式,比以往更有机会找到所需要的资讯。 Google AI 总览本周起拓展至全球超过 100 个国家和地区,并提供更多语言版本,如加拿大、澳洲、纽西兰、南非、哥伦比亚、智利、菲律宾及台湾等用户都能使用。Google...

最新文章

相关推荐

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x