最大参数超 1400 亿,2 名核心团队成员却离职,Llama 3 被爆 7 月解禁剑指 GPT-4。

seekdeep2年前AI资讯738

Meta 将推出 Llama 3 大模型,性能超 Llama 2。



【导读】外媒称,Llama 3 或将在 7 月发布,并解除了一些限制能回答更棘手的问题,而且对多重语境理解更加到位,至于是否有多模态能力还不确定。

谷歌 Gemma 大模型开源,彻底改变了开源格局。


AI 圈逐渐形成了 Llama、Gemma、Mistral 三足鼎立之势。


Information 独家报道称,Meta 计划在今年 7 月开始推出全新开源大模型 Llama 3。


Llama 3 最大版本预计有超 1400 亿参数,性能远超 Llama 2。不过 Llama 3 是否具备多模态能力,暂时未知。



近来,谷歌 Gemini 生图能力一夜塌房,被网友吵上热搜。

而 Meta 正在通过下一代模型 Llama 3 升级,处理类似的问题。



谷歌 Gemini 一夜塌房,Meta 警惕加倍

上周,谷歌不得不撤回 Gemini 聊天机器人的图像生成功能。


因其生成了一些历史不准确的图像,比如穿纳粹制服的有色人种,一个 19 世纪没有白人男性的参议员团体等等。



在一篇博客文章中,谷歌的高级副总裁 Prabhakar Raghavan 表示:

公司已经调整了该功能,以确保它不会陷入图像生成技术过去遇到的一些问题,如生成暴力或色情图像。



但这个调整,导致 Gemini 在某些情况下的回答过度保守。

与此同时,Llama 2 同样存在的一个问题是——对于任何有争议的问题,所提供的答案帮助不大。


这是因为,Meta 在去年 7 月发布时,便增加了一项安全措施。


然而,在 Meta 高层领导和模型研究人员看来,这些措施会导致 Llama 2 过于「保守」。



举个例子,在一些特定主题上,比如关于如何制造炸弹,或如何谋杀某人的问题上,Llama 2 的回答很合理。

但是,对于一些不那么有争议的问题,比如员工如何在强制上班日不去办公室?


Llama 2 却没有给出任何建议。


只是回答:「尊重并遵守公司的政策和指导方针是重要的」。


另外,对于那些如何恶作剧整朋友、赢得战争、破换汽车引擎的问题,Llama 2 直接拒答。


正是因为 Meta 对 Llama 2 的加倍警戒,小心谨慎,才使得自己避免像谷歌那样面对的公关灾难。


Llama 3 更开放?


不过,现在研究人员正试图,让 Llama 3 在面对棘手问题时,能够更加积极地与用户交流。


让其能够提供背景信息,而不是直接回避这些问题。


据了解,Llama 3 能更好地区分一个词的多种含义。


比如,询问如何「杀死」汽车引擎——实际上指如何「关闭」它,而非真正要结束其性命。


Meta 还计划,在未来几周指定一名内部人员负责监督回答的语气和安全训练,让模型的回答更加细致入微。


Llama 3 将更加开放地处理棘手问题的计划,凸显了 AI 公司在试图打造有趣的模型,与防止其因不当或不准确的言论而引发负面影响之间,正做出平衡。


据称,Llama 3 将在 7 月发布,不过具体时间可能会有所变动。



Meta 期望 Llama 3,能够追赶上 GPT-4,不过是否让 Llama 3 支持多模态还未有定论。

因为目前,研究人员还未对 Llama 3 进行微调。


据一位 Meta 的工作人员透露,Llama 3 的最大版本可能拥有超过 1400 亿个参数。


这些参数设置编码了模型在训练过程中学习到的知识,远超 Llama 2。


通常,模型越大,其返回的结果越准确,但运行速度可能会较慢。


团队成员离职


同时,尽管人们对 Llama 3 的发布充满期待,Meta 也面临着与人才争夺的挑战。


据两位直接了解情况的人士透露,负责 Llama 2 和 3 安全的研究员 Louis Martin 以及负责强化学习的 Kevin Stone 本月都已离职。


Louis Martin 从 2021 年从 Facebook AI Research 博士毕业后,就职于 Meta 任 AI 研究科学家,从事自然语言处理的工作。


从 23 年 4 月,他成为 Meta AI 安全团队的技术负责人,主要专注于 Llama 模型的安全防护。



而 Kevin Stone 从 2022 年 6 月加入 Meta 后,一直为 Llama 2 项目设计和编写了大量 RLHF 代码。


35 万块 H100 训出 Llama 3

不管怎么说,Llama 是 Meta 战略中,不可或缺的一部分。


这家社交网络巨头希望通过 AI 技术,不仅提高其广告工具的效能,还增加其社交媒体应用的吸引力。


小扎最近对投资者表示,今年的重点包括推出 Llama 3 以及「扩展我们 Meta AI 助手的功能」。


1 月,小扎曾官宣,全力搞「开源 AGI」!


目前,Meta 内部正在训练下一代模型 Llama 3。截止年底,将会有近 35 万块 H100 搭建的基础设施。


小扎称,「如果算上英伟达 A100 和其他 AI 芯片,到 2024 年底,Meta 将拥有近 60 万个 GPU 等效算力」。



关于 Meta 下一代模型的消息,此前也有传言称,Llama 3 的实力堪比 GPT-4,而且还是免费开源。

OpenAI 工程师、前谷歌大脑工程师 Jason Wei 去年 8 约在 Meta 组织的 Generative AI Group 活动中听说:


Meta 有足够的算力来训练 Llama 3 和 Llama 4。Llama 3 计划达到 GPT-4 的性能水平,但仍将免费提供



这次也算是,Meta 正式官宣 Llama 3 训练中,而且 LeCun 也表示最新模型很快就会上线。

从 2023 年 2 月,Llama 1 首次面世,到 7 约 Llama 2 的升级,Meta 花了大约 5 个月的时间。


当时,Llama 2 在某些应用上与 GPT-3.5 能力相媲美,而且还通过微调,额外功能让开源社区进行优化。



Llama 模型开源后所带来的是,模型生态大爆发。

据 Meta 统计数据显示,在世界最大开源社区平台 Hugging Face 上,Llama 模型的下载量超过 3000 万次。其中,仅在过去 30 天(9 月份)内就超过了 1000 万次。


另外,发布在 Hugging Face 的 Llama 版微调模型,已经多达 7000+ 个。


Llama 3 出世后,又将为开源社区带来另一片肥沃的土壤。


相关文章

普通人如何应对: AI技术冲击就业

人工智能正在以前所未有的速度改变我们的生活和工作方式。从智能客服到自动驾驶,从医疗诊断到金融分析,AI技术的应用场景不断扩大,引发社会各界对就业市场的深刻担忧。AI技术的广泛应用正在重塑就业市场格局。...

除了编程能力大幅提升,还有更宽松的开源协议:DeepSeek 发布 V3 模型更新!

除了编程能力大幅提升,还有更宽松的开源协议:DeepSeek 发布 V3 模型更新!

和上周不少朋友期待的一样,新一周第一天的北京时间 3 月 24 日晚,DeepSeek 果然「突然」发布了模型更新。但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的...

​听听来自不同领域学者的看法,如何看待ChatGPT!

在ChatGPT横空出世一年后,《自然》杂志首次破格将ChatGPT这位“非人类”列为全球重大科学事件中的十位人物之一。对于社会而言,ChatGPT最大的贡献也许在于它不仅使人望见生成式AI巨大的发展...

周期压缩八成 效率以一当十,深圳无处不AI AI设计师卷到珠宝界!

2025年早春,深圳水贝国际珠宝交易中心一开工就热火朝天。晨曦中,商户们陆续走进工坊,设计师坐到电脑前,客户到访工作室……这座“珠宝之都”的繁忙景象看似与往年无异,但敏锐的从业者已然察觉,在科技创新浪...

北大&字节提出VAR范式,GPT超越扩散、视觉生成Scaling Law时刻!

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws...

16核16G100G高速阵列1899元/年,双12云主机大促销!

16核16G100G高速阵列1899元/年,双12云主机大促销!

双12云主机大促销!配置:16核心16G内存 100G固态硬盘阵列 1个独立IP 可放免备案网站 特价1899元/年有需要联系皓网科技数据中心,微信手机同号:15979729816 &nbs...