MIT Kaiming He 的团队发布 ELF 语言扩散模型,使用 450 亿训练代币

根据 Beating,MIT Kaiming He 的团队最近发布了 ELF(Embedded Language Flows),一种语言扩散模型,它不同于 GPT 类模型所使用的自回归“预测下一个 token”方法。相反,ELF 在连续嵌入空间中进行文本生成,并仅在最后一步转换为离散 token。

在 OpenWebText 的无条件生成基准中,参数量为 105M 的 ELF-B 在 32 步采样下实现了约 24.1 的生成困惑度(Gen. PPL),优于多种离散与连续扩散语言模型基线。值得注意的是,ELF-B 仅需要约 450 亿训练 token,大约比可比方法少一个数量级,而这些方法通常超过 5000 亿 token。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论