Databricks称:顶级AI模型在日常企业任务中落后,更小的专业化模型表现更佳

Gate News消息,4月20日——根据Databricks的David Meyer表示,顶级AI模型在解决奥林匹克数学等复杂问题上表现出色,但在日常企业工作中却会遇到困难。有些模型可能会把错误的发票号码改正掉,而不是将其标记为错误;而像Claude这样的编码工具在数据工程任务上也可能表现不佳。

这一差距源于企业数据与用于训练大型模型的公开网页文本之间的根本差异。企业数据中常见模糊的列名、大量空字段,以及以纯文本形式存储的代码。在一项学术研究中,用于数据工程任务的AI模型,其F1分数(平衡精确率与召回率)从在公开数据上达到的0.94,降到了在企业数据上的0.07。此外,大型模型往往会默认使用训练中熟悉的模式;即使在收到关于公司专有查询语言的指令与文档后,仍有一些模型默认使用结构化查询语言 (SQL)。

经过强化学习调优的小型开源模型能够以更高效率处理特定工作,并且其训练成本显著低于大型通用模型。Databricks正在为特定工作流程构建更小的AI代理,例如KARL,它使用强化学习进行带公司文档的多步骤推理。行业正在从依赖巨型模型转向混合架构:由小而高效的模型处理日常海量任务,然后只在遇到不清楚或复杂的情况时才升级到更大、更昂贵的系统。

Databricks最近收购了Quotient AI,以帮助大型企业更可靠地运行AI代理。如今,AI业务的竞争焦点在于运行完整的AI生命周期,包括用于追踪错误的反馈系统,并随着时间持续改进模型;因此,评估与调优工具在部署之后变得愈发有价值。

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น