Gate News 消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其针对网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确率与工具使用效率。
强化学习阶段使用 GRPO 算法,并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,要求推理 2–4 跳,并通过多求解器验证;以及基于评分标准的通用对话数据,将部署需求转换为客观可检验的原子条件,从而防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或满足所有评分标准),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,且该基线以同一组中正确答案的长度为准。
评估结果表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (四次工具调用) 条件下,它以每次查询 $0.02 实现 73.9% 准确率;相比之下,GPT-5.4 为每次查询 $0.085 且准确率 67.8%,Sonnet 4.6 为每次查询 $0.153 且准确率 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Google Thử nghiệm tác nhân AI 'Remy' cho Gemini, đối đầu Mở OpenClaw
Theo Business Insider, Google đang thử nghiệm một tác nhân AI mới có tên Remy cho Gemini vào ngày 6 tháng 5. Tác nhân này hiện chỉ có sẵn cho nhân viên trong ứng dụng Gemini nội bộ của Google, có thể thực hiện các hành động thay mặt người dùng trên nhiều mảng như công việc, học tập và các nhiệm vụ hằng ngày, đồng thời tích hợp với các sản phẩm khác của Google
GateNews36phút trước
Meta Lên Kế Hoạch Trợ Lý AI Được Cung Cấp Bởi Mô Hình Muse Spark để Cạnh Tranh OpenClaw, Nhắm Tới 3 Tỷ Người Dùng vào Ngày 6 Tháng 5
Theo Financial Times, Meta đang xây dựng một trợ lý AI được cá nhân hóa cao, ra mắt vào ngày 6/5, nhằm cạnh tranh với OpenClaw, được cung cấp bởi mô hình Muse Spark mới của công ty. Công cụ này sẽ phục vụ hơn 3 tỷ người dùng của công ty và hiện đang trong giai đoạn thử nghiệm nội bộ. Trợ lý hướng đến việc cho phép người dùng tạo AI
GateNews36phút trước
WorldClaw và WLFI Ra mắt WorldRouter, cung cấp quyền truy cập hơn 300 mô hình AI với chi phí thấp hơn 30%
Theo Foresight News, hệ điều hành AI Agent WorldClaw đã hợp tác với dự án tiền mã hóa của gia đình Trump là WLFI để ra mắt WorldRouter. Nền tảng này cho phép người dùng truy cập hơn 300 mô hình AI phổ biến thông qua một tài khoản duy nhất, với phí thấp hơn khoảng 30% so với từng mô hình tương ứng.
GateNews38phút trước
Cloudflare: Tác nhân AI thúc đẩy lưu lượng truy cập không phải của con người, x402 cung cấp giải pháp
Giám đốc Chiến lược của Cloudflare cho biết hơn một nửa lưu lượng truy cập internet hiện nay là không phải của con người, cho thấy một sự thay đổi lớn trong các mô hình sử dụng web do tác động của các tác nhân AI và hệ thống tự động. Vị điều hành cũng cho rằng x402 Foundation đang xây dựng hạ tầng để giải quyết những thách thức
CryptoFrontier2giờ trước
Solana Foundation, Google Cloud ra mắt hệ thống thanh toán cho tác nhân AI Pay.sh
Quỹ Solana đã hợp tác với Google Cloud để phát triển Pay.sh, một hệ thống thanh toán mới dành cho bot AI, cho phép các tác nhân khám phá, truy cập và thanh toán cho việc sử dụng API bằng stablecoin trên Solana, theo một thông báo hôm thứ Ba. Thông qua chuẩn mở này, các tác nhân AI sẽ có thể
CryptoFrontier7giờ trước
Anthropic ra mắt 10 tác nhân AI cho dịch vụ tài chính vào thứ Ba
Anthropic đã ra mắt 10 tác nhân AI mới vào hôm thứ Ba, được thiết kế để xử lý các tác vụ dịch vụ tài chính bao gồm soạn thảo bài thuyết trình cuộc họp với khách hàng, rà soát báo cáo tài chính và chuyển vụ việc lên để xem xét tuân thủ. Các công cụ này nhắm tới các chuyên gia trong lĩnh vực ngân hàng, bảo hiểm, quản lý tài sản và fintech
GateNews9giờ trước