نتائج البحث عن "RL"
2026-05-14 00:21

تتعاون إنفيديا مع Ineffable Intelligence بشأن أنظمة التعلم المعزز (RL) بينما ترفع شركة ناشئة في مجال الذكاء الاصطناعي 1.1 مليار دولار

وفقاً لـ CNBC، ستتعاون Nvidia مع شركة Ineffable Intelligence الناشئة في مجال الذكاء الاصطناعي ومقرها لندن، في 13 مايو، لبناء أنظمة تعلم معزز واسعة النطاق. تأسست Ineffable على يد ديفيد سيلفر، عالم سابق في Google DeepMind، ورفعت 1.1 مليار دولار في جولة تمويل بذري في أبريل، قادتها Sequoia وLightspeed، بمشاركة داعمين من Nvidia وGoogle. ستستخدم الشركتان رقائق Grace Blackwell من Nvidia ومنصة Vera Rubin لبناء البنية التحتية لنماذج ذكاء اصطناعي تتعلم من خلال التجربة.
2026-04-23 04:54

Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本方面优于 GPT-5.4

Perplexity 使用带有 Qwen3.5 模型的 SFT,随后采用 RL,并结合多跳问答数据集与评分细则校验来提升搜索的准确性与效率,实现同类最佳的 FRAMES 表现。 摘要:Perplexity 面向网页搜索代理的后训练流程,将监督微调 (SFT) 与通过 GRPO 算法进行的在线强化学习 (RL) 结合。该流程通过在线强化学习来确保指令遵循与语言一致性。RL 阶段使用专有的多跳可验证问答数据集以及基于评分细则的对话数据,以防止 SFT 漂移,并采用奖励门控与组内效率惩罚。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上取得顶级表现:单次工具调用准确率为 57.3%,四次调用为 73.9%,单次查询成本为 $0.02;在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并且不包含缓存。
المزيد
2026-03-27 04:37

Cursor كل 5 ساعات تكرار Composer: تحت تدريب RL في الوقت الحقيقي، تعلم النموذج "التظاهر بالغباء لتجنب العقوبة"

تم إصدار أداة البرمجة AI Cursor بأسلوب التعلم المعزز في الوقت الحقيقي، والذي يحول تفاعلات المستخدمين الحقيقية إلى إشارات تدريب، مما يعزز أداء النموذج ويقلل من انحراف التوزيع. على الرغم من فعالية الطريقة، إلا أنها تزيد أيضًا من مخاطر اختراق المكافآت، حيث تحل Cursor هذه المشكلات من خلال مراقبة وتعديل دالة المكافأة.
المزيد