标签: reinforcement-learning

All the articles with the tag "reinforcement-learning".

第37手与智能体
Published:Jan 29, 2025 at 10:00 AM
探索AlphaGo第37手的意义及其对AI智能体未来的影响，突出人工智能中意外创新如何革新各领域的问题解决。
DeepSeek R1：重写AI训练规则
Published:Jan 22, 2025 at 10:00 AM
发现 DeepSeek R1 如何通过在有监督数据为零的情况下在 AIME 上达到 71% 的准确率，颠覆了 AI 训练的范式。这一突破揭示了纯强化学习如何自发发展高级推理能力，可能消除庞大的数据需求并实现 AI 开发的民主化。对于寻求模型训练技术下一步演进的 ML 工程师和 AI 研究人员来说，这是一篇必读之作。

第37手与智能体