快讯网首页 |资讯 |财经 |娱乐 |汽车 |时尚 |房产 |健康 |数码 |社会 |图片 |消费 |大盘 |互联网金融 |新车 |试驾 |化妆品 |奢侈品 |二手房 |两性 |曝光台

DeepSeek-R1,正在接受全球网友真金白银的检验

发布时间:2025-01-23 16:47:51  来源:快科技 游览:
  1月23日,DeepSeek-R1,正在接受全球网友真金白银的检验。

  花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  为了玩上这样的模型,有人花上10多万元,组7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  总计496G显存(64*7+48),才能跑起个4bit量化版,但属实算得上“家用AGI”配置了。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  另一个极端是选择R1数据蒸馏版Qwen 1.5B小模型,小到浏览器就能跑,每秒能输出60个tokens。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。

  R1正横扫各大榜单。

  首先是LiveBench,与LiveCodeBench一样,题目是随时间更新的,所以相对受认可。

  R1的表现在o1-preview到o1之间,其中只有数据一项超过o1。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  不过再带上成本成本约1/30这个条件看,又是不一样的感觉,给老哥整无语了。

  唯一的抱怨是上下文窗口太短。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  o1系列一战成名的ARC-AGI,测试结果分为公开数据和私有数据两部分。

  DeepSeek R1在私有数据上解决了15.8%的问题,与DeepSeek-V3相比翻倍还多。

  公开数据上更是解决了20.5%的问题,与DeepSeek-V3相比上涨约46%。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  总的来看,DeepSeek-R1表现与o1-preview相近,但稍低。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  但同样,带上几毛钱就能解决一道题,o1系列至少要10块钱这个背景来看,又是不一样的感觉。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  考验任务规划能力的PlanBench,同样的剧本再次上演。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  在开发者Xeophon自己的个人测试上,甚至超过了o1-preview。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  同一个测试上,R1数据蒸馏的Qwen 32B,与DeepSeek-V3,GPT-4o和Gemini Flash处于同一水平。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

  最后,还有人从中看到新的创业机会。

  谁来构建一个平台,能轻松地在DeepSeek R1上进行OpenAI风格的强化微调。

  至少在短期内,是一个巨大的机会。

  R1在正确数据和微调方法下,可能在特定任务上大幅提升。

最壕的DeepSeek玩家:10多万元8台Mac、显存达496GB

参考链接:

  [1]https://x.com/alexocheema/status/1881561143736664180

  [2]https://x.com/reach_vb/status/1881809400995934640

  [3]https://livebench.ai/#/[2]https://x.com/arcprize/status/1881761987090325517

  [4]https://x.com/TheXeophon/status/1881443117787984265

32.8K
猜您喜欢
热点图片/ Hot picture
排行搒/ The total ranking
热点推荐/ Hot recommendation
  • Copyright © 2012-2025 www.kxnews.cn, All Rights Reserved 版权所有:快讯网 冀ICP备08108040号 冀公网安备 13108202000311号
    欢迎广大网友来本网站投稿,网站内容来自于互联网或网友提供 邮箱:jU6RR2GMQ1@outlook.com