场外股票配资什么意思 Anthropic CEO:DeepSeek水平相当于10个月前美国主流模型,但成本低得多

  • 首页
  • 佛山股票配资平台
  • 配资炒股首选网站
  • 配资炒股网站必选
  • 你的位置:佛山股票配资平台_配资炒股首选网站_配资炒股网站必选 > 配资炒股网站必选 > 场外股票配资什么意思 Anthropic CEO:DeepSeek水平相当于10个月前美国主流模型,但成本低得多
    场外股票配资什么意思 Anthropic CEO:DeepSeek水平相当于10个月前美国主流模型,但成本低得多
    发布日期:2025-03-24 00:49    点击次数:104

    场外股票配资什么意思 Anthropic CEO:DeepSeek水平相当于10个月前美国主流模型,但成本低得多

    鞭牛士报道,1月30日消息场外股票配资什么意思,据外电报道,在周三的一篇文章中,Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 对中国人工智能公司 DeepSeek 的成功是否意味着美国对人工智能芯片的出口管制不起作用的争论进行了探讨。

    e2452c73-633a-434c-b432-10385d3ce37c.png

    Amodei 最近与美国前副国家安全顾问 Matt Pottinger 共同撰写了一篇专栏文章,呼吁加强出口管制。

    他在文章中表示,他认为当前的出口管制正在减缓 DeepSeek 等中国公司的进步。Amodei 表示,与美国最强大的人工智能模型相比,DeepSeek 在发布时间方面存在不足。

    「DeepSeek 生产的模型性能接近 7-10 个月前美国模型的性能,但成本却低得多(但远不及人们建议的比率)。」Amodei 说。「这是持续成本降低曲线上的一个预期点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。」

    Amodei 将 DeepSeek 的旗舰模型之一DeepSeek V3与 Anthropic 的Claude 3.5 Sonnet进行了比较,他说后者的训练成本高达数千万美元。

    Sonnet 的训练在 9 到 12 个月前就完成了,而 DeepSeek 的模型是在 11 月或 12 月训练的——然而,Amodei 指出,Sonnet 在许多内部和外部评估中仍然保持领先。

    「美国公司也在实现成本削减的正常趋势。」Amodei 补充道。「DeepSeek 开发的效率创新将很快被美国和中国的实验室应用于训练价值数十亿美元的模型。」

    Amodei 在文章中称 DeepSeek 是非常有才华的工程师,他们展示了为什么中国是美国的有力竞争对手。

    他预计,特朗普政府采取的出口政策将决定 DeepSeek 的未来走向。在特朗普上任之前,即将离任的拜登政府对硬件出口实施了新的限制,这些限制计划在未来几个月内生效,但如果特朗普愿意,这些限制可能会被取消。

    阿莫迪声称,如果特朗普加强出口规则,阻止中国获得阿莫迪所说的用于人工智能开发的数百万芯片,美国及其盟友可能会建立绝对的、持久的领先地位。

    阿莫迪担心,另一方面,如果美国不加大中国进口人工智能芯片的难度,中国可能会将更多的人才、资本和精力投入到人工智能技术的“军事应用上。

    「结合其庞大的工业基础和军事战略优势,这可能有助于中国在全球舞台上占据主导地位。」阿莫迪说。「需要明确的是,这里的目标并不是否认中国或任何其他专制国家从非常强大的人工智能系统中获得的科学、医学、生活质量等方面的巨大好处。每个人都应该能够从人工智能中受益。目标是防止他们获得军事优势。」

    看来 Amodei 很可能会得到他想要的结果。在周三的参议院听证会上,亿万富翁商人、特朗普挑选的商务部长 Howard Lutnick指责 DeepSeek 窃取了美国的知识产权。

    「这表明,我们的出口管制没有关税支持,就像打地鼠游戏一样。」卢特尼克说。「中国的关税应该是最高的。」

    作为商务部长,卢特尼克将在执行特朗普提高和执行关税的计划中发挥关键作用。

    Anthropic 的主要竞争对手 OpenAI 也呼吁特朗普政府采取更积极的措施,确保美国在人工智能领域的主导地位。

    OpenAI 在最近发布的一份政策文件中警告称,如果美国不能为人工智能项目吸引到必要的全球资金,这些资金将流向中国支持的项目,并加强中国的全球影响力。

    以下为阿莫迪全文:

    几周前,我主张美国加强对华芯片出口管制。自那以后,中国人工智能公司 DeepSeek 至少在某些方面以更低的成本接近美国前沿人工智能模型的性能。

    在这里,我不会关注 DeepSeek 是否对 Anthropic 等美国人工智能公司构成威胁(尽管我确实认为,许多关于它们对美国人工智能领导地位构成威胁的说法都被大大夸大了)注释1。相反,我将关注 DeepSeek 的发布是否会破坏芯片出口管制政策的理由。我认为不会。事实上, 我认为它们使出口管制政策比一周前更加重要。注释2。

    出口管制有一个至关重要的目的:让国家走在人工智能发展的前沿。需要明确的是,这不是避开美国和中国之间竞争的方法。归根结底,如果我们想获胜,美国和其他国家的人工智能公司必须拥有比中国更好的模式。但我们不应该在没有必要的情况下将技术优势拱手让给中国。

    人工智能发展的三大动力

    在我提出政策论点之前,我将描述理解人工智能系统的三个至关重要的基本动态:

    扩展定律。人工智能的一个特性(我和我的联合创始人 在 OpenAI 工作时是第一批记录下来的)是,在其他条件相同的情况下, 扩大人工智能系统的训练范围可以全面改善一系列认知任务的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,价值 1000 万美元的模型可能解决 40%,价值 1 亿美元的模型可能解决 60%,等等。这些差异在实践中往往会产生巨大的影响——另一个 10 倍可能对应于本科生和博士生技能水平之间的差异——因此公司正在大力投资训练这些模型。

    改变曲线。这个领域不断涌现出大大小小的想法,使事情变得更加有效或高效:这可能是对 模型架构的改进(对当今所有模型使用的 Transformer 基本架构进行调整),也可能只是一种在底层硬件上更有效地运行模型的方法。新一代硬件也有同样的效果。这通常会 改变曲线:如果创新是 2 倍的“计算乘数”(CM),那么它可以让您以 500 万美元而不是 1000 万美元的价格获得 40% 的编码任务;或者以 5000 万美元而不是 1 亿美元的价格获得 60% 的编码任务,等等。每个前沿 AI 公司都会定期发现许多这样的 CM:通常是小型的(~1.2 倍),有时是中型的(~2 倍),偶尔也会发现非常大的(~10 倍)。由于拥有更智能系统的价值如此之高,这种曲线的转变通常会导致公司 在训练模型上花费更多,而不是更少:成本效率的提高最终完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被“一开始很贵,然后会变得更便宜”的想法所吸引——好像人工智能是一个质量恒定的单一事物,当它变得更便宜时,我们会使用更少的芯片来训练它。但重要的是缩放曲线:当它移动时,我们只是更快地遍历它,因为曲线末端的价值是如此之高。2020 年,我的团队发表了 一篇论文,指出由于算法进步 导致的曲线变化 约为每年 1.68 倍。自那以后,这一速度可能已经大大加快;它也没有考虑到效率和硬件。我猜今天的数字可能是每年约 4 倍。另一个估计是 在这里。训练曲线的变化也会改变推理曲线,因此 多年来,在模型质量保持不变的情况下,价格大幅下降。例如,比原始 GPT-4 晚 15 个月发布的 Claude 3.5 Sonnet 在几乎所有基准测试中都胜过 GPT-4,同时 API 价格降低了约 10 倍。

    转变范式。每隔一段时间,正在扩展的底层内容就会发生一些变化,或者在训练过程中会添加一种新的扩展类型。从 2020 年到 2023 年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在其基础上进行少量其他训练。2024 年,使用 强化学习(RL) 训练模型以生成思维链的想法已成为扩展的新焦点。Anthropic、DeepSeek 和许多其他公司(也许最值得注意的是 9 月份发布了 o1 预览模型的 OpenAI)发现,这种训练极大地提高了某些选定的、客观可衡量的任务(如数学、编码竞赛)以及类似于这些任务的推理的性能。这种新范式涉及从普通类型的预训练模型开始,然后在第二阶段使用 RL 添加推理技能。重要的是,由于这种类型的强化学习是新的,我们仍处于扩展曲线的早期阶段:对于所有参与者来说,在第二个强化学习阶段花费的金额都很小。花费 100 万美元而不是 10 万美元就足以获得巨大的收益。各公司现在正在迅速努力将第二阶段的规模扩大到数亿甚至数十亿美元,但至关重要的是要明白,我们正处于一个独特的“交叉点”,其中有一个强大的新范式处于扩展曲线的早期阶段,因此可以快速获得巨大收益。

    DeepSeek 的模型

    上述三个动态可以帮助我们了解 DeepSeek 最近的发布。大约一个月前,DeepSeek 发布了一个名为“ DeepSeek-V3 ”的模型,这是一个纯粹的预训练模型3 — 即上文第 3 点中描述的第一阶段。然后上周,他们发布了“ R1 ”,其中增加了第二阶段。从外部无法确定这些模型的所有内容,但以下是我对这两个版本的最佳理解。

    DeepSeek-V3实际上是真正的创新, 一个月前就 应该引起人们的注意(我们确实注意到了)。作为预训练模型,它似乎在一些重要任务上的表现接近4 个 最先进的美国模型,同时训练成本大大降低(尽管我们发现 Claude 3.5 Sonnet 在其他一些关键任务(例如真实世界编码)上的表现尤其好)。DeepSeek 团队通过一些真正令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率上。在管理称为“键值缓存”的方面以及使称为“专家混合”的方法比以前更进一步方面,都有特别创新的改进。

    然而,仔细观察是很重要的:

    DeepSeek 不会“以 600 万美元完成美国 AI 公司花费数十亿美元完成的任务”。我只能代表 Anthropic 发言,但 Claude 3.5 Sonnet 是一个中型模型,训练成本高达几千万美元(我不会给出确切数字)。此外,3.5 Sonnet的训练方式并未涉及更大或更昂贵的模型(与一些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,DeepSeek 的模型是在 11 月/12 月进行的,而 Sonnet 在许多内部和外部评估中仍然遥遥领先。因此,我认为一个公平的说法是“ DeepSeek 生产的模型接近 7-10 个月前美国模型的性能,成本要低得多(但远不及人们建议的比例) ”。

    如果成本曲线下降的历史趋势是每年约 4 倍,这意味着在正常业务过程中——在历史成本下降的正常趋势中,例如 2023 年和 2024 年发生的情况——我们预计现在的模型比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由于 DeepSeek-V3 比美国前沿模型更差——假设在扩展曲线上差约 2 倍,我认为这对 DeepSeek-V3 来说相当慷慨——这意味着如果 DeepSeek-V3 的训练成本比一年前开发的当前美国模型低约 8 倍,这将是完全正常的,完全“符合趋势”。我不会给出一个数字,但从前面的要点可以清楚地看出,即使你从表面上看 DeepSeek 的训练成本,它们充其量也符合趋势,甚至可能甚至不符合趋势。例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异(10 倍)要小,而且 3.5 Sonnet 是一个比 GPT-4 更好的模型。 所有这些都表明,DeepSeek-V3 并不是一项独特的突破,也不是从根本上改变 LLM 经济的东西;它是持续成本降低曲线上的一个预期点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。 这种情况从未发生过,具有地缘政治意义。然而,美国公司很快就会效仿——他们不会通过复制 DeepSeek 来做到这一点,而是因为他们也在实现成本降低的通常趋势。

    DeepSeek 和美国 AI 公司都拥有比他们训练主要模型时更多的资金和芯片。额外的芯片用于研发以开发模型背后的理念,有时用于训练尚未准备好的大型模型(或需要多次尝试才能正确)。据报道 — — 我们不能确定它是否属实 — — DeepSeek 实际上拥有 50,000 个 Hopper 代芯片6,我猜这大约是美国主要 AI 公司所拥有芯片的 2-3 倍(例如,它比 xAI“ Colossus ”集群少 2-3 倍)7。这 50,000 个 Hopper 芯片的成本约为 10 亿美元。 因此,DeepSeek 作为一家公司的总支出(与训练单个模型的支出不同)与美国 AI 实验室并没有太大差别。

    值得注意的是,“缩放曲线”分析有些过于简单化,因为模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略了很多细节。我只能谈论 Anthropic 的模型,但正如我上面所暗示的,Claude 非常擅长编码,并且拥有精心设计的与人互动的风格(许多人用它来获得个人建议或支持)。在这些任务和其他一些任务上,DeepSeek 根本无法与之相比。这些因素没有出现在缩放数字中。

    R1是上周发布的模型,它引发了公众的强烈关注(包括 Nvidia 股价下跌约 17% ),但从创新或工程角度来看,它远不如 V3 那么有趣。它增加了第二阶段的训练——强化学习,如上一节第 3 点所述——并且基本上复制了 OpenAI 对 o1 所做的事情(它们的规模似乎相似,结果也相似) 8。但是,因为我们处于扩展曲线的早期阶段,所以只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。在 V3 的情况下生产 R1 可能非常便宜。因此,我们处于一个有趣的“交叉点”,暂时有几家公司可以生产出好的推理模型。随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。

    出口管制

    以上只是我感兴趣的主要话题的序言:对华芯片出口管制。鉴于上述事实,我认为情况如下:

    有一种趋势是,公司 在训练强大的人工智能模型上投入了越来越多的资金 ,尽管曲线会定期发生变化,训练特定水平的模型智能的成本会迅速下降。只是训练越来越智能的模型的经济价值是如此之大,以至于任何成本收益几乎都会立即被吃掉——它们被重新投入到制作更智能的模型中,而我们最初计划花费的成本与此相同。在美国实验室尚未发现的情况下,DeepSeek 开发的效率创新将很快被美国和中国的实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型——但他们仍将花费数十亿美元。这个数字将继续上升,直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的人工智能。

    制造出在几乎所有方面都比人类更聪明的人工智能将需要数百万个芯片,数百亿美元(至少),而且最有可能在 2026-2027 年实现。DeepSeek 的发布不会改变这一点,因为它们大致处于预期的成本降低曲线上,而这一直被计入这些计算中。

    这意味着,在 2026-2027 年,我们可能会陷入两个截然不同的世界。在美国,多家公司肯定会拥有所需的数百万个芯片(成本高达数百亿美元)。问题是中国是否也能获得数百万个芯片9。

    如果可以的话,我们将生活在一个两极世界,美国和中国都拥有强大的人工智能模型,这将推动科学技术的极速进步——我称之为“数据中心的天才国家”。两极世界不一定会无限期保持平衡。即使美国和中国在人工智能系统方面势均力敌,中国似乎也可能会将更多的人才、资本和精力投入到该技术的军事应用上。再加上其庞大的工业基础和军事战略优势,这可以帮助中国在全球舞台上占据主导地位,不仅是在人工智能领域,而是在所有领域。

    如果中国无法获得数百万个芯片,我们将(至少暂时)生活在一个单极世界,只有美国及其盟友拥有这些模型。目前尚不清楚单极世界是否会持续下去,但至少存在这样一种可能性,即 由于人工智能系统最终可以帮助制造更智能的人工智能系统,暂时的领先优势可以转化为持久的优势10。因此,在这个世界上,美国及其盟友可能会在全球舞台上占据主导地位并保持长期领先。

    只有严格执行出口管制11 才能阻止中国获得数百万芯片,因此也是决定我们最终是进入单极世界还是两极世界最重要的因素。

    DeepSeek 的表现并不意味着出口管制失败。正如我上面所说,DeepSeek 拥有中等到大量的芯片,因此他们能够开发并训练出强大的模型也就不足为奇了。他们的资源限制并不比美国 AI 公司严重,出口管制也不是促使他们“创新”的主要因素。他们只是非常有才华的工程师,并展示了为什么中国是美国的有力竞争对手。

    DeepSeek 也没有表明中国总能通过走私获得所需的芯片,或者管制总是有漏洞。我不相信出口管制的目的是阻止中国获得数万个芯片。10 亿美元的经济活动可以隐藏,但很难隐藏 1000 亿美元甚至 100 亿美元。100 万个芯片在物理上也很难走私。看看 DeepSeek 目前报道的芯片也是有启发性的。 根据 SemiAnalysis 的说法,这是 H100、H800 和 H20 的混合体,总计 5 万个。自发布以来,H100 就被出口管制禁止,所以如果 DeepSeek 有任何芯片,它们一定是走私来的(请注意,Nvidia 已声明 DeepSeek 的进展“完全符合出口管制”)。 H800 在 2022 年第一轮 出口管制中是被允许的,但在 2023 年 10 月管制 更新时被禁止,所以这些芯片可能是在禁令之前发货的。H20 的训练效率较低,采样效率较高——虽然我认为应该禁止,但仍然被允许。所有这些都表明,DeepSeek 的 AI 芯片群中似乎有相当一部分是由尚未被禁止(但应该被禁止)的芯片、在被禁止之前发货的芯片以及一些似乎很可能是走私的芯片组成。这表明出口管制确实在发挥作用和适应:漏洞正在被堵塞;否则,他们可能会拥有一支顶级的 H100 大军。如果我们能够足够快地堵塞它们,我们也许能够阻止中国获得数百万个芯片,从而增加美国领先的单极世界的可能性。

    鉴于我关注的是出口管制和美国国家安全,我想明确一点。我不认为 DeepSeek 本身是对手,重点也不是特别针对他们。在他们接受的采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。

    但他们受制于一个侵犯人权、在世界舞台上表现咄咄逼人的独裁政府,如果他们能在人工智能领域与美国匹敌,这些行动将更加不受约束。出口管制是 我们防止这种情况发生的最有力工具之一 ,而认为技术越来越 强大、性价比越来越高是解除出口管制的理由的想法完全没有道理。

    脚注

    1在本文中,我不会对西方模型的提炼报告持任何立场。在这里,我只是相信 DeepSeek 的说法,他们按照论文中说的方式进行训练 。

    2顺便说一句,我认为 DeepSeek 模型的发布对 Nvidia 来说显然不是坏事,而他们的股价因此而出现两位数(约 17%)的下跌令人费解。这次发布对 Nvidia 来说不是坏事的理由甚至比对 AI 公司来说不是坏事的理由更明显。但我在这篇文章中的主要目标是捍卫出口管制政策 。

    3准确地说,它是一个预训练模型,其中包含推理范式转变之前模型中典型的少量 RL 训练 。

    4它在一些非常狭窄的任务上表现更强 。

    5这是DeepSeek 论文中引用的数字 ——我只是照单全收,并不怀疑这部分内容,只是与美国公司模型训练成本的比较,以及训练特定模型的成本(600 万美元)与研发总成本(高得多)之间的区别。然而,我们也不能完全确定 600 万美元——模型大小是可验证的,但其他方面(如代币数量)则不可验证 。

    6在一些 采访中 ,我说他们有“50,000 块 H100”,这是对报道的一个微妙的错误总结,我想在这里纠正一下。迄今为止,最知名的“Hopper 芯片”是 H100(我猜想指的是它),但 Hopper 还包括 H800 和 H20,据报道 DeepSeek 拥有这三种芯片的混合,总计 50,000 块。这并没有改变太多情况,但值得纠正。当我谈论出口管制时,我会更多地讨论 H800 和 H20。

    7注:由于出口管制,我预计这一差距在下一代集群中会大大扩大 。

    8我怀疑 R1 受到如此多关注的主要原因之一是它是第一个向 用户展示模型所展现的思路推理的模型(OpenAI 的 o1 仅显示最终答案)。DeepSeek 表明用户对此很感兴趣。需要明确的是,这是一个用户界面选择,与模型本身无关。

    9请注意,中国自己的芯片短期内无法与美国制造的芯片竞争。正如我在 最近与 Matt Pottinger 的专栏文章中所写 :“中国最好的 AI 芯片华为 Ascend 系列的性能远不及美国 Nvidia 制造的领先芯片。中国也可能没有足够的生产能力来满足不断增长的需求。如今,中国境外没有一个值得注意的华为 Ascend 芯片集群,这表明中国正在努力满足国内需求......”。 

    10需要明确的是,这里的目标并不是否认中国或任何其他专制国家从非常强大的人工智能系统中获得的科学、医学、生活质量等方面的巨大好处。每个人都应该能够从人工智能中受益。目标是防止他们获得军事优势 。

    11有几个链接场外股票配资什么意思,因为已经进行了多轮。涵盖一些主要动作: 一、 二、 三、 四。