解读DeepSeek:蒸馏技术、伦理与国家安全
![Screenshots of OpenAI's ChatGPT logo and DeepSeek's logo. Image credit:](https://news.umich.edu/wp-content/uploads/2025/01/unpacking-deepseek-distillation-ethics-and-national-security.jpg)
自从中国人工智能初创公司DeepSeek发布其强大的大型语言模型R1以来,便在硅谷和美国股市引发了轩然大波,引发了广泛的讨论和争议。密西根大学统计学教授、人工智能和机器学习领域专家Ambuj Tewari分享了他对DeepSeek技术、伦理和安全方面的见解。
OpenAI指控DeepSeek利用模型蒸馏技术,基于OpenAI的技术训练自己的模型。您能解释一下模型蒸馏通常是如何运作的吗?在什么情况下它可以被认为是符合道德或符合人工智能开发最佳实践的?
模型或知识蒸馏通常涉及通过让较强的模型生成响应来训练较弱的模型,从而提高较弱模型的性能。如果较强模型允许此类使用,那么这是一种完全正常的做法。但OpenAI的ChatGPT使用条款明确禁止将其模型用于模型蒸馏等目的。
是否有可能DeepSeek使用了其他开源模型,如Meta Platforms的LLaMA或阿里巴巴的Qwen进行知识蒸馏,而不是依赖于OpenAI的专有模型?
这很难说。即使在同一个模型家族中,比如LLaMA或Qwen,并不是所有模型都是以相同的许可证发布的。如果某个模型允许模型蒸馏,那么这样做并无违法或不道德之处。在R1论文中提到,实际过程是反方向的:知识是从R1蒸馏到LLaMA和Qwen,以增强后者的推理能力。
人工智能公司可以提供哪些证据来证明其模型是独立开发的,而没有依赖于其他组织的专有技术?
由于法律事务中存在无罪推定的原则,举证责任在于OpenAI,必须证明DeepSeek确实违反了其服务条款。由于DeepSeek开发的最终模型是公开的,但其训练数据并未公开,这可能使得指控难以证明。由于OpenAI尚未公开其证据,因此很难判断他们的案件有多强。
人工智能公司可以采用哪些行业标准或透明度措施来建立信任并展示其符合人工智能开发规范?
目前,关于公司开发人工智能模型的普遍接受的标准很少。开源模型的支持者认为开放性可以带来更多透明度。但公开模型权重与公开从数据收集到训练的整个过程并不相同。还有关于使用书籍等受版权保护的材料来训练人工智能模型是否属于合理使用的争议。一个显著的例子是《纽约时报》对OpenAI提起的诉讼,突显了围绕这一问题的法律和伦理辩论。关于训练数据中的社会偏见如何影响模型输出的问题也引起了广泛讨论。除此之外,还存在关于能源需求不断增加及其对气候变化影响的担忧。这些问题大多正在积极讨论中,但尚未达成共识。
一些美国官员表达了对DeepSeek可能构成国家安全风险的担忧。您对此有何看法?
如果美国公民的数据存储在DeepSeek的服务器上,而中国政府可以访问这些数据,那将是非常令人担忧的。然而,模型权重是公开的,因此可以在美国公司拥有的服务器上运行。实际上,微软已经开始托管DeepSeek的模型。