网友提问 :您好,近日DeepSeek创始人亲自率队,提出了革命性注意力机制NSA,具体来说,它是一种面向硬件且支持原生训练的稀疏注意力机制(Sparse Attention),专为超快长上下文训练与推理设计。贵司于今年2月10日在互动平台表示在大模型蒸馏方面,公司技术团队主要掌握采用软标签、注意力等蒸馏技术。请问贵司掌握的注意力蒸馏技术和DeepSeek提出的稀疏注意力机制有何异同之处?谢谢。
2025-02-20 10:26:31
久其软件 (002279): 回答:您好,关于DeepSeek提出的稀疏注意力机制,公司尚在研究中,感谢您的关注。
2025-02-21 20:45:12