Global web icon
zhihu.com
https://www.zhihu.com/people/tete-77-44
Tete - 知乎
因为理论和实验上Softmax Attention的Attention Weight刚好可以被完美分解为一个很高稀疏度的,但Rank很高的矩阵,和一个非常不稀疏,但是Rank很低的矩阵(链接 中分析的)。这样完美对应了Sparse-Linear Attention。 DeepSeek-V3.2-Exp 和 Qwen3- …
Global web icon
zhihu.com
https://www.zhihu.com/question/1935478721466311087
强化学习奖励函数设计有没有什么经验之谈? - 知乎
主要是把任务拆分成一些基础的逻辑模块,每一部都需要有一个dense reward来引导,当然这种适用于random policy的,如果你有一个很好的pretrain policy,可以拿到一定成功率的话,可以直接搞阶段性稀疏奖励,这种也不错,但对于random policy不太ok。 当然也可以试试LLM生成奖励,现在效果也相当不错,甚至 ...
Global web icon
zhihu.com
https://www.zhihu.com/question/28630628
矩阵低秩的意义? - 知乎
矩阵低秩的意义? 最近在看low-rank,sparse在图像处理中的应用,不理解low-rank的意 关注者 538 被浏览
Global web icon
zhihu.com
https://www.zhihu.com/column/c_1880708045794939435
稀疏矩阵的LU分解方法 - 知乎
什么是稀疏矩阵? 稀疏矩阵 (Sparse Matrix)是指大部分元素为零的矩阵 (相比之下,矩阵中大多数元素非零的矩阵称为稠密矩阵 (Dense Matrix)),其可视化如图1 [1]所示。 稀疏矩阵的存储格式 对于稠密矩阵来说,假设维度为 ,我们一般会将其元素映射到一个 的数组中去。按照存储的顺序,又分为行主序和 ...
Global web icon
zhihu.com
https://www.zhihu.com/question/1956137082197083536
DeepSeek-V3.2-Exp 和 Qwen3-Next 哪个才是未来? - 知乎
对于(1)来说,dynamic sparse attention就是一个比较promising来解的方向,代表工作包括不限于Native Sparse Attention(NSA),MOBA,以及DeepSeek-V3.2-Exp里面的Deepseek Sparse Attention (DSA)。
Global web icon
zhihu.com
https://www.zhihu.com/question/1956013610666005512
DeepSeek-V3.2-Exp版本更新,有哪些信息值得关注? - 知乎
DeepSeek V3.2,可以说是算法同学最想要、最符合直觉的top 2048 token的sparse attention了,然而,经历过这场适配才能知道,背后有多少infra的坑要踩。
Global web icon
zhihu.com
https://www.zhihu.com/question/482036867
哪里有标准的机器学习术语 (翻译)对照表? - 知乎
学习机器学习时的困惑,“认字不识字”。很多中文翻译的术语不知其意,如Pooling,似乎90%的书都翻译为“…
Global web icon
zhihu.com
https://www.zhihu.com/question/532013055
请问用ansys里的mesh划分网格报错是为什么? - 知乎
10、There is not enough memory for the Sparse Matrix solver to proceed。 没有足够的内存供稀疏矩阵求解器继续。 内存不足,增加物理内存、虚拟内存、简化模型、减少网格数量等方式可解决。
Global web icon
zhihu.com
https://www.zhihu.com/column/p/25855003
vulkan中的sparse resource支持 - 知乎
说回sparse residency,sparse residency的buffer除了不需要全部驻留外,与仅仅sparse binding的buffer别无二致。 绑定时候的对齐和粒度条件也一模一样,由alignment决定。 buffer是否支持sparse residency可以通过 VkPhysicalDeviceFeatures (3) 中的sparseResidencyBuffer来查询到。
Global web icon
zhihu.com
https://www.zhihu.com/pin/1917503765822530101
SmartMindAI 的想法: 太牛了!稀疏注意力加速神器:SeerAttention-R | 今天来给大家分享一篇 ...
太牛了!稀疏注意力加速神器:SeerAttention-R | 今天来给大家分享一篇SeerAttention-R:面向长推理的稀疏注意力框架。💥核心创新点1. 给大模型加"智能眼睛"!不改动原模型参数,用轻量级门控模块学会只…