我构建了一个Mamba1变体SM1，d_state=1，在Blackwell上纯PyTorch运行

在 Reddit Machine Learning 上阅读原文 (Read Original)

AI 总结 (Summary)

作者介绍了SM1（标量Mamba1），这是一个Mamba1的变体，通过将d_state设为1，用两个原生PyTorch操作替换了整个选择性扫描。该方法提供了封闭形式解，与顺序计算在浮点精度上完全一致。它消除了状态维度S，相比d_state=16的Mamba1减少了16倍扫描内存。推理状态极小，130M参数模型仅需56KB，无需KV缓存，每个token的推理开销为O(1)。作者正在163K MIDI文件（约2.5B tokens）上训练130M参数的模型，并论证了当结构化信息已编码在token中时，d_state无需大于1。

背景知识 (Background)

该文章提出了一个对Mamba1架构的实质性简化，通过限制d_state=1实现了计算和内存效率的显著提升，同时保持了精确性。其核心创新（闭式解替代选择扫描）具有理论贡献和实用价值，尤其适用于资源受限环境。训练实验（130M参数，MIDI数据）增强了可信度。评分8分因其新颖性和潜在影响，但缺乏基准测试对比和更广泛验证。