[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-2472":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":10,"languages":9,"totalLinesOfCode":9,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":14,"subscribersCount":14,"size":14,"stars1d":15,"stars7d":16,"stars30d":17,"stars90d":14,"forks30d":14,"starsTrendScore":18,"compositeScore":19,"rankGlobal":9,"rankLanguage":9,"license":9,"archived":20,"fork":20,"defaultBranch":21,"hasWiki":22,"hasPages":20,"topics":23,"createdAt":9,"pushedAt":9,"updatedAt":24,"readmeContent":25,"aiSummary":26,"trendingCount":14,"starSnapshotCount":14,"syncStatus":27,"lastSyncTime":28,"discoverSource":29},2472,"spaces-index","caojiaolong\u002Fspaces-index","caojiaolong","🌟本项目自动抓取并索引科学空间的文章元数据，按研究主题进行规则分类，方便在 GitHub 上快速浏览并跳转到原文。",null,"Python",237,7,75,0,5,18,73,15,2.71,false,"main",true,[],"2026-06-12 02:00:41","# 科学空间文章索引\n\n本项目自动抓取并索引 [科学空间](https:\u002F\u002Fspaces.ac.cn\u002F) 的文章元数据，按研究主题进行规则分类，方便在 GitHub 上快速浏览并跳转到原文。\n\n## 为什么做这个索引\n\n苏剑林老师在科学空间积累了大量高质量文章，主题横跨大模型、生成模型、优化、数学、NLP、工程实践和科普随笔。网上也有不少人工整理帖，例如 [这类知乎整理](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F1935115608074196190)，但人工清单常见的问题是：刚发布时很好用，时间一长就容易停止更新，新文章、系列续篇和分类调整很难持续同步。\n\n这个仓库的目标是把科学空间的所有文章做成一个持续更新的元数据索引：不复制全文，只保存标题、日期、原文链接、原站分类、标签、自动主题和系列信息，并通过 GitHub Actions 定时更新。这样读者可以直接按主题或系列查找文章，跳转回原站阅读，也不用担心索引长期失修。\n\n- 最近更新日期：2026-05-29（按归档中最新文章日期）\n- 文章总数：1316\n- 版权说明：本项目保存标题、链接、日期、分类、标签、自动主题、系列信息和少量小结短摘录，不镜像、复制或保存文章全文。\n\n## 目录\n\n- [深度学习基础（120 篇）](#topic-deep-learning)\n  - [重新思考学习率与Batch Size（4 篇）](#series-deep-learning-69126a7846)\n  - [多任务学习漫谈（3 篇）](#series-deep-learning-0ac9606400)\n  - [“让Keras更酷一些！”（7 篇）](#series-deep-learning-e73395bb77)\n  - [文本情感分类（4 篇）](#series-deep-learning-4b0540d8f5)\n  - [非系列文章（102 篇）](#series-deep-learning-standalone)\n- [词向量与Embedding（24 篇）](#topic-embeddings)\n  - [CoSENT（3 篇）](#series-embeddings-2949022b50)\n  - [更别致的词向量模型（6 篇）](#series-embeddings-83ff2143be)\n  - [不可思议的Word2Vec（6 篇）](#series-embeddings-5025fd40f6)\n  - [非系列文章（9 篇）](#series-embeddings-standalone)\n- [大模型与Transformer（149 篇）](#topic-transformer)\n  - [MoE环游记（8 篇）](#series-transformer-f5569856ba)\n  - [MuP之上（4 篇）](#series-transformer-86fdf79074)\n  - [Transformer升级之路（21 篇）](#series-transformer-34e65637fd)\n  - [“闭门造车”之多模态思路浅谈（3 篇）](#series-transformer-2e7d329847)\n  - [对齐全量微调！这是我看过最精彩的LoRA改进（2 篇）](#series-transformer-32697fc150)\n  - [重温SSM（4 篇）](#series-transformer-7e9346ae49)\n  - [非系列文章（107 篇）](#series-transformer-standalone)\n- [生成模型（124 篇）](#topic-generative-models)\n  - [生成扩散模型漫谈（31 篇）](#series-generative-models-e48ccca641)\n  - [细水长flow（5 篇）](#series-generative-models-9738e76a31)\n  - [变分自编码器（8 篇）](#series-generative-models-c26095ce70)\n  - [搜出来的文本（4 篇）](#series-generative-models-efbc1f2b0e)\n  - [能量视角下的GAN模型（3 篇）](#series-generative-models-cbc622e222)\n  - [非系列文章（73 篇）](#series-generative-models-standalone)\n- [优化与训练（100 篇）](#topic-optimization)\n  - [基于流式幂迭代的Muon实现（5 篇）](#series-optimization-2adf8edae5)\n  - [让炼丹更科学一些（6 篇）](#series-optimization-22f3c62045)\n  - [AdamW的Weight RMS的渐近估计（2 篇）](#series-optimization-623aab7f21)\n  - [流形上的最速下降（5 篇）](#series-optimization-9aa52368b1)\n  - [通过msign来计算奇异值裁剪mclip（2 篇）](#series-optimization-297337ae72)\n  - [msign算子的Newton-Schulz迭代（2 篇）](#series-optimization-d27a2576eb)\n  - [从动力学角度看优化算法（7 篇）](#series-optimization-4b38446b55)\n  - [非系列文章（71 篇）](#series-optimization-standalone)\n- [数学工具（376 篇）](#topic-math)\n  - [低秩近似之路（5 篇）](#series-math-6689ddf615)\n  - [SVD分解（3 篇）](#series-math-6a0e7d7415)\n  - [外微分浅谈（7 篇）](#series-math-07dc7181b7)\n  - [路径积分系列（5 篇）](#series-math-f5eea49ebf)\n  - [“熵”不起：从熵、最大熵原理到最大熵模型（3 篇）](#series-math-a994c848cb)\n  - [高斯型积分的微扰展开（3 篇）](#series-math-06b60440b9)\n  - [从费马大定理谈起（12 篇）](#series-math-df510aaec3)\n  - [新理解矩阵（6 篇）](#series-math-26a49a282f)\n  - [求解微分方程的李对称方法（2 篇）](#series-math-aeb91e1623)\n  - [数学基本技艺之23、24（2 篇）](#series-math-c295ed4753)\n  - [纠缠的时空（3 篇）](#series-math-ce0fb96873)\n  - [费曼积分法（4 篇）](#series-math-ec7e1e24d2)\n  - [轻微的扰动——摄动法简介（3 篇）](#series-math-4c07e201c9)\n  - [费曼路径积分思想的发展（4 篇）](#series-math-246a7a31d9)\n  - [算子与线性常微分方程（2 篇）](#series-math-7a80644aea)\n  - [费曼积分法——积分符号内取微分（4 篇）](#series-math-e14089cebd)\n  - [《教材如何写》（3 篇）](#series-math-f9866e4ce1)\n  - [自然极值（8 篇）](#series-math-5e3917ad32)\n  - [向量（5 篇）](#series-math-fae158475e)\n  - [微积分学习（2 篇）](#series-math-d050b16b4d)\n  - [非系列文章（290 篇）](#series-math-standalone)\n- [概率统计与信息论（84 篇）](#topic-probability-info)\n  - [最小熵原理（6 篇）](#series-probability-info-2e7e2c4698)\n  - [非系列文章（78 篇）](#series-probability-info-standalone)\n- [几何与方程（106 篇）](#topic-geometry-equations)\n  - [理解黎曼几何（8 篇）](#series-geometry-equations-41868e210e)\n  - [非系列文章（98 篇）](#series-geometry-equations-standalone)\n- [NLP与信息抽取（92 篇）](#topic-nlp)\n  - [中文分词系列（8 篇）](#series-nlp-73a0edf1cd)\n  - [OCR技术浅探（10 篇）](#series-nlp-bffb492bca)\n  - [非系列文章（74 篇）](#series-nlp-standalone)\n- [工程工具（120 篇）](#topic-engineering)\n  - [通用爬虫探索（3 篇）](#series-engineering-c6d727fb3c)\n  - [非系列文章（117 篇）](#series-engineering-standalone)\n- [天文科普（197 篇）](#topic-astronomy)\n  - [非系列文章（197 篇）](#series-astronomy-standalone)\n- [物理化学（123 篇）](#topic-physics-chemistry)\n  - [一本对称闯物理：相对论力学（2 篇）](#series-physics-chemistry-f244e6dc90)\n  - [一维弹簧的运动（2 篇）](#series-physics-chemistry-b0ed9e05e7)\n  - [力学系统及其对偶性（3 篇）](#series-physics-chemistry-e231e49a33)\n  - [电偶极子浅探（2 篇）](#series-physics-chemistry-04bb391ccb)\n  - [非系列文章（114 篇）](#series-physics-chemistry-standalone)\n- [生物自然（30 篇）](#topic-biology)\n  - [非系列文章（30 篇）](#series-biology-standalone)\n- [图片摄影（68 篇）](#topic-photography)\n  - [非系列文章（68 篇）](#series-photography-standalone)\n- [科普问答与百科（96 篇）](#topic-popular-science)\n  - [非系列文章（96 篇）](#series-popular-science-standalone)\n- [资源与站务（113 篇）](#topic-resources)\n  - [语料（2 篇）](#series-resources-12d8681743)\n  - [非系列文章（111 篇）](#series-resources-standalone)\n- [阅读写作与随笔（173 篇）](#topic-essays)\n  - [非系列文章（173 篇）](#series-essays-standalone)\n- [其他（0 篇）](#topic-other)\n\n注：系列文章会统一归入该系列的众数主题；非系列文章仍可能属于多个主题，因此目录中的主题数量之和可能大于文章总数。\n\n## 最近 20 篇文章\n\n- 2026-05-29 - [矩阵参数的奇异值熵越高越好吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11767)\n- 2026-05-22 - [MoE环游记：8、强制序列级均衡](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11760) - [查看系列](#series-transformer-f5569856ba)\n- 2026-05-15 - [DeepSeek V4的tid2eid是怎么来的？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11750)\n- 2026-05-08 - [直接以FID为Loss：从梯度计算到流式训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11738)\n- 2026-05-04 - [如何更科学地估计矩阵的谱范数？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11736)\n- 2026-04-24 - [MuP之上：4. 坚守参数的稳定性](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11729) - [查看系列](#series-transformer-86fdf79074)\n- 2026-04-17 - [基于流式幂迭代的Muon实现：5. 延伸](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11719) - [查看系列](#series-optimization-2adf8edae5)\n- 2026-04-13 - [基于流式幂迭代的Muon实现：4. 原理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11710) - [查看系列](#series-optimization-2adf8edae5)\n- 2026-04-07 - [基于流式幂迭代的Muon实现：3. 雕琢](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11697) - [查看系列](#series-optimization-2adf8edae5)\n- 2026-03-31 - [中位数（Median）简介](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11693)\n- 2026-03-26 - [基于流式幂迭代的Muon实现：2. 加速](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11673) - [查看系列](#series-optimization-2adf8edae5)\n- 2026-03-19 - [Attention Residuals 回忆录](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11664)\n- 2026-03-12 - [基于流式幂迭代的Muon实现：1. 初识](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11654) - [查看系列](#series-optimization-2adf8edae5)\n- 2026-03-02 - [MuP之上：3. 特殊情况特殊处理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11647) - [查看系列](#series-transformer-86fdf79074)\n- 2026-02-23 - [MoE环游记：7、动态激活极简解](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11626) - [查看系列](#series-transformer-f5569856ba)\n- 2026-02-22 - [MoE环游记：6、最优分配促均衡](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11619) - [查看系列](#series-transformer-f5569856ba)\n- 2026-02-15 - [MuP之上：2. 线性层与最速下降](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11605) - [查看系列](#series-transformer-86fdf79074)\n- 2026-02-04 - [Adam优化器的最优超参数是β1=β2 ？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11593)\n- 2026-01-28 - [一行代码将arXiv论文翻译成中文版](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11578)\n- 2026-01-26 - [DeltaNet的核心逆矩阵的元素总是在\\[-1, 1\\]内](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11563)\n\n## 主题分类\n\n\u003Ca id=\"topic-deep-learning\">\u003C\u002Fa>\n### 深度学习基础\n\n\u003Ca id=\"series-deep-learning-69126a7846\">\u003C\u002Fa>\n#### 重新思考学习率与Batch Size [返回目录](#目录)\n\n- 2025-09-01 - [重新思考学习率与Batch Size（一）：现状](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11260)\n- 2025-09-10 - [重新思考学习率与Batch Size（二）：平均场](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11280)\n- 2025-09-15 - [重新思考学习率与Batch Size（三）：Muon](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11285)\n- 2025-09-22 - [重新思考学习率与Batch Size（四）：EMA](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11301)\n\n\u003Ca id=\"series-deep-learning-0ac9606400\">\u003C\u002Fa>\n#### 多任务学习漫谈 [返回目录](#目录)\n\n- 2022-01-18 - [多任务学习漫谈（一）：以损失之名](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8870)\n- 2022-02-08 - [多任务学习漫谈（二）：行梯度之事](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8896)\n- 2022-02-14 - [多任务学习漫谈（三）：分主次之序](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8907)\n\n\u003Ca id=\"series-deep-learning-e73395bb77\">\u003C\u002Fa>\n#### “让Keras更酷一些！” [返回目录](#目录)\n\n- 2018-08-06 - [“让Keras更酷一些！”：精巧的层与花式的回调](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5765)\n- 2018-09-08 - [“让Keras更酷一些！”：小众的自定义优化器](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5879)\n- 2019-01-27 - [“让Keras更酷一些！”：随意的输出和灵活的归一化](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6311)\n- 2019-03-10 - [“让Keras更酷一些！”：分层的学习率和自由的梯度](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6418)\n- 2019-04-28 - [“让Keras更酷一些！”：中间变量、权重滑动和安全生成器](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6575)\n- 2019-07-16 - [“让Keras更酷一些！”：层中层与mask](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6810)\n- 2019-09-29 - [“让Keras更酷一些！”：层与模型的重用技巧](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6985)\n\n\u003Ca id=\"series-deep-learning-4b0540d8f5\">\u003C\u002Fa>\n#### 文本情感分类 [返回目录](#目录)\n\n- 2015-06-22 - [文本情感分类（一）：传统模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3360)\n- 2015-08-04 - [文本情感分类（二）：深度学习模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3414)\n- 2016-06-29 - [文本情感分类（三）：分词 OR 不分词](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3863)\n- 2017-03-30 - [文本情感分类（四）：更好的损失函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4293)\n\n\u003Ca id=\"series-deep-learning-standalone\">\u003C\u002Fa>\n#### 非系列文章 [返回目录](#目录)\n\n- 2026-05-08 - [直接以FID为Loss：从梯度计算到流式训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11738)\n- 2026-03-19 - [Attention Residuals 回忆录](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11664)\n- 2025-08-16 - [ReLU\u002FGeLU\u002FSwish的一个恒等式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11233)\n- 2025-03-24 - [高阶MuP：更简明但更高明的谱条件缩放](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10795)\n- 2025-03-13 - [初探MuP：超参数的跨模型尺度迁移规律](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10770)\n- 2024-11-18 - [Adam的epsilon如何影响学习率的Scaling Law？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10563)\n- 2024-11-14 - [当Batch Size增大时，学习率该如何随之变化？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10542)\n- 2024-06-14 - [通向概率分布之路：盘点Softmax及其替代品](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10145)\n- 2023-10-13 - [EMO：基于最优传输思想设计的分类损失函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9797)\n- 2023-05-18 - [基于量子化假设推导模型的尺度定律（Scaling Law）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9607)\n- 2023-03-14 - [缓解交叉熵过度自信的一个简明方案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9526)\n- 2022-11-30 - [用热传导方程来指导自监督学习](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9359)\n- 2022-07-15 - [不成功的尝试：将多标签交叉熵推广到“n个m分类”上去](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9158)\n- 2022-06-01 - [如何训练你的准确率？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9098)\n- 2022-05-07 - [多标签“Softmax+交叉熵”的软标签版本](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9064)\n- 2022-04-28 - [在bert4keras中使用混合精度和XLA加速训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9059)\n- 2022-04-15 - [GlobalPointer下的“KL散度”应该是怎样的？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9039)\n- 2022-03-19 - [为什么需要残差？一个来自DeepNet的视角](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8994)\n- 2021-12-29 - [SquarePlus：可能是运算最简单的ReLU光滑近似](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8833)\n- 2021-12-17 - [Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8802)\n- 2021-11-29 - [Dropout视角下的MLM和MAE：一些新的启发](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8770)\n- 2021-11-22 - [ChildTuning：试试把Dropout加到梯度上去？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8764)\n- 2021-10-31 - [bert4keras在手，baseline我有：CLUE基准代码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8739)\n- 2021-09-01 - [从三角不等式到Margin Softmax](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8656)\n- 2021-07-26 - [FlatNCE：小批次对比学习效果差的原因竟是浮点误差？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8586)\n- 2021-07-01 - [又是Dropout两次！这次它做到了有监督任务的SOTA](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8496)\n- 2021-04-16 - [搜狐文本匹配：基于条件LayerNorm的多任务baseline](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8337)\n- 2021-04-03 - [P-tuning：自动构建模版，释放语言模型潜能](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8295)\n- 2021-03-05 - [短文本匹配Baseline：脱敏数据使用预训练模型的尝试](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8213)\n- 2020-11-20 - [跟风玩玩目前最大的中文GPT2模型（bert4keras）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7912)\n- 2020-11-13 - [也来谈谈RNN的梯度消失\u002F爆炸问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7888)\n- 2020-08-31 - [再谈类别不平衡问题：调节权重与魔改Loss的对比联系](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7708)\n- 2020-08-14 - [L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7681)\n- 2020-07-31 - [我们真的需要把训练集的损失降低到零吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7643)\n- 2020-07-19 - [通过互信息思想来缓解类别不平衡问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7615)\n- 2020-06-28 - [积分梯度：一种新颖的神经网络可视化方法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7533)\n- 2020-04-29 - [节省显存的重计算技巧也有了Keras版了](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7367)\n- 2020-04-25 - [将“Softmax+交叉熵”推广到多标签分类问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7359)\n- 2020-04-13 - [突破瓶颈，打造更强大的Transformer](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7325)\n- 2020-04-02 - [bert4keras在手，baseline我有：百度LIC2020](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7321)\n- 2020-03-26 - [GELU的两个初等函数近似是怎么来的](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7309)\n- 2020-03-23 - [AdaFactor优化器浅析（附开源实现）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7302)\n- 2020-03-16 - [现在可以用Keras玩中文GPT2了（GPT2_ML）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7292)\n- 2020-03-01 - [对抗训练浅谈：意义、方法和思考（附Keras实现）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7234)\n- 2020-01-03 - [用bert4keras做三元组抽取](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7161)\n- 2019-11-25 - [6个派生优化器的简单介绍及其实现](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7094)\n- 2019-11-06 - [Keras：Tensorflow的黄金标准](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7055)\n- 2019-10-11 - [BN究竟起了什么作用？一个闭门造车的分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6992)\n- 2019-09-03 - [百度实体链接比赛后记：行为建模和实体链接](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6919)\n- 2019-08-27 - [自己实现了一个bert4keras](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6915)\n- 2019-08-20 - [开源一版DGCNN阅读理解问答模型（Keras版）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6906)\n- 2019-08-09 - [seq2seq之双向解码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6877)\n- 2019-07-30 - [Keras实现两个优化器：Lookahead和LazyOptimizer](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6869)\n- 2019-07-08 - [用时间换取效果：Keras梯度累积优化器](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6794)\n- 2019-06-29 - [基于Bert的NL2SQL模型：一个简明的Baseline](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6771)\n- 2019-06-18 - [当Bert遇上Keras：这可能是Bert最简单的打开姿势](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6736)\n- 2019-05-28 - [ON-LSTM：用有序神经元表达层次结构](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6621)\n- 2019-02-22 - [巧断梯度：单个loss实现GAN模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6387)\n- 2018-10-07 - [深度学习中的Lipschitz约束：泛化与生成模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6051)\n- 2018-10-02 - [深度学习的互信息：无监督提取特征](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6024)\n- 2018-09-01 - [玩转Keras之seq2seq自动生成标题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5861)\n- 2018-07-29 - [基于GRU和AM-Softmax的句子相似度模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5743)\n- 2018-07-18 - [用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5716)\n- 2018-07-07 - [从SamplePairing到mixup：神奇的正则项](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5693)\n- 2018-05-18 - [简明条件随机场CRF介绍（附带纯Keras实现）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5542)\n- 2018-05-10 - [用Numpy实现高效的Apriori算法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5525)\n- 2018-04-15 - [基于CNN的阅读理解式问答模型：DGCNN](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5409)\n- 2018-03-02 - [三味Capsule：矩阵Capsule与EM路由](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5155)\n- 2018-02-12 - [再来一顿贺岁宴：从K-Means到Capsule](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5112)\n- 2018-01-23 - [分享一个slide：花式自然语言处理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4823)\n- 2018-01-23 - [揭开迷雾，来一顿美味的Capsule盛宴](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4819)\n- 2018-01-06 - [《Attention is All You Need》浅读（简介+代码）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4765)\n- 2017-12-25 - [从loss的硬截断、软化到focal loss](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4733)\n- 2017-10-26 - [浅谈神经网络中激活函数的设计](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4647)\n- 2017-10-14 - [训练集、验证集和测试集的意义](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4638)\n- 2017-10-13 - [基于fine tune的图像分类（百度分狗竞赛）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4611)\n- 2017-09-10 - [RNN模型中输入的重要性的评估](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4582)\n- 2017-09-03 - [开学啦！咱们来做完形填空～（讯飞杯）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4564)\n- 2017-08-27 - [fashion mnist的一个baseline (MobileNet 95%)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4556)\n- 2017-08-26 - [fashion-mnist的gan玩具](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4540)\n- 2017-08-08 - [【备忘】谈谈dropout](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4521)\n- 2017-07-24 - [基于Xception的腾讯验证码识别（样本+代码）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4503)\n- 2017-07-22 - [Keras中自定义复杂的loss函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4493)\n- 2017-05-04 - [记录一次半监督的情感分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4374)\n- 2017-03-14 - [泰迪杯赛前培训之数据挖掘与建模“慢谈”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4271)\n- 2016-12-14 - [端到端的腾讯验证码识别（46%正确率）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4138)\n- 2016-12-03 - [词向量与Embedding究竟是怎么回事？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4122)\n- 2016-12-01 - [基于双向GRU和语言模型的视角情感分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4118)\n- 2016-11-29 - [轻便的深度学习分词系统：NNCWS v0.1](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4114)\n- 2016-11-25 - [三顾碎纸复原：基于CNN的碎纸复原](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4100)\n- 2016-07-01 - [从Boosting学习到神经网络：看山是山？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3873)\n- 2016-05-15 - [Coming Back...](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3735)\n- 2016-01-18 - [当大数据进入厨房：让大数据教你做菜！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3587)\n- 2015-12-06 - [人生苦短，我用Python！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3546)\n- 2015-11-13 - [ARXIV数学论文分布：偏微分方程最热门！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3511)\n- 2015-07-02 - [用Pandas实现高效的Apriori算法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3380)\n- 2015-06-06 - [闲聊：神经网络与深度学习](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3331)\n- 2014-12-31 - [我的写论文软件组合](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3171)\n- 2014-12-18 - [迟到一年的建模：再探碎纸复原](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3134)\n- 2014-12-15 - [两生物种群竞争模型：LaTeX+Python](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3120)\n- 2014-09-11 - [\\[备份\\]全国大学生数学建模竞赛论文LaTex模板](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2935)\n- 2013-09-22 - [一个人的数学建模：碎纸复原](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2067)\n\n\u003Ca id=\"topic-embeddings\">\u003C\u002Fa>\n### 词向量与Embedding\n\n\u003Ca id=\"series-embeddings-2949022b50\">\u003C\u002Fa>\n#### CoSENT [返回目录](#目录)\n\n- 2022-01-06 - [CoSENT（一）：比Sentence-BERT更有效的句向量方案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8847)\n- 2022-01-12 - [CoSENT（二）：特征式匹配与交互式匹配有多大差距？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8860)\n- 2022-11-09 - [CoSENT（三）：作为交互式相似度的损失函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9341)\n\n\u003Ca id=\"series-embeddings-83ff2143be\">\u003C\u002Fa>\n#### 更别致的词向量模型 [返回目录](#目录)\n\n- 2017-11-19 - [更别致的词向量模型(一)：simpler glove](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4667)\n- 2017-11-19 - [更别致的词向量模型(二)：对语言进行建模](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4669)\n- 2017-11-19 - [更别致的词向量模型(三)：描述相关的模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4671)\n- 2017-11-19 - [更别致的词向量模型(四)：模型的求解](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4675)\n- 2017-11-19 - [更别致的词向量模型(五)：有趣的结果](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4677)\n- 2017-11-19 - [更别致的词向量模型(六)：代码、分享与结语](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4681)\n\n\u003Ca id=\"series-embeddings-5025fd40f6\">\u003C\u002Fa>\n#### 不可思议的Word2Vec [返回目录](#目录)\n\n- 2017-04-02 - [【不可思议的Word2Vec】 1.数学原理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4299)\n- 2017-04-03 - [【不可思议的Word2Vec】 2.训练好的模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4304)\n- 2017-04-07 - [【不可思议的Word2Vec】 3.提取关键词](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4316)\n- 2017-05-01 - [【不可思议的Word2Vec】 4.不一样的“相似”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4368)\n- 2017-05-27 - [【不可思议的Word2Vec】5. Tensorflow版的Word2Vec](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4402)\n- 2017-08-06 - [【不可思议的Word2Vec】6. Keras版的Word2Vec](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4515)\n\n\u003Ca id=\"series-embeddings-standalone\">\u003C\u002Fa>\n#### 非系列文章 [返回目录](#目录)\n\n- 2023-08-28 - [Lion\u002FTiger优化器训练下的Embedding异常和对策](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9736)\n- 2023-07-20 - [语言模型输出端共享Embedding的重新探索](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9698)\n- 2021-09-27 - [关于维度公式“n > 8.33 log N”的可用性分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8711)\n- 2021-06-11 - [SimBERTv2来了！融合检索和生成的RoFormer-Sim模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8454)\n- 2021-02-09 - [一个二值化词向量模型，是怎么跟果蝇搭上关系的？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8159)\n- 2020-05-18 - [鱼与熊掌兼得：融合检索和生成的SimBERT模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7427)\n- 2019-11-11 - [JoSE：球面上的词向量和句向量](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7063)\n- 2018-06-13 - [“噪声对比估计”杂谈：曲径通幽之妙](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5617)\n- 2016-12-03 - [词向量与Embedding究竟是怎么回事？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4122)\n\n\u003Ca id=\"topic-transformer\">\u003C\u002Fa>\n### 大模型与Transformer\n\n\u003Ca id=\"series-transformer-f5569856ba\">\u003C\u002Fa>\n#### MoE环游记 [返回目录](#目录)\n\n- 2025-02-08 - [MoE环游记：1、从几何意义出发](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10699)\n- 2025-02-21 - [MoE环游记：2、不患寡而患不均](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10735)\n- 2025-03-05 - [MoE环游记：3、换个思路来分配](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10757)\n- 2025-03-28 - [MoE环游记：4、难处应当多投入](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10815)\n- 2025-05-16 - [MoE环游记：5、均匀分布的反思](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10945)\n- 2026-02-22 - [MoE环游记：6、最优分配促均衡](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11619)\n- 2026-02-23 - [MoE环游记：7、动态激活极简解](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11626)\n- 2026-05-22 - [MoE环游记：8、强制序列级均衡](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11760)\n\n\u003Ca id=\"series-transformer-86fdf79074\">\u003C\u002Fa>\n#### MuP之上 [返回目录](#目录)\n\n- 2025-10-21 - [MuP之上：1. 好模型的三个特征](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11340)\n- 2026-02-15 - [MuP之上：2. 线性层与最速下降](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11605)\n- 2026-03-02 - [MuP之上：3. 特殊情况特殊处理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11647)\n- 2026-04-24 - [MuP之上：4. 坚守参数的稳定性](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11729)\n\n\u003Ca id=\"series-transformer-34e65637fd\">\u003C\u002Fa>\n#### Transformer升级之路 [返回目录](#目录)\n\n- 2021-03-08 - [Transformer升级之路：1、Sinusoidal位置编码追根溯源](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8231)\n- 2021-03-23 - [Transformer升级之路：2、博采众长的旋转式位置编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8265)\n- 2021-04-22 - [Transformer升级之路：3、从Performer到线性Attention](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8338)\n- 2021-05-10 - [Transformer升级之路：4、二维位置的旋转式位置编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8397)\n- 2021-08-06 - [Transformer升级之路：5、作为无限维的线性Attention](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8601)\n- 2022-12-28 - [Transformer升级之路：6、旋转位置编码的完备性分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9403)\n- 2023-01-12 - [Transformer升级之路：7、长度外推性与局部注意力](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9431)\n- 2023-01-31 - [Transformer升级之路：8、长度外推性与位置鲁棒性](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9444)\n- 2023-05-12 - [Transformer升级之路：9、一种全局长度外推的新思路](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9603)\n- 2023-07-06 - [Transformer升级之路：10、RoPE是一种β进制编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9675)\n- 2023-07-31 - [Transformer升级之路：11、将β进制位置进行到底](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9706)\n- 2023-08-07 - [Transformer升级之路：12、无限外推的ReRoPE？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9708)\n- 2023-08-14 - [Transformer升级之路：13、逆用Leaky ReRoPE](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9728)\n- 2023-08-24 - [Transformer升级之路：14、当HWFA遇见ReRoPE](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9731)\n- 2023-11-20 - [Transformer升级之路：15、Key归一化助力长度外推](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9859)\n- 2024-01-26 - [Transformer升级之路：16、“复盘”长度外推技术](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9948)\n- 2024-03-29 - [Transformer升级之路：17、多模态位置编码的简单思考](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10040)\n- 2024-05-29 - [Transformer升级之路：18、RoPE的底数选择原则](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10122)\n- 2025-04-18 - [Transformer升级之路：19、第二类旋转位置编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10862)\n- 2025-05-04 - [Transformer升级之路：20、MLA好在哪里?（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10907)\n- 2025-07-10 - [Transformer升级之路：21、MLA好在哪里?（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11111)\n\n\u003Ca id=\"series-transformer-2e7d329847\">\u003C\u002Fa>\n#### “闭门造车”之多模态思路浅谈 [返回目录](#目录)\n\n- 2024-02-21 - [“闭门造车”之多模态思路浅谈（一）：无损输入](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9984)\n- 2024-07-08 - [“闭门造车”之多模态思路浅谈（二）：自回归](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10197)\n- 2024-09-06 - [“闭门造车”之多模态思路浅谈（三）：位置编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10352)\n\n\u003Ca id=\"series-transformer-32697fc150\">\u003C\u002Fa>\n#### 对齐全量微调！这是我看过最精彩的LoRA改进 [返回目录](#目录)\n\n- 2024-07-12 - [对齐全量微调！这是我看过最精彩的LoRA改进（一）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10226)\n- 2024-07-29 - [对齐全量微调！这是我看过最精彩的LoRA改进（二）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10266)\n\n\u003Ca id=\"series-transformer-7e9346ae49\">\u003C\u002Fa>\n#### 重温SSM [返回目录](#目录)\n\n- 2024-05-24 - [重温SSM（一）：线性系统和HiPPO矩阵](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10114)\n- 2024-06-05 - [重温SSM（二）：HiPPO的一些遗留问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10137)\n- 2024-06-20 - [重温SSM（三）：HiPPO的高效计算（S4）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10162)\n- 2024-06-27 - [重温SSM（四）：有理生成函数的新视角](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10180)\n\n\u003Ca id=\"series-transformer-standalone\">\u003C\u002Fa>\n#### 非系列文章 [返回目录](#目录)\n\n- 2026-05-15 - [DeepSeek V4的tid2eid是怎么来的？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11750)\n- 2026-03-19 - [Attention Residuals 回忆录](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11664)\n- 2026-01-26 - [DeltaNet的核心逆矩阵的元素总是在\\[-1, 1\\]内](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11563)\n- 2025-12-23 - [为什么DeltaNet要加L2 Normalize？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11486)\n- 2025-10-27 - [低精度Attention可能存在有偏的舍入误差](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11371)\n- 2025-10-05 - [为什么线性注意力要加Short Conv？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11320)\n- 2025-07-12 - [QK-Clip：让Muon在Scaleup之路上更进一步](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11126)\n- 2025-07-01 - [“对角+低秩”三角阵的高效求逆方法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11072)\n- 2025-06-20 - [线性注意力简史：从模仿、创新到反哺](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11033)\n- 2025-03-24 - [高阶MuP：更简明但更高明的谱条件缩放](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10795)\n- 2025-03-13 - [初探MuP：超参数的跨模型尺度迁移规律](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10770)\n- 2024-09-19 - [Softmax后传：寻找Top-K的光滑近似](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10373)\n- 2024-09-01 - [Decoder-only的LLM为什么需要位置编码？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10347)\n- 2024-07-24 - [Monarch矩阵：计算高效的稀疏型矩阵分解](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10249)\n- 2024-06-14 - [通向概率分布之路：盘点Softmax及其替代品](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10145)\n- 2024-05-13 - [缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10091)\n- 2024-03-18 - [时空之章：将Attention视为平方复杂度的RNN](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10017)\n- 2024-02-27 - [配置不同的学习率，LoRA还能再涨一点？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10001)\n- 2023-12-12 - [注意力机制真的可以“集中注意力”吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9889)\n- 2023-11-29 - [我在Performer中发现了Transformer-VQ的踪迹](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9862)\n- 2023-11-09 - [VQ一下Key，Transformer的复杂度就变成线性了](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9844)\n- 2023-10-22 - [从梯度最大化看Attention的Scale操作](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9812)\n- 2023-10-08 - [预训练一下，Transformer的长序列成绩还能涨不少！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9787)\n- 2023-09-26 - [脑洞大开：非线性RNN居然也可以并行计算？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9783)\n- 2023-09-13 - [大词表语言模型在续写任务上的一个问题及对策](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9762)\n- 2023-07-20 - [语言模型输出端共享Embedding的重新探索](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9698)\n- 2023-06-08 - [Naive Bayes is all you need ?](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9648)\n- 2023-05-31 - [关于NBCE方法的一些补充说明和分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9632)\n- 2023-05-23 - [NBCE：使用朴素贝叶斯扩展LLM的Context处理长度](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9617)\n- 2023-04-25 - [注意力和Softmax的两点有趣发现：鲁棒性和信息量](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9593)\n- 2023-04-17 - [梯度视角下的LoRA：简介、分析、猜测及推广](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9590)\n- 2023-04-10 - [从JL引理看熵不变性Attention](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9588)\n- 2023-04-03 - [Bias项的神奇作用：RoPE + Bias = 更好的长度外推性](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9577)\n- 2023-03-28 - [Google新作试图“复活”RNN：RNN能否再次辉煌？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9554)\n- 2023-03-20 - [《为什么现在的LLM都是Decoder-only的架构？》FAQ](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9547)\n- 2023-03-17 - [为什么现在的LLM都是Decoder-only的架构？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9529)\n- 2022-06-20 - [Ladder Side-Tuning：预训练模型的“过墙梯”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9138)\n- 2022-06-07 - [相对位置编码Transformer的一个理论缺陷与对策](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9105)\n- 2022-05-18 - [当BERT-whitening引入超参数：总有一款适合你](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9079)\n- 2022-05-07 - [多标签“Softmax+交叉熵”的软标签版本](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9064)\n- 2022-04-22 - [GAU-α：尝鲜体验快好省的下一代Attention](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9052)\n- 2022-04-20 - [你的语言模型有没有“无法预测的词”？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9046)\n- 2022-04-11 - [熵不变性Softmax的一个快速推导](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9034)\n- 2022-04-07 - [听说Attention与Softmax更配哦～](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9019)\n- 2022-03-29 - [为什么Pre Norm的效果不如Post Norm？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9009)\n- 2022-03-21 - [RoFormerV2：自然语言理解的极限探索](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8998)\n- 2022-03-11 - [门控注意力单元（GAU）还需要Warmup吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8990)\n- 2022-03-09 - [训练1000层的Transformer究竟有什么困难？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8978)\n- 2022-02-25 - [FLASH：可能是近来最有意思的高效Transformer设计](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8934)\n- 2021-12-21 - [从熵不变性看Attention的Scale操作](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8823)\n- 2021-09-10 - [曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8671)\n- 2021-09-01 - [从三角不等式到Margin Softmax](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8656)\n- 2021-08-17 - [浅谈Transformer的初始化、参数化与标准化](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8620)\n- 2021-08-09 - [线性Transformer应该不是你要等的那个模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8610)\n- 2021-07-19 - [用开源的人工标注数据来增强RoFormer-Sim](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8541)\n- 2021-06-29 - [UniVAE：基于Transformer的单模型、多尺度的VAE模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8475)\n- 2021-06-11 - [SimBERTv2来了！融合检索和生成的RoFormer-Sim模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8454)\n- 2021-06-02 - [我们可以无损放大一个Transformer模型吗（一）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8444)\n- 2021-05-24 - [也来盘点一些最近的非Transformer工作](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8431)\n- 2021-04-26 - [中文任务还是SOTA吗？我们给SimCSE补充了一些实验](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8348)\n- 2021-04-16 - [搜狐文本匹配：基于条件LayerNorm的多任务baseline](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8337)\n- 2021-04-11 - [无监督语义相似度哪家强？我们做了个比较全面的评测](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8321)\n- 2021-04-03 - [P-tuning：自动构建模版，释放语言模型潜能](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8295)\n- 2021-03-05 - [短文本匹配Baseline：脱敏数据使用预训练模型的尝试](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8213)\n- 2021-03-03 - [T5 PEGASUS：开源一个中文生成式预训练模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8209)\n- 2021-02-16 - [Nyströmformer：基于矩阵分解的线性化Attention方案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8180)\n- 2021-02-03 - [让研究人员绞尽脑汁的Transformer位置编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8130)\n- 2021-01-26 - [Seq2Seq重复解码现象的理论分析尝试](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8128)\n- 2021-01-11 - [你可能不需要BERT-flow：一个线性变换媲美BERT-flow](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8069)\n- 2020-12-24 - [RealFormer：把残差转移到Attention矩阵上面去](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8027)\n- 2020-12-04 - [层次分解位置编码，让BERT可以处理超长文本](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7947)\n- 2020-12-01 - [Performer：用随机投影将Attention的复杂度线性化](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7921)\n- 2020-11-20 - [跟风玩玩目前最大的中文GPT2模型（bert4keras）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7912)\n- 2020-11-11 - [当GPT遇上中国象棋：写过文章解过题，要不再来下盘棋？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7877)\n- 2020-11-06 - [那个屠榜的T5模型，现在可以在中文上玩玩了](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7867)\n- 2020-10-29 - [用ALBERT和ELECTRA之前，请确认你真的了解它们](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7846)\n- 2020-10-27 - [TeaForN：让Teacher Forcing更有“远见”一些](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7818)\n- 2020-10-19 - [BERT可以上几年级了？Seq2Seq“硬刚”小学数学应用题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7809)\n- 2020-09-27 - [必须要GPT3吗？不，BERT的MLM模型也能小样本学习](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7764)\n- 2020-09-18 - [提速不掉点：基于词颗粒度的中文WoBERT](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7758)\n- 2020-09-07 - [动手做个DialoGPT：基于LM的生成式多轮对话模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7718)\n- 2020-08-07 - [修改Transformer结构，设计一个更快更好的MLM模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7661)\n- 2020-07-25 - [学会提问的BERT：端到端地从篇章中构建问答对](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7630)\n- 2020-07-17 - [BERT-of-Theseus：基于模块替换的模型压缩方法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7575)\n- 2020-07-04 - [线性Attention的探索：Attention必须有个Softmax吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7546)\n- 2020-06-16 - [如何应对Seq2Seq中的“根本停不下来”问题？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7500)\n- 2020-05-25 - [Google新作Synthesizer：我们还不够了解自注意力](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7430)\n- 2020-05-18 - [鱼与熊掌兼得：融合检索和生成的SimBERT模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7427)\n- 2020-04-25 - [将“Softmax+交叉熵”推广到多标签分类问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7359)\n- 2020-04-13 - [突破瓶颈，打造更强大的Transformer](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7325)\n- 2020-04-02 - [bert4keras在手，baseline我有：百度LIC2020](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7321)\n- 2020-03-16 - [现在可以用Keras玩中文GPT2了（GPT2_ML）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7292)\n- 2020-03-09 - [Seq2Seq中Exposure Bias现象的浅析与对策](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7259)\n- 2020-01-29 - [抛开约束，增强模型：一行代码提升albert表现](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7187)\n- 2020-01-03 - [用bert4keras做三元组抽取](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7161)\n- 2019-12-26 - [“非自回归”也不差：基于MLM的阅读理解问答](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7148)\n- 2019-12-14 - [基于Conditional Layer Normalization的条件文本生成](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7124)\n- 2019-12-05 - [万能的seq2seq：基于seq2seq的阅读理解问答](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7115)\n- 2019-09-18 - [从语言模型到Seq2Seq：Transformer如戏，全靠Mask](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6933)\n- 2019-08-27 - [自己实现了一个bert4keras](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6915)\n- 2019-07-27 - [为节约而生：从标准Attention到稀疏Attention](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6853)\n- 2019-06-29 - [基于Bert的NL2SQL模型：一个简明的Baseline](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6771)\n- 2019-06-18 - [当Bert遇上Keras：这可能是Bert最简单的打开姿势](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6736)\n- 2019-06-10 - [漫谈重参数：从正态分布到Gumbel Softmax](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6705)\n- 2018-07-29 - [基于GRU和AM-Softmax的句子相似度模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5743)\n- 2018-01-06 - [《Attention is All You Need》浅读（简介+代码）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4765)\n- 2016-12-01 - [基于双向GRU和语言模型的视角情感分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4118)\n\n\u003Ca id=\"topic-generative-models\">\u003C\u002Fa>\n### 生成模型\n\n\u003Ca id=\"series-generative-models-e48ccca641\">\u003C\u002Fa>\n#### 生成扩散模型漫谈 [返回目录](#目录)\n\n- 2022-06-13 - [生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9119)\n- 2022-07-06 - [生成扩散模型漫谈（二）：DDPM = 自回归式VAE](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9152)\n- 2022-07-19 - [生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9164)\n- 2022-07-27 - [生成扩散模型漫谈（四）：DDIM = 高观点DDPM](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9181)\n- 2022-08-03 - [生成扩散模型漫谈（五）：一般框架之SDE篇](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9209)\n- 2022-08-08 - [生成扩散模型漫谈（六）：一般框架之ODE篇](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9228)\n- 2022-08-12 - [生成扩散模型漫谈（七）：最优扩散方差估计（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9245)\n- 2022-08-18 - [生成扩散模型漫谈（八）：最优扩散方差估计（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9246)\n- 2022-08-30 - [生成扩散模型漫谈（九）：条件控制生成结果](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9257)\n- 2022-09-14 - [生成扩散模型漫谈（十）：统一扩散模型（理论篇）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9262)\n- 2022-09-21 - [生成扩散模型漫谈（十一）：统一扩散模型（应用篇）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9271)\n- 2022-09-28 - [生成扩散模型漫谈（十二）：“硬刚”扩散ODE](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9280)\n- 2022-10-18 - [生成扩散模型漫谈（十三）：从万有引力到扩散模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9305)\n- 2022-12-15 - [生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9370)\n- 2022-12-22 - [生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9379)\n- 2023-02-14 - [生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9467)\n- 2023-02-23 - [生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9497)\n- 2023-02-28 - [生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9509)\n- 2023-06-24 - [生成扩散模型漫谈（十九）：作为扩散ODE的GAN](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9662)\n- 2023-06-28 - [生成扩散模型漫谈（二十）：从ReFlow到WGAN-GP](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9668)\n- 2023-12-07 - [生成扩散模型漫谈（二十一）：中值定理加速ODE采样](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9881)\n- 2024-04-08 - [生成扩散模型漫谈（二十二）：信噪比与大图生成（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10047)\n- 2024-04-17 - [生成扩散模型漫谈（二十三）：信噪比与大图生成（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10055)\n- 2024-04-23 - [生成扩散模型漫谈（二十四）：少走捷径，更快到达](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10077)\n- 2024-05-01 - [生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10085)\n- 2024-11-22 - [生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10567)\n- 2024-12-15 - [生成扩散模型漫谈（二十七）：将步长作为条件输入](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10617)\n- 2024-12-18 - [生成扩散模型漫谈（二十八）：分步理解一致性模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10633)\n- 2025-02-14 - [生成扩散模型漫谈（二十九）：用DDPM来离散编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10711)\n- 2025-05-26 - [生成扩散模型漫谈（三十）：从瞬时速度到平均速度](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10958)\n- 2025-11-24 - [生成扩散模型漫谈（三十一）：预测数据而非噪声](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11428)\n\n\u003Ca id=\"series-generative-models-9738e76a31\">\u003C\u002Fa>\n#### 细水长flow [返回目录](#目录)\n\n- 2018-08-11 - [细水长flow之NICE：流模型的基本概念与实现](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5776)\n- 2018-08-26 - [细水长flow之RealNVP与Glow：流模型的传承与升华](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5807)\n- 2018-09-21 - [细水长flow之f-VAEs：Glow与VAEs的联姻](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5977)\n- 2019-03-21 - [细水长flow之可逆ResNet：极致的暴力美学](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6482)\n- 2025-01-17 - [细水长flow之TARFLOW：流模型满血归来？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10667)\n\n\u003Ca id=\"series-generative-models-c26095ce70\">\u003C\u002Fa>\n#### 变分自编码器 [返回目录](#目录)\n\n- 2018-03-18 - [变分自编码器（一）：原来是这么一回事](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5253)\n- 2018-03-28 - [变分自编码器（二）：从贝叶斯观点出发](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5343)\n- 2018-04-03 - [变分自编码器（三）：这样做为什么能成？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5383)\n- 2018-09-17 - [变分自编码器（四）：一步到位的聚类方案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5887)\n- 2020-05-06 - [变分自编码器（五）：VAE + BN = 更好的VAE](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7381)\n- 2020-09-10 - [变分自编码器（六）：从几何视角来理解VAE的尝试](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7725)\n- 2021-05-17 - [变分自编码器（七）：球面上的VAE（vMF-VAE）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8404)\n- 2021-12-09 - [变分自编码器（八）：估计样本概率密度](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8791)\n\n\u003Ca id=\"series-generative-models-efbc1f2b0e\">\u003C\u002Fa>\n#### 搜出来的文本 [返回目录](#目录)\n\n- 2021-01-07 - [【搜出来的文本】⋅（一）从文本生成到搜索采样](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8062)\n- 2021-01-14 - [【搜出来的文本】⋅（二）从MCMC到模拟退火](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8084)\n- 2021-01-22 - [【搜出来的文本】⋅（三）基于BERT的文本采样](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8119)\n- 2021-02-25 - [【搜出来的文本】⋅（四）通过增、删、改来用词造句](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8194)\n\n\u003Ca id=\"series-generative-models-cbc622e222\">\u003C\u002Fa>\n#### 能量视角下的GAN模型 [返回目录](#目录)\n\n- 2019-01-30 - [能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6316)\n- 2019-02-15 - [能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6331)\n- 2019-05-10 - [能量视角下的GAN模型（三）：生成模型=能量模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6612)\n\n\u003Ca id=\"series-generative-models-standalone\">\u003C\u002Fa>\n#### 非系列文章 [返回目录](#目录)\n\n- 2026-05-08 - [直接以FID为Loss：从梯度计算到流式训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11738)\n- 2025-10-08 - [DiVeQ：一种非常简洁的VQ训练方案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11328)\n- 2025-10-05 - [为什么线性注意力要加Short Conv？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11320)\n- 2025-06-20 - [线性注意力简史：从模仿、创新到反哺](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11033)\n- 2024-11-06 - [VQ的又一技巧：给编码表加一个线性变换](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10519)\n- 2024-10-24 - [VQ的旋转技巧：梯度直通估计的一般推广](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10489)\n- 2024-08-06 - [通向最优分布之路：概率空间的最小化](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10289)\n- 2024-05-13 - [缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10091)\n- 2024-01-31 - [幂等生成网络IGN：试图将判别和生成合二为一的GAN](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9969)\n- 2023-11-29 - [我在Performer中发现了Transformer-VQ的踪迹](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9862)\n- 2023-11-09 - [VQ一下Key，Transformer的复杂度就变成线性了](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9844)\n- 2023-10-31 - [简单得令人尴尬的FSQ：“四舍五入”超越了VQ-VAE](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9826)\n- 2023-07-14 - [当生成模型肆虐：互联网将有“疯牛病”之忧？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9687)\n- 2023-03-28 - [Google新作试图“复活”RNN：RNN能否再次辉煌？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9554)\n- 2023-03-20 - [《为什么现在的LLM都是Decoder-only的架构？》FAQ](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9547)\n- 2023-03-17 - [为什么现在的LLM都是Decoder-only的架构？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9529)\n- 2023-02-11 - [测试函数法推导连续性方程和Fokker-Planck方程](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9461)\n- 2022-06-28 - [“维度灾难”之Hubness现象浅析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9147)\n- 2022-02-25 - [FLASH：可能是近来最有意思的高效Transformer设计](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8934)\n- 2021-11-15 - [WGAN新方案：通过梯度归一化来实现L约束](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8757)\n- 2021-07-19 - [用开源的人工标注数据来增强RoFormer-Sim](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8541)\n- 2021-06-29 - [UniVAE：基于Transformer的单模型、多尺度的VAE模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8475)\n- 2021-06-11 - [SimBERTv2来了！融合检索和生成的RoFormer-Sim模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8454)\n- 2021-03-15 - [WGAN的成功，可能跟Wasserstein距离没啥关系](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8244)\n- 2021-03-03 - [T5 PEGASUS：开源一个中文生成式预训练模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8209)\n- 2021-01-26 - [Seq2Seq重复解码现象的理论分析尝试](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8128)\n- 2021-01-11 - [你可能不需要BERT-flow：一个线性变换媲美BERT-flow](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8069)\n- 2021-01-01 - [SPACES：“抽取-生成”式长文本摘要（法研杯总结）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8046)\n- 2020-11-20 - [跟风玩玩目前最大的中文GPT2模型（bert4keras）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7912)\n- 2020-11-06 - [那个屠榜的T5模型，现在可以在中文上玩玩了](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7867)\n- 2020-10-27 - [TeaForN：让Teacher Forcing更有“远见”一些](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7818)\n- 2020-10-19 - [BERT可以上几年级了？Seq2Seq“硬刚”小学数学应用题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7809)\n- 2020-09-07 - [动手做个DialoGPT：基于LM的生成式多轮对话模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7718)\n- 2020-07-25 - [学会提问的BERT：端到端地从篇章中构建问答对](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7630)\n- 2020-07-10 - [强大的NVAE：以后再也不能说VAE生成的图像模糊了](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7574)\n- 2020-07-04 - [线性Attention的探索：Attention必须有个Softmax吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7546)\n- 2020-06-16 - [如何应对Seq2Seq中的“根本停不下来”问题？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7500)\n- 2020-06-01 - [泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7466)\n- 2020-05-18 - [鱼与熊掌兼得：融合检索和生成的SimBERT模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7427)\n- 2020-04-20 - [EAE：自编码器 + BN + 最大熵 = 生成模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7343)\n- 2020-03-16 - [现在可以用Keras玩中文GPT2了（GPT2_ML）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7292)\n- 2020-03-09 - [Seq2Seq中Exposure Bias现象的浅析与对策](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7259)\n- 2020-03-01 - [对抗训练浅谈：意义、方法和思考（附Keras实现）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7234)\n- 2020-02-13 - [Designing GANs：又一个GAN生产车间](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7210)\n- 2019-12-26 - [“非自回归”也不差：基于MLM的阅读理解问答](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7148)\n- 2019-12-14 - [基于Conditional Layer Normalization的条件文本生成](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7124)\n- 2019-12-05 - [万能的seq2seq：基于seq2seq的阅读理解问答](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7115)\n- 2019-12-01 - [级联抑制：提升GAN表现的一种简单有效的方法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7105)\n- 2019-11-06 - [Keras：Tensorflow的黄金标准](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7055)\n- 2019-10-31 - [从去噪自编码器到生成模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7038)\n- 2019-09-18 - [从语言模型到Seq2Seq：Transformer如戏，全靠Mask](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6933)\n- 2019-08-09 - [seq2seq之双向解码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6877)\n- 2019-06-24 - [VQ-VAE的简明介绍：量子化自编码器](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6760)\n- 2019-04-19 - [从DCGAN到SELF-MOD：GAN的模型架构发展一览](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6549)\n- 2019-03-06 - [O-GAN：简单修改，让GAN的判别器变成一个编码器！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6409)\n- 2019-02-26 - [非对抗式生成模型GLANN的简单介绍](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6394)\n- 2019-02-22 - [巧断梯度：单个loss实现GAN模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6387)\n- 2019-01-20 - [从Wasserstein距离、对偶理论到WGAN](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6280)\n- 2019-01-14 - [基于CNN和序列标注的对联机器人](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6270)\n- 2018-12-26 - [【学习清单】最近比较重要的GAN进展论文](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6240)\n- 2018-12-10 - [BiGAN-QP：简单清晰的编码&生成模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6214)\n- 2018-11-27 - [从变分编码、信息瓶颈到正态分布：论遗忘的重要性](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6181)\n- 2018-11-20 - [不用L约束又不会梯度消失的GAN，了解一下？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6163)\n- 2018-11-07 - [WGAN-div：一个默默无闻的WGAN填坑者](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6139)\n- 2018-10-22 - [RSGAN：对抗模型中的“图灵测试”思想](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6110)\n- 2018-10-10 - [变分自编码器 = 最小化先验分布 + 最大化互信息](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6088)\n- 2018-10-07 - [深度学习中的Lipschitz约束：泛化与生成模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6051)\n- 2018-09-29 - [f-GAN简介：GAN模型的生产车间](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6016)\n- 2018-09-01 - [玩转Keras之seq2seq自动生成标题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5861)\n- 2018-07-18 - [用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5716)\n- 2018-03-24 - [基于CNN和VAE的作诗机器人：随机成诗](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5332)\n- 2017-08-26 - [fashion-mnist的gan玩具](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4540)\n- 2017-06-08 - [互怼的艺术：从零直达WGAN-GP](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4439)\n\n\u003Ca id=\"topic-optimization\">\u003C\u002Fa>\n### 优化与训练\n\n\u003Ca id=\"series-optimization-2adf8edae5\">\u003C\u002Fa>\n#### 基于流式幂迭代的Muon实现 [返回目录](#目录)\n\n- 2026-03-12 - [基于流式幂迭代的Muon实现：1. 初识](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11654)\n- 2026-03-26 - [基于流式幂迭代的Muon实现：2. 加速](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11673)\n- 2026-04-07 - [基于流式幂迭代的Muon实现：3. 雕琢](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11697)\n- 2026-04-13 - [基于流式幂迭代的Muon实现：4. 原理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11710)\n- 2026-04-17 - [基于流式幂迭代的Muon实现：5. 延伸](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11719)\n\n\u003Ca id=\"series-optimization-22f3c62045\">\u003C\u002Fa>\n#### 让炼丹更科学一些 [返回目录](#目录)\n\n- 2023-12-19 - [让炼丹更科学一些（一）：SGD的平均损失收敛](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9902)\n- 2025-12-12 - [让炼丹更科学一些（二）：将结论推广到无界域](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11469)\n- 2025-12-16 - [让炼丹更科学一些（三）：SGD的终点损失收敛](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11480)\n- 2025-12-26 - [让炼丹更科学一些（四）：新恒等式，新学习率](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11494)\n- 2026-01-09 - [让炼丹更科学一些（五）：基于梯度精调学习率](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11530)\n- 2026-01-16 - [让炼丹更科学一些（六）：自上而下的精妙构造](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11540)\n\n\u003Ca id=\"series-optimization-623aab7f21\">\u003C\u002Fa>\n#### AdamW的Weight RMS的渐近估计 [返回目录](#目录)\n\n- 2025-10-01 - [AdamW的Weight RMS的渐近估计（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11307)\n- 2025-11-17 - [AdamW的Weight RMS的渐近估计（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11404)\n\n\u003Ca id=\"series-optimization-9aa52368b1\">\u003C\u002Fa>\n#### 流形上的最速下降 [返回目录](#目录)\n\n- 2025-08-01 - [流形上的最速下降：1. SGD + 超球面](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11196)\n- 2025-08-06 - [流形上的最速下降：2. Muon + 正交](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11215)\n- 2025-08-08 - [流形上的最速下降：3. Muon + Stiefel](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11221)\n- 2025-08-21 - [流形上的最速下降：4. Muon + 谱球面](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11241)\n- 2025-11-03 - [流形上的最速下降：5. 对偶梯度下降](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11388)\n\n\u003Ca id=\"series-optimization-297337ae72\">\u003C\u002Fa>\n#### 通过msign来计算奇异值裁剪mclip [返回目录](#目录)\n\n- 2025-06-07 - [通过msign来计算奇异值裁剪mclip（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11006)\n- 2025-06-23 - [通过msign来计算奇异值裁剪mclip（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11059)\n\n\u003Ca id=\"series-optimization-d27a2576eb\">\u003C\u002Fa>\n#### msign算子的Newton-Schulz迭代 [返回目录](#目录)\n\n- 2025-05-11 - [msign算子的Newton-Schulz迭代（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10922)\n- 2025-06-05 - [msign算子的Newton-Schulz迭代（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10996)\n\n\u003Ca id=\"series-optimization-4b38446b55\">\u003C\u002Fa>\n#### 从动力学角度看优化算法 [返回目录](#目录)\n\n- 2018-06-27 - [从动力学角度看优化算法（一）：从SGD到动量加速](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5655)\n- 2018-12-20 - [从动力学角度看优化算法（二）：自适应学习率算法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6234)\n- 2019-01-08 - [从动力学角度看优化算法（三）：一个更整体的视角](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6261)\n- 2019-05-03 - [从动力学角度看优化算法（四）：GAN的第三个阶段](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6583)\n- 2020-10-10 - [从动力学角度看优化算法（五）：为什么学习率不宜过小？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7787)\n- 2020-12-11 - [从动力学角度看优化算法（六）：为什么SimSiam不退化？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7980)\n- 2020-12-21 - [从动力学角度看优化算法（七）：SGD ≈ SVM？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8009)\n\n\u003Ca id=\"series-optimization-standalone\">\u003C\u002Fa>\n#### 非系列文章 [返回目录](#目录)\n\n- 2026-05-08 - [直接以FID为Loss：从梯度计算到流式训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11738)\n- 2026-02-04 - [Adam优化器的最优超参数是β1=β2 ？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11593)\n- 2026-01-20 - [为什么我们偏爱各向同性？基于最速下降的理解](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11549)\n- 2025-12-05 - [滑动平均视角下的权重衰减和学习率](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11459)\n- 2025-11-19 - [Muon优化器指南：快速上手与关键细节](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11416)\n- 2025-09-02 - [为什么Adam的Update RMS是0.2？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11267)\n- 2025-07-12 - [QK-Clip：让Muon在Scaleup之路上更进一步](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11126)\n- 2025-06-13 - [msign的导数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11025)\n- 2025-04-02 - [通过梯度近似寻找Normalization的替代品](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10831)\n- 2025-03-24 - [高阶MuP：更简明但更高明的谱条件缩放](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10795)\n- 2025-03-13 - [初探MuP：超参数的跨模型尺度迁移规律](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10770)\n- 2025-02-27 - [Muon续集：为什么我们选择尝试Muon？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10739)\n- 2025-01-02 - [为什么梯度裁剪的默认模长是1？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10657)\n- 2024-12-25 - [从谱范数梯度到新式权重衰减的思考](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10648)\n- 2024-12-10 - [Muon优化器赏析：从向量到矩阵的本质跨越](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10592)\n- 2024-11-29 - [从Hessian近似看自适应学习率优化器](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10588)\n- 2024-11-18 - [Adam的epsilon如何影响学习率的Scaling Law？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10563)\n- 2024-11-14 - [当Batch Size增大时，学习率该如何随之变化？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10542)\n- 2024-06-14 - [通向概率分布之路：盘点Softmax及其替代品](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10145)\n- 2024-02-27 - [配置不同的学习率，LoRA还能再涨一点？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10001)\n- 2023-10-22 - [从梯度最大化看Attention的Scale操作](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9812)\n- 2023-10-13 - [EMO：基于最优传输思想设计的分类损失函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9797)\n- 2023-08-28 - [Lion\u002FTiger优化器训练下的Embedding异常和对策](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9736)\n- 2023-07-20 - [语言模型输出端共享Embedding的重新探索](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9698)\n- 2023-06-16 - [梯度流：探索通向最小值之路](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9660)\n- 2023-04-17 - [梯度视角下的LoRA：简介、分析、猜测及推广](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9590)\n- 2023-03-14 - [缓解交叉熵过度自信的一个简明方案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9526)\n- 2023-03-07 - [Tiger：一个“抠”到极致的优化器](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9512)\n- 2023-02-16 - [Google新搜出的优化器Lion：效率与效果兼得的“训练狮”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9473)\n- 2022-11-22 - [基于Amos优化器思想推导出来的一些“炼丹策略”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9344)\n- 2022-07-15 - [不成功的尝试：将多标签交叉熵推广到“n个m分类”上去](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9158)\n- 2022-06-01 - [如何训练你的准确率？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9098)\n- 2022-05-18 - [当BERT-whitening引入超参数：总有一款适合你](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9079)\n- 2022-05-07 - [多标签“Softmax+交叉熵”的软标签版本](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9064)\n- 2022-04-15 - [GlobalPointer下的“KL散度”应该是怎样的？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9039)\n- 2022-03-09 - [训练1000层的Transformer究竟有什么困难？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8978)\n- 2022-03-03 - [指数梯度下降 + 元学习 = 自适应学习率](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8968)\n- 2021-12-11 - [输入梯度惩罚与参数梯度惩罚的一个不等式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8796)\n- 2021-11-29 - [Dropout视角下的MLM和MAE：一些新的启发](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8770)\n- 2021-11-22 - [ChildTuning：试试把Dropout加到梯度上去？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8764)\n- 2021-10-18 - [初始化方法中非方阵的维度平均策略思考](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8725)\n- 2021-09-01 - [从三角不等式到Margin Softmax](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8656)\n- 2021-08-24 - [隐藏在动量中的梯度累积：少更新几步，效果反而更好？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8634)\n- 2021-08-17 - [浅谈Transformer的初始化、参数化与标准化](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8620)\n- 2021-07-26 - [FlatNCE：小批次对比学习效果差的原因竟是浮点误差？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8586)\n- 2021-07-01 - [又是Dropout两次！这次它做到了有监督任务的SOTA](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8496)\n- 2021-06-17 - [对比学习可以使用梯度累积吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8471)\n- 2020-11-13 - [也来谈谈RNN的梯度消失\u002F爆炸问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7888)\n- 2020-09-15 - [殊途同归的策略梯度与零阶优化](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7737)\n- 2020-08-31 - [再谈类别不平衡问题：调节权重与魔改Loss的对比联系](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7708)\n- 2020-07-31 - [我们真的需要把训练集的损失降低到零吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7643)\n- 2020-07-19 - [通过互信息思想来缓解类别不平衡问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7615)\n- 2020-06-23 - [从采样看优化：可导优化与不可导优化的统一视角](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7521)\n- 2020-06-05 - [为什么梯度裁剪能加速训练过程？一个简明的分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7469)\n- 2020-06-01 - [泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7466)\n- 2020-05-11 - [AdaX优化器浅析（附开源实现）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7387)\n- 2020-04-25 - [将“Softmax+交叉熵”推广到多标签分类问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7359)\n- 2020-03-23 - [AdaFactor优化器浅析（附开源实现）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7302)\n- 2020-02-07 - [你的CRF层的学习率可能不够大](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7196)\n- 2020-01-16 - [从几何视角来理解模型参数的初始化策略](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7180)\n- 2019-11-25 - [6个派生优化器的简单介绍及其实现](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7094)\n- 2019-07-30 - [Keras实现两个优化器：Lookahead和LazyOptimizer](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6869)\n- 2019-07-08 - [用时间换取效果：Keras梯度累积优化器](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6794)\n- 2018-11-20 - [不用L约束又不会梯度消失的GAN，了解一下？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6163)\n- 2018-07-29 - [基于GRU和AM-Softmax的句子相似度模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5743)\n- 2017-12-25 - [从loss的硬截断、软化到focal loss](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4733)\n- 2017-08-08 - [【备忘】谈谈dropout](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4521)\n- 2017-07-22 - [Keras中自定义复杂的loss函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4493)\n- 2017-03-23 - [梯度下降和EM算法：系出同源，一脉相承](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4277)\n- 2011-07-27 - [Lamost下的天文夏令营](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1452)\n- 2010-04-17 - [Lamost被冠名为“郭守敬望远镜”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F604)\n\n\u003Ca id=\"topic-math\">\u003C\u002Fa>\n### 数学工具\n\n\u003Ca id=\"series-math-6689ddf615\">\u003C\u002Fa>\n#### 低秩近似之路 [返回目录](#目录)\n\n- 2024-09-15 - [低秩近似之路（一）：伪逆](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10366)\n- 2024-10-01 - [低秩近似之路（二）：SVD](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10407)\n- 2024-10-11 - [低秩近似之路（三）：CR](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10427)\n- 2024-10-30 - [低秩近似之路（四）：ID](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10501)\n- 2025-01-12 - [低秩近似之路（五）：CUR](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10662)\n\n\u003Ca id=\"series-math-6a0e7d7415\">\u003C\u002Fa>\n#### SVD分解 [返回目录](#目录)\n\n- 2017-01-15 - [SVD分解(一)：自编码器与人工智能](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4208)\n- 2017-01-26 - [SVD分解(二)：为什么SVD意味着聚类？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4216)\n- 2017-02-23 - [SVD分解(三)：连Word2Vec都只不过是个SVD？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4233)\n\n\u003Ca id=\"series-math-07dc7181b7\">\u003C\u002Fa>\n#### 外微分浅谈 [返回目录](#目录)\n\n- 2016-11-04 - [【外微分浅谈】1. 绪论与启发](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4051)\n- 2016-11-04 - [【外微分浅谈】2. 反对称的威力](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4054)\n- 2016-11-05 - [【外微分浅谈】3. 正交标架](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4058)\n- 2016-11-05 - [【外微分浅谈】4. 微分不微](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4059)\n- 2016-11-06 - [【外微分浅谈】5. 几何意义](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4062)\n- 2016-11-07 - [【外微分浅谈】6. 微分几何](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4065)\n- 2016-11-11 - [【外微分浅谈】7. 有力的计算](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4076)\n\n\u003Ca id=\"series-math-f5eea49ebf\">\u003C\u002Fa>\n#### 路径积分系列 [返回目录](#目录)\n\n- 2016-05-30 - [路径积分系列：1.我的毕业论文](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3749)\n- 2016-05-30 - [路径积分系列：2.随机游走模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3750)\n- 2016-06-02 - [路径积分系列：3.路径积分](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3757)\n- 2016-06-09 - [路径积分系列：4.随机微分方程](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3762)\n- 2016-06-09 - [路径积分系列：5.例子和综述](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3766)\n\n\u003Ca id=\"series-math-a994c848cb\">\u003C\u002Fa>\n#### “熵”不起：从熵、最大熵原理到最大熵模型 [返回目录](#目录)\n\n- 2015-12-01 - [“熵”不起：从熵、最大熵原理到最大熵模型（一）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3534)\n- 2015-12-11 - [“熵”不起：从熵、最大熵原理到最大熵模型（二）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3552)\n- 2015-12-20 - [“熵”不起：从熵、最大熵原理到最大熵模型（三）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3567)\n\n\u003Ca id=\"series-math-06b60440b9\">\u003C\u002Fa>\n#### 高斯型积分的微扰展开 [返回目录](#目录)\n\n- 2015-02-14 - [高斯型积分的微扰展开（一）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3217)\n- 2015-03-07 - [高斯型积分的微扰展开（二）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3241)\n- 2015-04-26 - [高斯型积分的微扰展开（三）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3280)\n\n\u003Ca id=\"series-math-df510aaec3\">\u003C\u002Fa>\n#### 从费马大定理谈起 [返回目录](#目录)\n\n- 2014-08-15 - [从费马大定理谈起（一）：背景简介](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2805)\n- 2014-08-15 - [从费马大定理谈起（二）：勾股数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2808)\n- 2014-08-16 - [从费马大定理谈起（三）：高斯整数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2811)\n- 2014-08-17 - [从费马大定理谈起（四）：唯一分解整环](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2819)\n- 2014-08-19 - [从费马大定理谈起（五）：n=4](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2831)\n- 2014-08-19 - [从费马大定理谈起（六）：n=4（2）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2858)\n- 2014-08-23 - [从费马大定理谈起（七）：费马平方和定理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2886)\n- 2014-08-30 - [从费马大定理谈起（八）：艾森斯坦整数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2900)\n- 2014-09-01 - [从费马大定理谈起（九）：n=3](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2910)\n- 2014-10-10 - [从费马大定理谈起（十）：x^3+y^3=z^3+w^3](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2972)\n- 2014-10-24 - [从费马大定理谈起（十一）：有理点与切割线法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2996)\n- 2014-10-25 - [从费马大定理谈起（十二）：再谈谈切线法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3008)\n\n\u003Ca id=\"series-math-26a49a282f\">\u003C\u002Fa>\n#### 新理解矩阵 [返回目录](#目录)\n\n- 2012-10-29 - [《新理解矩阵1》：矩阵是什么？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1765)\n- 2012-10-31 - [《新理解矩阵2》：矩阵是什么？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1768)\n- 2012-11-04 - [《新理解矩阵3》：行列式的点滴](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1770)\n- 2012-11-11 - [《新理解矩阵4》：相似矩阵的那些事儿](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1777)\n- 2013-12-25 - [《新理解矩阵5》：体积=行列式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2208)\n- 2014-07-15 - [《新理解矩阵6》：为什么只有方阵有行列式？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2757)\n\n\u003Ca id=\"series-math-aeb91e1623\">\u003C\u002Fa>\n#### 求解微分方程的李对称方法 [返回目录](#目录)\n\n- 2013-10-29 - [求解微分方程的李对称方法（一）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2107)\n- 2013-11-26 - [求解微分方程的李对称方法（二）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2185)\n\n\u003Ca id=\"series-math-c295ed4753\">\u003C\u002Fa>\n#### 数学基本技艺之23、24 [返回目录](#目录)\n\n- 2013-09-26 - [数学基本技艺之23、24（上）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2083)\n- 2013-09-27 - [数学基本技艺之23、24（下）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2096)\n\n\u003Ca id=\"series-math-ce0fb96873\">\u003C\u002Fa>\n#### 纠缠的时空 [返回目录](#目录)\n\n- 2013-02-01 - [纠缠的时空（一）：洛仑兹变换的矩阵](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1889)\n- 2013-02-27 - [纠缠的时空（二）：洛仑兹变换的矩阵(续)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1923)\n- 2013-04-18 - [纠缠的时空（三）：长度收缩和时间延缓](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1971)\n\n\u003Ca id=\"series-math-ec7e1e24d2\">\u003C\u002Fa>\n#### 费曼积分法 [返回目录](#目录)\n\n- 2013-03-24 - [费曼积分法(5)：欧拉数学的传承](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1942)\n- 2013-03-24 - [费曼积分法(6)：教科书上的两道练习题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1944)\n- 2013-03-27 - [费曼积分法(7)：欧拉数学的综合](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1946)\n- 2013-04-14 - [费曼积分法(8)：求高斯积分](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1967)\n\n\u003Ca id=\"series-math-4c07e201c9\">\u003C\u002Fa>\n#### 轻微的扰动——摄动法简介 [返回目录](#目录)\n\n- 2013-01-16 - [轻微的扰动——摄动法简介(1)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1878)\n- 2013-02-06 - [轻微的扰动——摄动法简介(2)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1909)\n- 2013-03-07 - [轻微的扰动——摄动法简介(3)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1929)\n\n\u003Ca id=\"series-math-246a7a31d9\">\u003C\u002Fa>\n#### 费曼路径积分思想的发展 [返回目录](#目录)\n\n- 2012-12-26 - [费曼路径积分思想的发展(一)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1844)\n- 2012-12-26 - [费曼路径积分思想的发展(二)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1846)\n- 2012-12-27 - [费曼路径积分思想的发展(三)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1849)\n- 2012-12-27 - [费曼路径积分思想的发展(四)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1850)\n\n\u003Ca id=\"series-math-7a80644aea\">\u003C\u002Fa>\n#### 算子与线性常微分方程 [返回目录](#目录)\n\n- 2012-11-30 - [算子与线性常微分方程(上)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1791)\n- 2012-11-30 - [算子与线性常微分方程(下)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1794)\n\n\u003Ca id=\"series-math-e14089cebd\">\u003C\u002Fa>\n#### 费曼积分法——积分符号内取微分 [返回目录](#目录)\n\n- 2012-06-10 - [费曼积分法——积分符号内取微分(1)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1615)\n- 2012-06-12 - [费曼积分法——积分符号内取微分(2)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1619)\n- 2012-06-23 - [费曼积分法——积分符号内取微分(3)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1629)\n- 2012-06-26 - [费曼积分法——积分符号内取微分(4)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1637)\n\n\u003Ca id=\"series-math-f9866e4ce1\">\u003C\u002Fa>\n#### 《教材如何写》 [返回目录](#目录)\n\n- 2011-04-16 - [《教材如何写》:对于教材写法的一点考虑](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1328)\n- 2011-04-16 - [《教材如何写》:我们需要怎样的数学教育？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1324)\n- 2011-04-19 - [《教材如何写》:BoJone的粗浅看法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1329)\n\n\u003Ca id=\"series-math-5e3917ad32\">\u003C\u002Fa>\n#### 自然极值 [返回目录](#目录)\n\n- 2010-11-27 - [《自然极值》系列——1.前言](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1065)\n- 2010-11-27 - [《自然极值》系列——2.费马原理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1068)\n- 2010-11-28 - [《自然极值》系列——3.平衡态公理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1072)\n- 2010-11-28 - [《自然极值》系列——4.费马点问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1076)\n- 2010-12-09 - [《自然极值》系列——5.最速降线的故事](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1094)\n- 2010-12-10 - [《自然极值》系列——6.最速降线的解答](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1107)\n- 2010-12-26 - [《自然极值》系列——7.悬链线问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1128)\n- 2010-12-26 - [《自然极值》系列——8.极值分析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F1134)\n\n\u003Ca id=\"series-math-fae158475e\">\u003C\u002Fa>\n#### 向量 [返回目录](#目录)\n\n- 2010-07-15 - [《向量》系列——1.向心力公式证明](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F701)\n- 2010-07-18 - [《向量》系列——2.曲率半径](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F714)\n- 2010-07-24 - [《向量》系列——3.当天体力学遇到向量(1)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F740)\n- 2010-08-23 - [《向量》系列——4.天旋地转(向量,复数,极坐标)](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F889)\n- 2010-10-03 - [《向量》系列——5.平面向量微分方程与复数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F963)\n\n\u003Ca id=\"series-math-d050b16b4d\">\u003C\u002Fa>\n#### 微积分学习 [返回目录](#目录)\n\n- 2009-08-16 - [微积分学习（一）：极限](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F75)\n- 2009-09-12 - [微积分学习（二）：导数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F118)\n\n\u003Ca id=\"series-math-standalone\">\u003C\u002Fa>\n#### 非系列文章 [返回目录](#目录)\n\n- 2026-05-29 - [矩阵参数的奇异值熵越高越好吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11767)\n- 2026-05-08 - [直接以FID为Loss：从梯度计算到流式训练](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11738)\n- 2026-05-04 - [如何更科学地估计矩阵的谱范数？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11736)\n- 2026-03-31 - [中位数（Median）简介](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11693)\n- 2026-01-26 - [DeltaNet的核心逆矩阵的元素总是在\\[-1, 1\\]内](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11563)\n- 2025-11-06 - [n个正态随机数的最大值的渐近估计](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11390)\n- 2025-10-12 - [随机矩阵的谱范数的快速估计](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11335)\n- 2025-07-21 - [矩阵r次方根和逆r次方根的高效计算](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11175)\n- 2025-07-19 - [矩阵平方根和逆平方根的高效计算](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11158)\n- 2025-07-01 - [“对角+低秩”三角阵的高效求逆方法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11072)\n- 2025-06-23 - [矩阵符号函数mcsgn能计算什么？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F11056)\n- 2025-06-02 - [等值振荡定理：最优多项式逼近的充要条件](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10972)\n- 2025-04-30 - [一道概率不等式：盯着它到显然成立为止！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10902)\n- 2025-04-26 - [SVD的导数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10878)\n- 2025-04-10 - [矩阵的有效秩（Effective Rank）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10847)\n- 2025-01-28 - [三个球的交点坐标（三球交会定位）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10684)\n- 2024-10-15 - [让MathJax的数学公式随窗口大小自动缩放](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10474)\n- 2024-07-24 - [Monarch矩阵：计算高效的稀疏型矩阵分解](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10249)\n- 2024-03-07 - [用傅里叶级数拟合一维概率密度函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F10007)\n- 2024-01-09 - [局部余弦相似度大，全局余弦相似度一定也大吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9931)\n- 2023-09-20 - [自然数集中 N = ab + c 时 a + b + c 的最小值](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9775)\n- 2023-05-05 - [如何度量数据的稀疏程度？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9595)\n- 2022-11-02 - [利用CUR分解加速交互式相似度模型的检索](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9336)\n- 2022-10-25 - [圆内随机n点在同一个圆心角为θ的扇形的概率](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9324)\n- 2022-10-09 - [“十字架”组合计数问题浅试](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9291)\n- 2022-05-25 - [从重参数的角度看离散概率分布的构建](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9085)\n- 2022-05-10 - [logsumexp运算的几个不等式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F9070)\n- 2021-12-24 - [概率分布的熵归一化（Entropy Normalization）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8829)\n- 2021-10-10 - [用狄拉克函数来构造非光滑函数的光滑近似](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8718)\n- 2021-09-24 - [让人惊叹的Johnson-Lindenstrauss引理：应用篇](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8706)\n- 2021-09-17 - [让人惊叹的Johnson-Lindenstrauss引理：理论篇](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8679)\n- 2021-09-01 - [从三角不等式到Margin Softmax](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8656)\n- 2021-08-09 - [线性Transformer应该不是你要等的那个模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8610)\n- 2021-07-22 - [概率视角下的线性模型：逻辑回归有解析解吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8578)\n- 2021-07-08 - [两个多元正态分布的KL散度、巴氏距离和W距离](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8512)\n- 2021-06-05 - [从一个单位向量变换到另一个单位向量的正交矩阵](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8453)\n- 2021-02-16 - [Nyströmformer：基于矩阵分解的线性化Attention方案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8180)\n- 2021-02-03 - [让研究人员绞尽脑汁的Transformer位置编码](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8130)\n- 2021-01-26 - [Seq2Seq重复解码现象的理论分析尝试](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8128)\n- 2020-12-24 - [RealFormer：把残差转移到Attention矩阵上面去](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F8027)\n- 2020-12-14 - [Mitchell近似：乘法变为加法，误差不超过1\u002F9](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7991)\n- 2020-11-24 - [exp(x)在x=0处的偶次泰勒展开式总是正的](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7919)\n- 2020-10-19 - [BERT可以上几年级了？Seq2Seq“硬刚”小学数学应用题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7809)\n- 2020-06-28 - [积分梯度：一种新颖的神经网络可视化方法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7533)\n- 2020-05-13 - [从EMD、WMD到WRD：文本向量序列的相似度计算](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7388)\n- 2020-02-13 - [Designing GANs：又一个GAN生产车间](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7210)\n- 2020-01-12 - [Self-Orthogonality Module：一个即插即用的核正交化模块](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7169)\n- 2019-11-13 - [n维空间下两个随机向量的夹角分布](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F7076)\n- 2019-08-26 - [HSIC简介：一个有意思的判断相关性的思路](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6910)\n- 2019-07-21 - [思考：两个椭圆片能粘合成一个立体吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6818)\n- 2019-06-19 - [简述无偏估计和有偏估计](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6747)\n- 2019-05-20 - [函数光滑化杂谈：不可导函数的可导逼近](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6620)\n- 2019-03-14 - [圆周率节快乐！|| 原来已经写了十年博客～](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6469)\n- 2019-03-01 - [构造一个显式的、总是可逆的矩阵](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6407)\n- 2019-02-18 - [恒等式 det(exp(A)) = exp(Tr(A)) 赏析](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6377)\n- 2018-10-16 - [再谈非方阵的行列式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6096)\n- 2018-10-07 - [深度学习中的Lipschitz约束：泛化与生成模型](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F6051)\n- 2018-06-23 - [貌离神合的RNN与ODE：花式RNN简介](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5643)\n- 2018-05-02 - [基于Conv1D的光谱分类模型（一维序列分类）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5505)\n- 2018-03-15 - [从最大似然到EM算法：一致的理解方式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5239)\n- 2018-03-02 - [三味Capsule：矩阵Capsule与EM路由](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F5155)\n- 2017-12-07 - [一阶偏微分方程的特征线法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4718)\n- 2017-10-13 - [基于fine tune的图像分类（百度分狗竞赛）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4611)\n- 2017-10-06 - [从马尔科夫过程到主方程（推导过程）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4598)\n- 2017-07-03 - [《交换代数导引》参考答案](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4486)\n- 2017-01-11 - [狄拉克函数：级数逼近](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4187)\n- 2017-01-07 - [基于遗忘假设的平滑公式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4182)\n- 2016-11-16 - [为什么勒贝格积分比黎曼积分强？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F4083)\n- 2016-08-04 - [差分方程的摄动法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3889)\n- 2016-05-15 - [Coming Back...](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3735)\n- 2016-04-15 - [斯特灵(stirling)公式与渐近级数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3731)\n- 2016-04-09 - [一个非线性差分方程的隐函数解](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3696)\n- 2016-04-01 - [《量子力学与路径积分》习题解答V0.5](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3692)\n- 2016-03-20 - [\\[欧拉数学\\]伯努利级数及相关级数的总结](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3680)\n- 2016-02-20 - [熵的形象来源与熵的妙用](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3638)\n- 2016-02-15 - [积分估计的极值原理——变分原理的初级版本](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3630)\n- 2016-01-09 - [《量子力学与路径积分》习题解答V0.4](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3582)\n- 2015-11-18 - [《量子力学与路径积分》习题解答V0.3](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3522)\n- 2015-11-13 - [ARXIV数学论文分布：偏微分方程最热门！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3511)\n- 2015-10-28 - [朋友们，来瓶汽水吧！有趣的换汽水问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3495)\n- 2015-10-17 - [《量子力学与路径积分》习题解答V0.2](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3476)\n- 2015-09-14 - [《量子力学与路径积分》习题解答V0.1](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3451)\n- 2015-08-30 - [封闭曲线所围成的面积：一个新技巧](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3441)\n- 2015-08-13 - [exp(1\u002F2 t^2+xt)级数展开的图解技术](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3426)\n- 2015-07-21 - [从“0.999...等于1”说开来](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3402)\n- 2015-06-06 - [收到新版《量子力学与路径积分》](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3345)\n- 2015-05-26 - [胡闹的胜利：将算子引入级数求和](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3320)\n- 2015-05-02 - [寻求一个光滑的最大值函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3290)\n- 2015-04-19 - [柯西命题：盯着它到显然成立为止！](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3272)\n- 2015-04-16 - [采样定理：有限个点构建出整个函数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3266)\n- 2015-03-28 - [有趣的求极限题：随心所欲的放缩](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3256)\n- 2015-03-27 - [海伦公式的一个别致的物理推导](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3252)\n- 2015-03-17 - [你所没有思考过的平行线问题](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3243)\n- 2015-02-27 - [从Knotsevich在黑板上写的级数题目谈起](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3229)\n- 2015-01-20 - [有限素域上的乘法群是循环群](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3200)\n- 2015-01-16 - [勒贝格(Lebesgue)控制收敛定理](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3194)\n- 2015-01-13 - [当概率遇上复变：从二项分布到泊松分布](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3188)\n- 2015-01-06 - [借助变分法变换坐标](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3181)\n- 2014-12-23 - [鬼斧神工：求n维球的体积](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3154)\n- 2014-12-22 - [将多项式分解为两个不可约多项式之和](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3150)\n- 2014-12-08 - [伽马函数的傅里叶变换之路](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3108)\n- 2014-12-04 - [结果恒为整数的多项式](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3103)\n- 2014-12-03 - [正弦级数和余弦级数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3101)\n- 2014-11-24 - [力的无穷分解与格林函数法](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3092)\n- 2014-11-17 - [\\[转载\\] 做数学一定要是天才吗？](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3086)\n- 2014-11-12 - [特殊的通项公式：二次非线性递推](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3064)\n- 2014-11-12 - [实数域上有限维可除代数只有四种](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3060)\n- 2014-10-30 - [只有两个四阶群和六阶群](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3036)\n- 2014-10-28 - [在Python中使用GMP（gmpy2）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3026)\n- 2014-10-27 - [算符的艺术：差分、微分与伯努利数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F3018)\n- 2014-10-17 - [两百万素数之和与“电脑病”](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2991)\n- 2014-10-12 - [集合的划分与贝尔数](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2985)\n- 2014-10-01 - [几个有关集合势的“简单”证明](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2964)\n- 2014-09-22 - [实数集到无理数集的双射](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2953)\n- 2014-09-19 - [Cantor-Bernstein 定理（给出双射！）](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2951)\n- 2014-09-16 - [生成函数法与整数的分拆](https:\u002F\u002Fspaces.ac.cn\u002Farchives\u002F2942)\n- 2014-09-11 - [\\[备份\\]全国大学","本项目自动抓取并索引科学空间的文章元数据，按研究主题进行分类，方便在GitHub上快速浏览并跳转到原文。核心功能包括自动抓取文章的标题、日期、链接、分类、标签等信息，并通过GitHub Actions定时更新，确保索引持续有效。项目采用Python编写，支持深度学习基础、词向量与Embedding、大模型与Transformer、生成模型、优化与训练以及数学工具等多个研究领域的文章分类。适合需要快速查找和阅读苏剑林老师高质量技术文章的研究者和开发者使用。",2,"2026-06-11 02:50:04","CREATED_QUERY"]