笔记¶

劝退指南：不是博客，而是笔记，甚至是草稿

写笔记是为了让自己看懂，写博客是为了让别人看懂，不一样的，认真做好后者对自己各方面能力的提升会非常大（比如表达能力），其实很多时候记笔记就是写几段自己能看懂的表达，很随性，但写博客更像是写一篇论文，需要自己先彻底搞明白一个东西后才能输出¹

我一直努力将内容写成博客。但是后来发现，根本没有时间和心思，来为别人解释很多事情。我的想法是最多是解释给多年后忘记一切的自己听，我还能快速看懂。能达到这点，这些内容的意义对于我就已经足够。

从读者的角度，我并不会推荐任何人阅读这个网站的内容：因为你会遇到以下令人烦躁的场景

完整性差：某些笔记写着写着就没有了，内容是残缺的。甚至只有一个标题。（这是因为我没有时间填充内容，或者我的研究和注意力转变方向了，弃坑了弃坑了~）
可读性一般：很少有起承转合的解释语句，笔记的内容逻辑几乎全部靠多级标题维持.
笔记间关联性低：从读者的角度是看不到本人是如何使用多级文件夹，来组织划分笔记间的内容逻辑。如果你在搜索栏找不到你想要的关键词，那大概率我没接触到这方面的内容。

知识是自然聚类和融合的，但需要两级的文档来过滤内容和撰写正文。小而全、无懈可击的内容应该是所追求的

导致这种情况，其实和我对知识产出过程的理解有关，我认为过程是 知识是自然聚类和融合的：

接触到领域对象(新建文件夹)
阅读各种文献网站(零散的知识进行简单的聚类)
上手实践和研究(踩了许多坑，有或多或少的感悟)。

而且三者的占比是前面远大于后面，~~这样看来我这网站大部分的内容岂不是都是笔记的草稿~~。

我以这样的方式撰写我的正式的毕业论文时，发现这样的处理有利有弊：

优势：
1. 速度？：能快速的罗列出内容，填充了大量垃圾内容
2. 完备性：保留所有必要的相关信息，
劣势：
1. 对工作进度的误判：罗列的大量页数迷惑了自己，以为进度很快。其实仔细思路内容的有效性、逻辑关联性。核心观点的提炼。遣词造句都极其耗费时间。
  1. 最重要是导致只看页数的领导对你工作速度的误判导致的嫌弃：一周前就看见里论文写了60页了，怎么两周了还没写完。或者你都60页了快结束了，来帮帮我弄这个_{~阿米诺斯}~
2. 需要返工：重新整理罗列的垃圾内容，至少需要三倍以上的时间才能整理好。

总结：知识是自然聚类和融合的思想是没错的，但是在实际生产应用时需要两级的信息筛选过滤体系：区分出正文内的todo内容和未整理的archived信息。通过将罗列的完备信息初步分类归档(有基础的逻辑)以待后续使用，正文精心撰写每一句话保证不需要大量返工。

你们坚持写 blog 的原因是什么？ ↩

2026年3月17日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

Agent & Agentic RL

导言

Agentic RL 和 memory 是2026年的发展方向。本文将调研 Agentic RL 在多模态的发展潜力。

2026年2月27日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Business Trip: 2601-2602 verl + DanceGRPO

导言

ZJ内部出差，从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL，达成reward快速持续上升。

2026年2月5日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

导言

推理采样如何重塑概率地图：在普通监督学习（SFT）中，模型是被“喂饭”——你告诉它正确答案是什么，它去模仿。而在强化学习（RL）中，模型是在“试错”——它自己写几个答案，然后根据好坏来调整自己。

2026年2月2日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

My Digital Worker : New Coding Way

导言

AI浪潮下，一开始是代码补全，之后是Vibe Coding，现在是Agent（规范驱动开发(Spec-driven Development)），后续趋势是Agent Team/Swarm。核心LLM上层的逻辑编排层愈发的重要。

作为一个程序员，应当以什么姿势拥抱AI时代的代码编程，是需要持续关注的问题。

2026年2月2日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

My Digital Worker : Target 1

导言

第一阶段的目标: 接入api模型，完成每日的工作相关基础的信息收集和整理归档。
第二阶段的目标: 无监管处理较简单事项；
第三阶段的目标: 参与构建复杂系统，和辅助重要决策。

2026年2月2日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

My Digital Worker : AutoMoneyMaker - AutoTrader

导言

量化交易一直是最火的自动赚钱的途径：

经过调研，个人量化从技术上是可行的。
加上现在agent coding能力起来了。
原本是自己在写AQTP仓，但是发现了 zvt 这个偏个人的研究策略仓，和更关注实盘高频模拟的 vnpy
现在把精力转移到开源仓的使用
- zvt 仓的使用和二次开发上；（思路、可视化、数据库、策略拓展性都感觉OK）
- QUANTAXIS 通过 Rust 加速；
- AI 向 Qbot 和 microsoft/qlib 方法尝试。Qbot还支持接入飞书。

2026年2月2日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

My Digital Worker : Work with AI

导言

26年开年，Agent爆火，我也尝试了OpenClaw、CC等前沿工具和API接口。当前问题还是记忆力不够（即使1M也远远不够），这导致你还是不能将其看作是一个“数字员工”。从技术发展、幻觉和使用成本角度考虑，AI仍然将作为单点技术咨询/单问题解决（ 定制prompt ）的角色参与到个人的工作中，来增强个人能力，促成“生产力”超高的超级个体的产生。

大部分员工只是按部就班的做事，但是AI时代下，什么有价值，应该做什么（应该要AI帮你做什么）反而是最重要的。

本文将

从SE角度：热点跟踪、技术调研、客户交流/筛选规划、按期执行、测试看护、总结汇报。这些方面来介绍我是怎么利用AI辅助加速的。
Research发论文角度：AutoResearchInSleep： (调研文献)->(找idea)->(查新验证)->(写代码)->(部署跑实验)->(自动改到能投)-> (大纲)-> (作图)-> (LaTeX+PDF)->(审稿×2 + 格式检查)->(搞定!)

2026年2月2日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

My Digital Worker

导言

Agent 概念与 OpenClaw 的爆火，本质上反映了人们对个人数字员工（Digital Worker）能力的期待：它不只是一个对话式 AI，而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。

我真正关心的问题是：如何为自己的具体工作场景配置合适的数字员工，使其在时间与认知两个维度上对个人效率形成倍增效应。

2026年1月27日
分类于 Artificial Intelligence
需要 8 分钟阅读时间

AI Post Traning: DanceGRPO

导言

DanceGRPO是25年5月发表的论文，把GRPO的方法引入到了生成领域。（类似的有flowGRPO）。字节客户基于此魔改，故学习。

2026年1月27日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

AI Post Traning: DiffusionNFT

导言

DiffusionNFT 直接在前向加噪过程（forward process）上进行优化，在彻底摆脱似然估计与特定采样器依赖的同时，显著提升了训练效率与生成质量。在GenEval任务上，DiffusionNFT仅用约1.7k步就达到0.94分，而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。