随手记-写作启发思考

💡

写作启发思考

2024-12-30

PDD的故事——商业

最近一直有一个疑问，拼多多的黄铮是怎么在15年消费升级的大环境下，发现消费降级的趋势，开拓下沉市场呢？

听完播客，有点答案了，他并不是基于市场预测才开始做拼单业务，而是在拼单业务的尝试和摸索中发现了下沉市场的活力，然后才坚定投入的。

或许在那个中产崛起消费升级的时代，谁无法预测未来会是拼多多的天下，18年面临毕业选择的我不行，15年的黄铮也不行。

https://www.xiaoyuzhoufm.com/episode/65661324ce2ee31e8fa4f10d?s=eyJ1IjogIjVmOTEwZTU1ZTBmNWU3MjNiYmY4Y2M5MCJ9

2024-12-26

cool paper

读论文神器，https://papers.cool/

强大的跟踪功能：可以快速查阅arXiv不同Topic，或者会议期刊的最新论文

强大的搜索功能：总之不弱于其他平台

强大的阅读功能：可以直接打开pdf，打开kimi总结，查找论文相关内容

大模型推理平台的两种用户界面

从https://www.baseten.co/ 联想的

接口化，脚本化的工具：

更加灵活，可以直接融合在业务流程里面
不用做界面开发，节省前端投入（但是通常客户有可视化需求，这个是跑不掉的）
可以暴露丰富的细节，甚至实现原理，更加detail的torch到技术边界

可视化，自动化的UI界面：

对用户更加优化，特别是没有编程经验的人
可以把一个技术产品变成用户产品，隐藏技术细节

2024-12-25

谈知识的编码和解码

费曼学习法是一种流行甚广而且备受认可的一种学习方法，主张学完之后要进行教学才能掌握的更好，而我在读高中的时候，实践下来，认为最有用的学习方法就是在理解了答案之后，把错题重新做一遍。

这两个方法虽然看起来不同，但有类似的地方，那就是都有输入和输出两个过程。

输入，是在把其他人编辑（编码）好的东西，包括图片，文字或者视频，充分理解（解码），然后记下来（存储）

输出，无论是教学还是重新做一次题，都是在把已经记下来的内容，用自己的语言组织一次（编码），重新说出来。

用流程串起来：其他人的编码好的知识需要经过我们自己的：解码 → 存储 → 编码，才能比较好的掌握，而我们自己编码的东西，虽然和摄入的编码都是一个知识，但是两个编码结果并不相同，从形式上看也是这样的，人类毕竟不是复读机。不仅学习的编码和输出的编码不同，所有人的编码结果都不相同，每个人对知识的编码是独一无二的。当然解码的方式也可能是独一无二的，解码和编码之间应该是存在某种微妙的关系。

所以我有一个有趣的结论：学习的本质就是编码和解码，最高效的学习方式是编码和解码的融合

而最近还看到一个有趣的说法：语言就是一种编码。这么看的话

当我们写作表达的时候，其实是在把大脑中的信息按照语言规范编码出来。

不光语言是一种编码，所有的表达形式都是一种编码，人类大脑里面装的不是语言，是另一种信息的表达形式。

微观动作静态和动态

任何微观动作，用静态的视角去看，几乎都是愚蠢的。是观察的方式有问题，而不是动作真的愚蠢。

2024-12-24

大模型无法做到个性化输出

以教学场景为例，每个人对于知识点的掌握程度是不同的，如果模型以初级的方式讲解，对于已经深度掌握的人来说，回答中会包含大量冗余的信息，甚至无法回答到重点上，让人难以理解。而如果用比较专业有深度的方式讲解，对于初阶的人来说，输出几乎无法理解。

这个问题的破题，重点在于怎么高效的获取context信息。即人与人交互的过程中，我会根据对这个人的了解，他的教育背景，工作经历，选择不同的方式输出不同内容，这些背景信息其实也是一种context，他隐藏在直接对话内容的后面，但对输出有这重要影响。

大模型如何能够打破信息壁垒，收集到除主动输入给他的内容外的其他信息，来增强上下文的背景，对于大模型能够更贴近的解决业务问题有重要价值。回到真是的商业场景，各个企业都在典型打造的知识问答助手，同样针对报销的知识，如果我已经报销了很多次，和我第一次报销，模型的回复不同，问题解决的效率也就有差异。

从这个点上来说，大模型的长上下文还是非常重要，或者就像 👞LLMs+Persona-Plug = Personalized LLMs 算法一样，把history外挂出来，压缩后再放到context里面。

2024-12-23

基于context的翻译结果好于单句翻译

今天在用glarity + deepseek翻译一篇英文文章，从结果看，翻译得一般，但是我认为deepseek模型的能力是非常好的，翻译这种对于大模型来说是简单问题，效果不应该差。但转念一想，glarity可能是为了节省api成本，翻译是把网页内容拆开，逐个句子单独发送给后端接口做翻译，而不是把整个网页放到上下文里面。这就导致没有办法充分理解上下文。

反观我用kimi的网页助手去explain一个段落，虽然不是直接翻译，但效果很好，解释也很到位。我目的是理解这段内容，而不是简单的拿到翻译。

上下文的推理效率成本重要性高于长度

接上篇，从上面的体验角度看，长上下文是重要的，但不用太长；更重要的是高效低成本的推理，这关系到等待时间，用户体验，也关系到商业的本质——利润。

2024-12-22

追踪历史

AI出现之后，经常出现各种一下子霸占各种屏幕的产品，所有人的目光一下聚焦到这个产品这个团队身上，但是这也意味着这些产品的热度非常短，几天时间就会被另一个产品替代。

作为读者，如果我们追着热点，会感觉到热火朝天的样子，自己的注意力会在短时间在各种产品上切换，对每个产品的观察时间很短，思考业务深刻。

《思考快与慢》这本书提出了一个有趣的观点，做不好记录，就无法充分发挥慢思考的能量。迁移到上面的故事上，没有持续一段时间追踪产品追踪市场的观察，充分了解产品在发展过程中的变化，我们也无法得到深刻独到的间接，流于浅薄。

readtogether.ai

一个很好的工具，视频还没看完就忍不住注册了个账号来体验一下。配上论坛上有人整理的好的资源https://readtogether.ai/?url=https://bit.ly/kidsbooklib，上午就用上了。

看完视频有几点观察和思考：

复杂内容抽取上还是有一定挑战，人对漫画内容的理解目前还是超过AI的；而且人的泛化性很好，不仅可以理解复杂的漫画，报表，电影都是用一个相同的模型——脑，来处理。AI需要达到这样一个多样性，才能更好的处理现实世界中输入。

在处理复杂内容上，端到端的利用大模型理解并输出的效果是强于OCR的。OCR虽然能在文字识别上做得非常好，但在画面理解上不太行。这就导致复杂内容的抽取效果其实是更差的。反过来，现在很多rag系统都在用OCR做内容抽取，是不是可以直接考虑换到多模态的大模型呢？

能够根据文本描述的语音特征，微调出一个模型，在这种读绘本的场景下还是蛮有用的。连语音few-shot都不需要。

2024-12-21

拥有数据而不是拥有技术

看到微软基于github的数据，不断迭代自己的Copilot，效果优异。在技术迟早会被追上的前提下，真正能产生差异的其实是数据。你有的数据人家没有，那就是绝对的差异/优势。

微软买github不只是买了一个能够持续赚钱的公司，更是买了持续增长的优质数据。这个价值是可以随着技术的进步不断被挖掘的

买数据，而不是买技术。如果一个公司有独一无二的技术，请重估仔细评估它的价值

仰慕苏，但不想成为苏（剑林）

https://www.zhihu.com/question/331846018

从追一科技的一篇文章想到的

22年的时候，在一个客户那里和追一简单接触过，当时只是觉得小公司，随便看看。从来没有关注过背后的东西，今天因为看到苏神（在追一工作），搜到了23年3月份的一篇关于追一的文章：https://finance.sina.cn/tech/2023-03-22/detail-imymtfcz9627637.d.html，标题惊悚：倒在GPT大模型的狂潮到来前，以为追一倒闭了。后来看了看，并没有，只不过感觉还是活的不太好的样子。

文章里面谈到了很多过去几年中国软件行业的问题和困难，作为一个参与者，深有同感。私有化，定制化，大客户交付这些东西所代表的糟糕的tob市场，就像是一个深海旋涡，一旦陷入进去就难以脱身。虽然，追一曾经作为一个优秀的NLP公司，有众多人才加盟，而且在客服方向上沉淀多年，但是在大模型时代，人们似乎把它遗忘了，不仅没有什么报道和关注，而且从大模型爆发开始，2年时间年，没有任何融资，让人唏嘘。

难度反而更高

一个公司，背后代表的是一群人，一篇文章，浓缩了一个公司历史，翻过去，是多少优秀人最宝贵的青春呢。

2024-12-20

CPAL

https://github.com/langchain-ai/langchain/pull/6255

CPAL通过引入因果结构（或有向无环图，DAG）来链接实体行为（或数学表达式），这些数学表达式模拟了一系列因果关系，可以进行干预，

疯狂叠加复杂度，让人望而生畏。我觉得这种技术没有生命力

PAL

从CPAL引申出来的，论文：《PAL: Program-aided Language Models》。核心思想是，通过prompt引导大模型生成推理相关的python代码，通过执行代码得到结果。

复杂度相比于原来肯定是上去了，也是个不错的想法，但感觉最近落地的不多，也没啥声量。

2024-12-19

e2b.dev 为llm生成的代码提供安全的沙箱环境

https://e2b.dev，专门为ai生成的代码提供安全独立的运行环境；我的第一个感觉是这个市场太小，规模不大，在没有规模的前提下服务的边际成本，包括底层依赖的软硬件服务，是不会大幅下降的。

另外，AI自动化生成商业化的软件目前看还有点早，一些小的网站demo还是可以的，包括AI辅助编程也是最近大热的方向。但是及时是辅助编程，同样也会被人诟病因为使用AI导致代码bug数量增加。

等什么时候https://www.swebench.com/可以被刷到90%，或许会有新的变化。

chat template

不同模型在rlhf的时候会使用不同的instruct format（又称chat template），如果想要获得模型的最佳表现，系统prompt最好要能够符合rlhf的格式

https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1#instruction-format

在langchain中，选择了通过适配器，手动拼接的方式生成，但是目前业界用的比较多的是直接嵌入到tokenizer中，https://huggingface.co/docs/transformers/main/en/chat_templating

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")

chat = [
  {"role": "user", "content": "Hello, how are you?"},
  {"role": "assistant", "content": "I'm doing great. How can I help you today?"},
  {"role": "user", "content": "I'd like to show off how chat templating works!"},
]

tokenizer.apply_chat_template(chat, tokenize=False)

我们也可以在tokenizer的配置文件tokenizer_config.json中找到chat template的详细内容