写作启发思考
2024-12-30
PDD的故事——商业
最近一直有一个疑问,拼多多的黄铮是怎么在15年消费升级的大环境下,发现消费降级的趋势,开拓下沉市场呢?
听完播客,有点答案了,他并不是基于市场预测才开始做拼单业务,而是在拼单业务的尝试和摸索中发现了下沉市场的活力,然后才坚定投入的。
或许在那个中产崛起消费升级的时代,谁无法预测未来会是拼多多的天下,18年面临毕业选择的我不行,15年的黄铮也不行。
2024-12-26
cool paper
读论文神器,https://papers.cool/
- 强大的跟踪功能:可以快速查阅arXiv不同Topic,或者会议期刊的最新论文
- 强大的搜索功能:总之不弱于其他平台
- 强大的阅读功能:可以直接打开pdf,打开kimi总结,查找论文相关内容
大模型推理平台的两种用户界面
- 接口化,脚本化的工具:
- 更加灵活,可以直接融合在业务流程里面
- 不用做界面开发,节省前端投入(但是通常客户有可视化需求,这个是跑不掉的)
- 可以暴露丰富的细节,甚至实现原理,更加detail的torch到技术边界
- 可视化,自动化的UI界面:
- 对用户更加优化,特别是没有编程经验的人
- 可以把一个技术产品变成用户产品,隐藏技术细节
2024-12-25
谈知识的编码和解码
费曼学习法是一种流行甚广而且备受认可的一种学习方法,主张学完之后要进行教学才能掌握的更好,而我在读高中的时候,实践下来,认为最有用的学习方法就是在理解了答案之后,把错题重新做一遍。
这两个方法虽然看起来不同,但有类似的地方,那就是都有输入和输出两个过程。
- 输入,是在把其他人编辑(编码)好的东西,包括图片,文字或者视频,充分理解(解码),然后记下来(存储)
- 输出,无论是教学还是重新做一次题,都是在把已经记下来的内容,用自己的语言组织一次(编码),重新说出来。
用流程串起来:其他人的编码好的知识需要经过我们自己的:解码 → 存储 → 编码,才能比较好的掌握,而我们自己编码的东西,虽然和摄入的编码都是一个知识,但是两个编码结果并不相同,从形式上看也是这样的,人类毕竟不是复读机。不仅学习的编码和输出的编码不同,所有人的编码结果都不相同,每个人对知识的编码是独一无二的。当然解码的方式也可能是独一无二的,解码和编码之间应该是存在某种微妙的关系。
所以我有一个有趣的结论:学习的本质就是编码和解码,最高效的学习方式是编码和解码的融合
而最近还看到一个有趣的说法:语言就是一种编码。这么看的话
- 当我们写作表达的时候,其实是在把大脑中的信息按照语言规范编码出来。
- 不光语言是一种编码,所有的表达形式都是一种编码,人类大脑里面装的不是语言,是另一种信息的表达形式。

微观动作静态和动态
任何微观动作,用静态的视角去看,几乎都是愚蠢的。是观察的方式有问题,而不是动作真的愚蠢。
2024-12-24
大模型无法做到个性化输出
以教学场景为例,每个人对于知识点的掌握程度是不同的,如果模型以初级的方式讲解,对于已经深度掌握的人来说,回答中会包含大量冗余的信息,甚至无法回答到重点上,让人难以理解。而如果用比较专业有深度的方式讲解,对于初阶的人来说,输出几乎无法理解。
这个问题的破题,重点在于怎么高效的获取context信息。即人与人交互的过程中,我会根据对这个人的了解,他的教育背景,工作经历,选择不同的方式输出不同内容,这些背景信息其实也是一种context,他隐藏在直接对话内容的后面,但对输出有这重要影响。
大模型如何能够打破信息壁垒,收集到除主动输入给他的内容外的其他信息,来增强上下文的背景,对于大模型能够更贴近的解决业务问题有重要价值。回到真是的商业场景,各个企业都在典型打造的知识问答助手,同样针对报销的知识,如果我已经报销了很多次,和我第一次报销,模型的回复不同,问题解决的效率也就有差异。
从这个点上来说,大模型的长上下文还是非常重要,或者就像 LLMs+Persona-Plug = Personalized LLMs 算法一样,把history外挂出来,压缩后再放到context里面。
2024-12-23
基于context的翻译结果好于单句翻译
今天在用glarity + deepseek翻译一篇英文文章,从结果看,翻译得一般,但是我认为deepseek模型的能力是非常好的,翻译这种对于大模型来说是简单问题,效果不应该差。但转念一想,glarity可能是为了节省api成本,翻译是把网页内容拆开,逐个句子单独发送给后端接口做翻译,而不是把整个网页放到上下文里面。这就导致没有办法充分理解上下文。
反观我用kimi的网页助手去explain一个段落,虽然不是直接翻译,但效果很好,解释也很到位。我目的是理解这段内容,而不是简单的拿到翻译。
上下文的推理效率成本重要性高于长度
接上篇,从上面的体验角度看,长上下文是重要的,但不用太长;更重要的是高效低成本的推理,这关系到等待时间,用户体验,也关系到商业的本质——利润。
2024-12-22
追踪历史
AI出现之后,经常出现各种一下子霸占各种屏幕的产品,所有人的目光一下聚焦到这个产品这个团队身上,但是这也意味着这些产品的热度非常短,几天时间就会被另一个产品替代。
作为读者,如果我们追着热点,会感觉到热火朝天的样子,自己的注意力会在短时间在各种产品上切换,对每个产品的观察时间很短,思考业务深刻。
《思考快与慢》这本书提出了一个有趣的观点,做不好记录,就无法充分发挥慢思考的能量。迁移到上面的故事上,没有持续一段时间追踪产品追踪市场的观察,充分了解产品在发展过程中的变化,我们也无法得到深刻独到的间接,流于浅薄。
readtogether.ai
一个很好的工具,视频还没看完就忍不住注册了个账号来体验一下。配上论坛上有人整理的好的资源https://readtogether.ai/?url=https://bit.ly/kidsbooklib,上午就用上了。
看完视频有几点观察和思考:
- 复杂内容抽取上还是有一定挑战,人对漫画内容的理解目前还是超过AI的;而且人的泛化性很好,不仅可以理解复杂的漫画,报表,电影都是用一个相同的模型——脑,来处理。AI需要达到这样一个多样性,才能更好的处理现实世界中输入。
- 在处理复杂内容上,端到端的利用大模型理解并输出的效果是强于OCR的。OCR虽然能在文字识别上做得非常好,但在画面理解上不太行。这就导致复杂内容的抽取效果其实是更差的。反过来,现在很多rag系统都在用OCR做内容抽取,是不是可以直接考虑换到多模态的大模型呢?
- 能够根据文本描述的语音特征,微调出一个模型,在这种读绘本的场景下还是蛮有用的。连语音few-shot都不需要。
2024-12-21
拥有数据而不是拥有技术
看到微软基于github的数据,不断迭代自己的Copilot,效果优异。在技术迟早会被追上的前提下,真正能产生差异的其实是数据。你有的数据人家没有,那就是绝对的差异/优势。
微软买github不只是买了一个能够持续赚钱的公司,更是买了持续增长的优质数据。这个价值是可以随着技术的进步不断被挖掘的
买数据,而不是买技术。如果一个公司有独一无二的技术,请重估仔细评估它的价值
仰慕苏,但不想成为苏(剑林)
从追一科技的一篇文章想到的
22年的时候,在一个客户那里和追一简单接触过,当时只是觉得小公司,随便看看。从来没有关注过背后的东西,今天因为看到苏神(在追一工作),搜到了23年3月份的一篇关于追一的文章:https://finance.sina.cn/tech/2023-03-22/detail-imymtfcz9627637.d.html,标题惊悚:倒在GPT大模型的狂潮到来前,以为追一倒闭了。后来看了看,并没有,只不过感觉还是活的不太好的样子。
文章里面谈到了很多过去几年中国软件行业的问题和困难,作为一个参与者,深有同感。私有化,定制化,大客户交付这些东西所代表的糟糕的tob市场,就像是一个深海旋涡,一旦陷入进去就难以脱身。虽然,追一曾经作为一个优秀的NLP公司,有众多人才加盟,而且在客服方向上沉淀多年,但是在大模型时代,人们似乎把它遗忘了,不仅没有什么报道和关注,而且从大模型爆发开始,2年时间年,没有任何融资,让人唏嘘。

难度反而更高
一个公司,背后代表的是一群人,一篇文章,浓缩了一个公司历史,翻过去,是多少优秀人最宝贵的青春呢。
2024-12-20
CPAL
CPAL通过引入因果结构(或有向无环图,DAG)来链接实体行为(或数学表达式),这些数学表达式模拟了一系列因果关系,可以进行干预,
疯狂叠加复杂度,让人望而生畏。我觉得这种技术没有生命力
PAL
从CPAL引申出来的,论文:《PAL: Program-aided Language Models》。核心思想是,通过prompt引导大模型生成推理相关的python代码,通过执行代码得到结果。
复杂度相比于原来肯定是上去了,也是个不错的想法,但感觉最近落地的不多,也没啥声量。
2024-12-19
e2b.dev 为llm生成的代码提供安全的沙箱环境
https://e2b.dev,专门为ai生成的代码提供安全独立的运行环境;我的第一个感觉是这个市场太小,规模不大,在没有规模的前提下服务的边际成本,包括底层依赖的软硬件服务,是不会大幅下降的。
另外,AI自动化生成商业化的软件目前看还有点早,一些小的网站demo还是可以的,包括AI辅助编程也是最近大热的方向。但是及时是辅助编程,同样也会被人诟病因为使用AI导致代码bug数量增加。
等什么时候https://www.swebench.com/可以被刷到90%,或许会有新的变化。
chat template
不同模型在rlhf的时候会使用不同的instruct format(又称chat template),如果想要获得模型的最佳表现,系统prompt最好要能够符合rlhf的格式
在langchain中,选择了通过适配器,手动拼接的方式生成,但是目前业界用的比较多的是直接嵌入到tokenizer中,https://huggingface.co/docs/transformers/main/en/chat_templating
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
chat = [
{"role": "user", "content": "Hello, how are you?"},
{"role": "assistant", "content": "I'm doing great. How can I help you today?"},
{"role": "user", "content": "I'd like to show off how chat templating works!"},
]
tokenizer.apply_chat_template(chat, tokenize=False)
我们也可以在tokenizer的配置文件tokenizer_config.json中找到chat template的详细内容

Loading Comments...