🌞

从文本到聊天模型

本文面向希望系统理解 GPT 类模型训练过程的读者。目标不是只解释 Transformer 的结构,而是沿着 nanochat 仓库的真实执行路径,串起数据准备、分词器训练、基础模型预训练、评估、监督……

AI应该保持个人哪些定力

最近的 AI 的社会叙事,让我觉得如果我自己手打任何一个文字、手写任何一行代码、甚至主动去检阅任何一个文字——都感觉是愚蠢而低智。所以 AI 如果真的像泡沫预期的那般,那未来人类(我)已经在哪个位置上……

中国AI大模型领导者在想什么

最近看到科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 - 阮一峰的网络日志 关于中国一线领导者的访问的总结,一些所思所想:中国一线现在针对算力的担忧比较明显,在中美算力差距过大的……

总结我的传统行业这一年

📒 从高密集的TO C互联网(千万日活)进入传统企业的数字互联(千都不到的日活),这一年作为标准的前端er,在差异巨大的工业互联中些微挣扎,些微成就的那些事。年度回顾过去一年生活+工作的巨大变迁关键词……