从面向测试的模型训练展开

Humpback

11月16日,南非国家海上救援部门将一只在近海死亡的座头鲸拖移至深海区域,防止这只死鲸鱼被冲上海岸造成污染。from iDaily 摄影师:Nic

算是完成了一版业务 (LLM) 模型的实现和迭代, 结合此前认知对于数据构造和模型构建做简单的总结.

[A] 流程 of 测试导向

  1. (不考虑其他场景其他任务) 提升特定任务能力的最直接的方式, 仍然是增加针对性数据 – 显然的. 直觉的.
  2. 进一步地, 就算是针对性数据构造和训练, 如 ML 第一节课就会提到的, 面临训练和泛化的平衡. e.g., 训练多少个 ep, 用多大的 batch 和 lr 来训练. 这是经验性的尝试.
  3. 比如说跑了 3 组消融, 在之后的问题是对于模型的评估, 比如单纯为了选出业务最优的模型, 经验性和直觉混杂在一起, cherry-pick 一个恰巧表现最好的模型. DONE

[B] 算法的价值

  1. 上面的流程听上去是及不性感的事项, 似乎把理论的, 课堂所授都丢掉了; 或言之, 面向测试集训练, 模型作为黑箱. 于是, 对这一流程, 可分别做一评论.
  2. 数据: 数据自然是重要的, 特别是在 LLM 基座能力足够的场景下, 可能少量的优质数据要远远优于杂乱的大批量数据. 如何定义好的数据, 数据构造的方向, 数据的筛选和质量控制.
  3. 训练: 自然是要有一个方法论 – 既包括理论层面的分析, 也包括代码层面的工具. 把数据和训练结合, 又衍生出一堆的问题: 数据的配比, 不同类型数据的格式问题, 训练时的输入顺序等.
  4. 评估: 测试的形式是优化目标, 然而目标集的定义始终是值得商榷的 (or 理想下是时刻进化的). 简言之, 需要考虑评估什么, 如何拆解, 如何设计评估方式等方面. [^1]

[C] 个人感想

  1. 此前对于数据的理解是间接的, 无非以为数据是时间/人力/成本的累积; 然而即使遇到一个非常简单的问题 (对话场景), 一个理想的 “答案” (尽管实际上没有标准答案) 依然是模糊和困难的. 需要数据负责人的直觉乃至天才.
    1. e.g. 如何 “激发用户的对话兴趣”? 如何 “说得更像人去除 assistant 感”? 这时才想到, 相较于做一个 “工具” 我们仅仅关心结果的正确性, 当我们把人性纳入到考虑的范围内时, 复杂性一下子就生长了.
    2. 关联: 模型和产品. 这种时候, 突然理解的 “产品” 的价值, 产品经理一定要是有洞见且内心强大的, 能够带领明晰的方向, 讲好完整的故事. [^2]
    3. 拓展: 如何看待以 GPT 为代表的语言模型? 它们在多大程度上类似一个人? 心智? 我们是否对于模型有过高的期待和想象了? RL 可以赋予模型怎样的能力/性格?
  2. 宏观来讲, 评估应该是第一性的, 是任务定义乃至价值界定的起点. [^3] 评估和数据的差异在于, 前者是目的, 后者是手段.
    1. 评估的重要性是显见的, 它是人的期望/价值偏好的直接体现, 更务实一些, 也是对产品的直接关联.
    2. 评估也是困难的. 1) 对于某一特定任务, 评估目标和任务目标的关联性; 2) 面对多样的用户, 要求评估的全面性 (OOD); 3) 对话等交互方式, 要求了模型能够应对一些 corner case; 4) LLM 通用推理能力的保持.
    3. 更大地来讲, 作为人也免不了会有主观偏好, 乃至价值观上的冲突. 凡此种种, 使得评估是又一大问题, 在此先避过.
  3. 数据和模型的关系.
    1. 听到的说法有, LLM 是对于数据的压缩. 无论从训练流程还是实际推理的表现, 这一点都颇有道理;
    2. 到微调阶段, 数据对于模型的影响是更直接的. 此时需要关心的是, 数据之间的冲突, 以及它们对于模型的影响问题;
    3. 数据的作用是什么? 在什么场景下是同模型有协同性的? 似乎理想的设置是带噪声的输入和一致性的输出逻辑, 然而这一点如何保证?
    4. 模型作为应用需要平衡不同人的价值, 在作为主体的人决定了模型训练过程中的数据; 换言之, 特定的模型体现的是模型生产者的价值; 那么如果我们承认模型对于人的影响是持续且深入的, 那么这种价值观的公正性如何保证? (又见 EP01 提到的技术平权问题) [^4]

2024.11.19

[^1]: 遇到审稿人质疑 “LLM 模拟用户的合理性”, 和 “评估的准确性” 这一问题是相关的.
[^2]: 上述讨论, “数据” 一词其实包含了 demo/corpus 的意涵, 但两者 (理想情况下) 本来就是同质的, 仅仅是在功能上的区分.
[^3]: 接受这一观点, 应该是 from Li Mu.
[^4]: 听到一个 rumor: 体感上的 GPT “降智”, 可能和接入的 IP 相关 – 一下子就恐怖故事起来.