老师出题、讲解并纠错
能建立清晰的“任务-结果-反馈”链条
强化学习
实践中不断试错并获得反馈
学会策略优化,但很依赖奖励设计
未训练领域
没人讲解、也从没见过的知识
只能“猜”而不是“知道”
所以,大模型并非“全知”,而是“巨量输入+相关性建模”的结果。没有明确监督和反馈,它可以“模仿得很好”,但无法“知道得准确”。
?
四、哲学层面:知识的完整性依赖于目的性与验证路径
知识完整性的构建不仅依赖数据,而更依赖:
1。
目的性(goal-oriented
learning):你学习是为了什么?没有目标就没有选择与筛选;
2。
验证路径(validation
mechanism):你怎么知道你学对了?没有反馈就无法修正偏差;
3。
理论抽象(theory
abstraction):你是否能将个例升华为结构?这需要引导和模型建设。
ai大模型很多时候是在缺乏明确目标与反馈的语料中“游荡式学习”。它学得多,但结构不稳、推理不深,因此无法获得“完整性”。
?
五、现实世界中的补救机制
正因为自监督训练存在这些问题,现代大模型在预训练之后通常会做:
1。
微调(fine-tuning):用有标注数据进行小范围有针对性训练;
2。
rlhf(人类反馈强化学习):用人工打分机制优化模型输出结果,使其更符合人类价值;
3。
插件系统(tool
use):通过嵌套计算器、数据库、搜索引擎等,补足知识结构的“缺口”;
4。
多模态协同:语言+图像+动作等维度补充信息结构的不完整性。
这些都是在弥补“无标注训练”的先天缺陷。
https://www.du8.org https://www.shuhuangxs.com www.baquge.ccabxsw.net dingdianshu.com bxwx9.net
kenshu.tw pashuba.com quanshu.la
tlxsw.cc qudushu.net zaidudu.org
duyidu.org baquge.cc kenshuge.cc
qushumi.com xepzw.com 3dllc.net