视频来自:微博@季孟年
唐剑:核心就是一个自我优化闭环,本质属于奖励机制:由VLM来判定世界模型的生成是否合理,然后反思—调整—再生成。比如更改提示词(prompt)或中间策略,形成“评估—修正—再评估”的循环,直到结果在物理一致性与任务可行性上达到预期为止。 &
相关搜索
当前文章:http://2thfc.nuocenmu.cn/lcmim/qvqsig.html
发布时间:17:42:35