因果推理需符合预定义公理或规则,近期研究评估了LLM的因果推理能力,微软等团队提出通过公理训练学习因果推理,将因果公理表示为⟨premise, hypothesis, result⟩的符号元组,并基于此构建数据集、损失函数和位置编码。他们训练了一个Transformer模型,在简单因果链上训练的模型可泛化到更大链上应用公理,但在更复杂场景泛化有限,而在混合数据集上训练的模型可泛化到各种场景。该公理训练方法还可用于解决更困难的问题,且模型准确度高于一些大型LLM。该研究提供了一种新范式,数据生成和训练流程普适,可用于学习任意能表示为符号元组格式的公理。