AI4EC logo
当前位置:首页 - 动态 - 动态详情
《ACL 2026》: 三模态正交对比学习,构建分子-受体-语义统一嗅觉表征空间
AI4EC Lab4/13/2026

研究背景

嗅觉是最难数字化的感官之一:同一个分子可能激活不同的受体组合,同一种气味在不同人群中的描述也高度主观。传统的分子机器学习方法将气味预测视为分类问题,破坏了气味空间的连续性(如“薄荷”与“清凉”本应相邻,却被当作独立标签)。更重要的是,现有方法通常只建模“分子-气味”或“分子-受体”的局部对应关系,从未将分子→受体→语义这一完整嗅觉通路在统一框架中建模。由于“分子-受体-描述”三元组数据几乎不存在,如何从分散的双模态数据中学习统一的三模态表征,是核心挑战。

本文亮点

a. 数据基础设施:首次整合多源嗅觉受体与气味描述数据,构建了支持三模态预训练的大规模数据集(含LLM增强数据约256万对)。

b. 正交注入机制:提出“硬正交(Gram-Schmidt)+软正交(损失正则)”双重策略,将受体信息和语义信息作为独立增量注入分子表征,避免模态间相互干扰。

c. 连续语义流形:利用LLM挖掘气味描述词之间的语义近邻关系,将离散标签扩展为软权重连续邻域,缓解对比学习中的“假阴性”问题。

d. 全面评测基准:构建覆盖基础感知(阈值、强度、愉悦度)、语义描述(138类多标签分类/多维度回归)、混合物感知(二元混合物强度/愉悦度)三个层次的11个任务。

图文解析

图1:NOSE框架整体示意图。

左图(预训练阶段):分子使用冻结的Uni-Mol编码器,受体使用ESM-2+可训练投影层,气味描述使用LoRA微调的Qwen3 Embedding。分子表征通过双适配器分解为受体对齐分量和描述对齐分量,经Gram-Schmidt正交化后得到正交子空间。训练目标包括:受体-分子InfoNCE损失、描述-分子软加权InfoNCE损失(正样本权重1.0/弱正样本0.5/负样本0)、模态内对比损失、正交约束。

右图(下游推理):仅需分子编码器和适配器,最终表征Z = w1·z_mol + w2·a_r + w3·a_d,支持纯物质和混合物感知任务。

1. 下游任务评估

嗅觉感知是一个多层次的认知过程。为全面评估嗅觉表征的质量,我们设计了一个跨越三个层次的评估基准:(1)人类对气味最基本的感知:包括"能否闻到"(阈值)、"有多强"(强度)和"是否好闻"(愉悦度)。(2)语义描述预测:该层次考察模型能否捕捉分子结构与高层语义概念(如"奶油味"和"青草味")之间的映射关系。(3)混合物感知预测:针对现实场景中普遍存在的混合气味,该层次评估模型捕捉复杂非线性分子间相互作用(如掩蔽效应和协同效应)的能力。在11个下游任务的关键指标上,NOSE都取得了SOTA。

表1:基础感知属性预测任务的性能比较(皮尔逊相关系数 ↑)。
表2:语义描述预测任务的性能比较。
表3:混合感知预测任务的性能比较。

2. 统一连续的嗅觉空间

图2:正交注入机制的PCA可视化

三列分别对应分子表示、受体表示和气味语义表示。三行按不同属性着色,第一行按分子骨架(Decalin、Cyclododecane、Thiophene),第二行按受体类型(A0A024RCH9、Q8NH74、A0A126GWS0),第三行按气味描述(alliaceous、minty)。沿对角线方向(左上至右下),同类样本形成清晰聚类;而在非对角位置,同色点近似随机散布。这表明各模态向量仅编码了对应维度的信息,模型成功实现了特征解耦。

图3:气味语义空间的聚类对比

使用DeepSeek生成“果香(111词)”“草本(80词)”“甜香(83词)”三类气味术语,并进行了PCA可视化(图3)。原始Qwen3 Embedding(a)的气味词聚类高度重叠,原生大语言模型缺乏气味语义概念;经LoRA+对比学习训练后(b),三类词形成边界清晰的簇,证明模型构建了结构化气味语义空间。

2. 零样本检索

表4:零样本分子→语义描述检索结果。

为验证泛化能力,我们从PubChem构建了专用测试集。与标准零样本设置(分子存在于数据集中但分子-描述词配对未见过)不同,严格零样本指的是分子完全不存在于训练集中。我们计算分子气味编码与候选描述词之间的余弦相似度,采用百分位排名进行评估(数值越低表示精度越高)。除PubChem描述词外,我们还评估了同义术语的排名。如对于无味分子,模型将"odorless"排在Top 1(0.092%),并优先排列slight、weak、neutral等术语,表明模型真正理解了分子的感知属性,而非简单地与高频词对齐。

表5:零样本分子→受体检索结果。

我们从文献中选取具有明确"激活"或"非激活"关系报告的分子-受体配对作为ground truth评估模型。测试集中的分子-受体配对从未出现在训练集中。模型在检索OR5A2受体及其配体(主要为大环麝香分子MCM)时表现出极高的准确性,所有排名均为第2位(第1位为训练集中已存在的对应配体)。模型在其他化学家族上也表现出良好的泛化能力,同时揭示了不同受体家族间建模难度的差异。所有"非激活"样本的检索排名显著低于"激活"样本,主要分布在30%-80%区间。这种分布差异表明,模型构建的潜在空间不仅拉近了正样本对的距离,也有效推开了负样本对,展现出可靠的生物筛选价值。

总结与展望

NOSE首次实现了分子、受体、气味语义三模态的统一表征学习,核心贡献在于:

u 方法论:正交注入机制解决了多模态表征中的特征冗余问题,弱样本对比学习解决了标签稀疏问题。

u 性能突破:在11个任务40余项指标中取得SOTA,零样本检索验证了表征的语义对齐能力。

u 零样本泛化:构建了连续的嗅觉语义空间,模型在0样本推理中具有良好的泛化能力

未来方向:

通过对比学习统一分子的多模态信息,可以构建连续且结构化的领域分子表示空间。这一范式不局限于气味分子领域,同样适用于电解液溶剂分子、电镀添加剂分子等电化学场景。

原文链接:https://arxiv.org/abs/2604.10452v1