AI4EC 动态 | 《ACL 2026》：三模态正交对比学习，构建分子-受体-语义统一嗅觉表征空间

研究背景

嗅觉是最难数字化的感官之一：同一个分子可能激活不同的受体组合，同一种气味在不同人群中的描述也高度主观。传统的分子机器学习方法将气味预测视为分类问题，破坏了气味空间的连续性（如“薄荷”与“清凉”本应相邻，却被当作独立标签）。更重要的是，现有方法通常只建模“分子-气味”或“分子-受体”的局部对应关系，从未将分子→受体→语义这一完整嗅觉通路在统一框架中建模。由于“分子-受体-描述”三元组数据几乎不存在，如何从分散的双模态数据中学习统一的三模态表征，是核心挑战。

本文亮点

a. 数据基础设施：首次整合多源嗅觉受体与气味描述数据，构建了支持三模态预训练的大规模数据集（含LLM增强数据约256万对）。

b. 正交注入机制：提出“硬正交（Gram-Schmidt）+软正交（损失正则）”双重策略，将受体信息和语义信息作为独立增量注入分子表征，避免模态间相互干扰。

c. 连续语义流形：利用LLM挖掘气味描述词之间的语义近邻关系，将离散标签扩展为软权重连续邻域，缓解对比学习中的“假阴性”问题。

d. 全面评测基准：构建覆盖基础感知（阈值、强度、愉悦度）、语义描述（138类多标签分类/多维度回归）、混合物感知（二元混合物强度/愉悦度）三个层次的11个任务。

图文解析

左图（预训练阶段）：分子使用冻结的Uni-Mol编码器，受体使用ESM-2+可训练投影层，气味描述使用LoRA微调的Qwen3 Embedding。分子表征通过双适配器分解为受体对齐分量和描述对齐分量，经Gram-Schmidt正交化后得到正交子空间。训练目标包括：受体-分子InfoNCE损失、描述-分子软加权InfoNCE损失（正样本权重1.0/弱正样本0.5/负样本0）、模态内对比损失、正交约束。

右图（下游推理）：仅需分子编码器和适配器，最终表征Z = w1·z_mol + w2·a_r + w3·a_d，支持纯物质和混合物感知任务。

1. 下游任务评估

嗅觉感知是一个多层次的认知过程。为全面评估嗅觉表征的质量，我们设计了一个跨越三个层次的评估基准：（1）人类对气味最基本的感知：包括"能否闻到"（阈值）、"有多强"（强度）和"是否好闻"（愉悦度）。（2）语义描述预测：该层次考察模型能否捕捉分子结构与高层语义概念（如"奶油味"和"青草味"）之间的映射关系。（3）混合物感知预测：针对现实场景中普遍存在的混合气味，该层次评估模型捕捉复杂非线性分子间相互作用（如掩蔽效应和协同效应）的能力。在11个下游任务的关键指标上，NOSE都取得了SOTA。

2. 统一连续的嗅觉空间

三列分别对应分子表示、受体表示和气味语义表示。三行按不同属性着色，第一行按分子骨架（Decalin、Cyclododecane、Thiophene），第二行按受体类型（A0A024RCH9、Q8NH74、A0A126GWS0），第三行按气味描述（alliaceous、minty）。沿对角线方向（左上至右下），同类样本形成清晰聚类；而在非对角位置，同色点近似随机散布。这表明各模态向量仅编码了对应维度的信息，模型成功实现了特征解耦。

使用DeepSeek生成“果香（111词）”“草本（80词）”“甜香（83词）”三类气味术语，并进行了PCA可视化（图3）。原始Qwen3 Embedding（a）的气味词聚类高度重叠，原生大语言模型缺乏气味语义概念；经LoRA+对比学习训练后（b），三类词形成边界清晰的簇，证明模型构建了结构化气味语义空间。

2. 零样本检索

为验证泛化能力，我们从PubChem构建了专用测试集。与标准零样本设置（分子存在于数据集中但分子-描述词配对未见过）不同，严格零样本指的是分子完全不存在于训练集中。我们计算分子气味编码与候选描述词之间的余弦相似度，采用百分位排名进行评估（数值越低表示精度越高）。除PubChem描述词外，我们还评估了同义术语的排名。如对于无味分子，模型将"odorless"排在Top 1（0.092%），并优先排列slight、weak、neutral等术语，表明模型真正理解了分子的感知属性，而非简单地与高频词对齐。

我们从文献中选取具有明确"激活"或"非激活"关系报告的分子-受体配对作为ground truth评估模型。测试集中的分子-受体配对从未出现在训练集中。模型在检索OR5A2受体及其配体（主要为大环麝香分子MCM）时表现出极高的准确性，所有排名均为第2位（第1位为训练集中已存在的对应配体）。模型在其他化学家族上也表现出良好的泛化能力，同时揭示了不同受体家族间建模难度的差异。所有"非激活"样本的检索排名显著低于"激活"样本，主要分布在30%-80%区间。这种分布差异表明，模型构建的潜在空间不仅拉近了正样本对的距离，也有效推开了负样本对，展现出可靠的生物筛选价值。

总结与展望

NOSE首次实现了分子、受体、气味语义三模态的统一表征学习，核心贡献在于：

u 方法论：正交注入机制解决了多模态表征中的特征冗余问题，弱样本对比学习解决了标签稀疏问题。

u 性能突破：在11个任务40余项指标中取得SOTA，零样本检索验证了表征的语义对齐能力。

u 零样本泛化：构建了连续的嗅觉语义空间，模型在0样本推理中具有良好的泛化能力

未来方向：

通过对比学习统一分子的多模态信息，可以构建连续且结构化的领域分子表示空间。这一范式不局限于气味分子领域，同样适用于电解液溶剂分子、电镀添加剂分子等电化学场景。

原文链接：https://arxiv.org/abs/2604.10452v1