ICLR 2026 review阶段，LLM AHD合集二

Fusing LLMs with Scientific Literature for Heuristic Discovery

https://openreview.net/forum?id=lwqeXDYKWJ

rating：4444, Reject

核心思想

让大语言模型（LLM）在进化算法中“查文献”，从而突破自身知识边界，自动设计出更强、更专业的启发式算法。

痛点与动机

LLM擅长写代码，但在设计高性能、领域专用的启发式算法时，受限于其静态、通用训练知识。
进化算法（EC）能探索巨大搜索空间，但传统方法依赖人工设计组件，创新受限。
关键问题：如何让LLM在算法设计过程中主动获取并整合最新、领域相关的科学知识？

贡献

提出KA-EAD，首次将科学文献动态检索融入LLM驱动的进化算法设计流程。
把LLM的“内部反思”转化为主动知识查询，实现“卡壳时查论文”的类人行为。
在经典算法（GA、ACO、KGLS）和神经组合优化器（POMO、LEHD）上均取得显著性能提升，如LEHD在TSP1000上的最优性差距从27.70%降至10.71%。

方法

知识库构建与增强

文献语料筛选

用关键词（如“Traveling Salesman Problem”、“Ant Colony Optimization”、“heuristic design”）从学术数据库获得候选文档集。
采用句子嵌入模型$E_{\mathrm{sent}}$（例如all-MiniLM-L6-v2）分别对文档摘要与任务自然语言描述$\mathrm{desc}(\mathcal{P})$编码。
保留余弦相似度高于阈值$\theta_{\mathrm{corpus}}$的文档，构成领域语料
\[C_{\mathrm{lit}}=\lbrace d_{i}\mid\operatorname{sim}(E_{\mathrm{sent}}(\mathrm{abstract}(d_{i})),\;E_{\mathrm{sent}}(\mathrm{desc}(\mathcal{P})))>\theta_{\mathrm{corpus}}\rbrace\]

知识分块、嵌入与索引

提取每篇文档全文$T_i$。
使用分词器Tok（同嵌入模型）将$T_i$切分为长度约$L_{\mathrm{chunk}}$（如512）token的语义连贯块$\kappa_{i,j}$。
所有块组成可检索知识库
\[\mathcal{K}_{\mathrm{chunk}}=\bigcup_{i,j}\lbrace \kappa_{i,j}\rbrace\]
用嵌入模型$E_{\mathrm{chunk}}$将每个块$\kappa$映射为向量$v_{\kappa}=E_{\mathrm{chunk}}(\kappa)\in\mathbb{R}^{d}$。
采用FAISS构建可快速k-NN搜索的向量索引$\mathcal{I}_{K}$。

知识增强进化算法

算法维护一个种群$Pop_t=\lbrace s_1,\dots,s_M\rbrace $，每个个体$s_k$主要由其源代码$c_k$定义。流程如下：

初始种群生成

生成器LLM$LLM_{\mathrm{gen}}$接收系统提示、任务描述$\pi_{\mathrm{seed}}$、长程反思$\rho_{\mathrm{LT},0}$（初始为空）以及从$\mathcal{K}_{\mathrm{chunk}}$提炼出的摘要$\mathrm{Summ}(\mathcal{K}_{\mathrm{chunk}})$。
通过升温采样（temperature $\tau_{\mathrm{init}}$稍高）生成$M$段不同代码$\lbrace c_1,\dots,c_M\rbrace $，实例化为$Pop_0$。
在环境$E$中执行得初始适应度$f(s_k)$。

进化算子与主循环

每代$t>0$依次执行：

选择（Selection）：按适应度$f(s)$做锦标赛选择，得父代种群$Pop’_{t-1}$。
反思（Reflection）：
- 用$LLM_{\mathrm{reflect}}$比较一对优/劣个体$(s_{\mathrm{better}},s_{\mathrm{worse}})$，输出短期反思$\rho_{\mathrm{ST},t}$。
- 更新长期反思$\rho_{\mathrm{LT},t}\leftarrow\rho_{\mathrm{LT},t-1}\oplus\rho_{\mathrm{ST},t}$。
标准变异（Standard Variation）：交叉/变异算子作用于$Pop’_{t-1}$，可受$\rho_{\mathrm{ST},t}$引导，产生子代$Pop_{\mathrm{var},t}$。
知识增强生成算子（RAG-Operator）——核心创新：
1. 查询构造（Query Formulation）由$LLM_{\mathrm{query}}$把$\rho_{\mathrm{ST},t},\rho_{\mathrm{LT},t}$与问题焦点综合为自然语言查询$q_{\mathrm{RAG}}$。
2. 知识检索（Knowledge Retrieval）
  - 将$q_{\mathrm{RAG}}$嵌入为$v_q=E_{\mathrm{chunk}}(q_{\mathrm{RAG}})$。
  - 在索引$\mathcal{I}_{K}$中做$k_{\mathrm{ret}}$-近邻搜索，返回最相关块集合
    \[\mathcal{K}_{\mathrm{retrieved}}=\lbrace \kappa_{j}\mid\kappa_{j}=\mathrm{NN}_{j}(\mathcal{I}_{K},v_q),\;j=1,\dots,k_{\mathrm{ret}}\rbrace\]
3. 增强生成（Augmented Generation）
  - 构造提示$\mathrm{prompt}_{\mathrm{RAG}}$，内含： – 任务签名与类型/张量约束 – 检索到的知识$\mathcal{K}_{\mathrm{retrieved}}$ – 改进建议（可为$q_{\mathrm{RAG}}$本身）
  - $LLM_{\mathrm{gen}}$据此生成新代码种群$Pop_{\mathrm{RAG},t}$；若编译/语义错误，则迭代重提示直至通过。
评估与种群更新（Evaluation, Population Update, Termination）
- 合并$Pop_{t-1}\cup Pop_{\mathrm{var},t}\cup Pop_{\mathrm{RAG},t}$，评估所有新个体。
- 按适应度选最优$M$个组成下一代$Pop_t$（精英保留）。
- 当函数评估次数$FE\geq FE_{\max}$、适应度收敛或时间到，终止并返回最优$s^*$。

实验

审稿人意见

这就是RAG。

Adversarial examples for heuristics in combinatorial optimization: An LLM based approach

https://openreview.net/forum?id=fasU6t3hL4

rating：2622, withdraw

痛点

组合优化问题（背包、装箱、聚类、汽油圈问题）大多 NP-hard，实际只能跑启发式。
想判断一个启发式到底多“烂”，需要构造让它表现尽可能差的实例（adversarial instance）。
传统局部搜索、遗传算法只能吐出毫无结构的数字向量，人类看不懂、更无法理论化；多年下来很多紧的下界提不上去。

核心思想

把 Google DeepMind 的“FunSearch”框架（用 LLM 写代码→进化→打分）改造成“Co-FunSearch”，让人类数学家一起参与，成功给四个经典 NP-hard 问题里的著名启发式算法挖了“最坏情况”大坑，把若干长期停滞的理论下界一次性提高，甚至推翻了一个 30 年悬而未决的“输出多项式时间”猜想。

方法

省流版：FunSearch写启发式代码 -> LLM生成他认为在这个代码上可能表现很差的实例 -> 人类专家观察代码和实例，推导出一些证明和定理 -> 数学层面上的理论突破

基于 Google DeepMind 的 FunSearch：用 LLM 生成 Python 程序 → 程序输出实例 → 实例打分 → 高分程序继续被 LLM 改写进化。
人类专家参与（Co-FunSearch）：定期挑选最高分程序，手工简化、提炼结构、推广为通用构造，并给出数学证明。
优势：相比传统局部搜索，LLM 能生成结构化、可解释、可推广的实例，而非一堆无意义的数字。

实验和例子

问题	原最好下界	新下界（本文）	意义
Knapsack（背包问题）	2.0	超多项式	首次推翻“Nemhauser-Ullmann 算法是输出多项式时间”的 30 年猜想
Bin Packing（装箱问题）	1.3	1.5	随机顺序模型下界大幅提升，距上界 1.7 只差 0.2
k-median 聚类	1.0（平凡）	黄金比例 ≈1.618	首次给出非平凡下界
Gasoline 问题（Lovász 汽油圈）	2.0	>4.0	否定“迭代舍入是 2-近似”的猜想，高维可推到 6、8 等

成功案例：

Bin Packing：LLM 生成冗长物品列表 → 专家简化为“只有两类物品” → 得到闭式构造 → 证明随机顺序比 ≥ 1.5。
Knapsack：LLM 输出重复结构 → 专家改为“2 的幂次 + 微调因子” → 构造出中间 Pareto 集爆炸性增长的实例 → 证明算法时间复杂度为 n^Θ(√n)。
k-median：LLM 生成高维点集 → 专家提炼为“3 个点 + 权重” → 证明 price of hierarchy 下界为 黄金比例 φ。

失败案例：

在 k-means 聚类、Ward 聚类、页面替换算法、Best-Fit 渐近随机比 等问题上，未能突破现有下界，甚至无法复现已知结果。
仍依赖人类专家“看懂并提炼”LLM 生成的代码，若结构隐藏过深则难以推广。
计算成本高：每个问题需运行数千次 LLM 调用。

审稿人意见

写作存在一些问题，工作的意义没有表述清晰。

Improving LLM Symbolic Problem-Solving via Automated Heuristic Discovery

https://openreview.net/forum?id=yX1gmPYHOL

rating：4468, Reject

目标

提出了一种名为 AutoHD（Automated Heuristic Discovery） 的新方法，用于提升大语言模型（LLM）在符号类问题求解任务中的推理能力。

痛点

传统的推理增强方法（如 Chain-of-Thought、Tree-of-Thoughts）依赖于模型自身的判断或外部验证器来评估中间步骤，但存在以下问题：

自验证不可靠：LLM 不能准确判断中间步骤是否正确。
外部模型成本高：需要额外训练或大量数据。

解决思路

让 LLM 自己生成启发式函数（heuristic function），用于评估中间状态离目标有多远，从而指导搜索过程。

CoT：Chain of Thought，ToT：Tree of Thought，GoT：Graph of Thought

方法概述

启发式函数生成：
- 用 LLM 生成多个 Python 格式的启发式函数，用于估算当前状态到目标状态的“距离”。
- 每个函数包括自然语言描述和可执行代码。
启发式引导搜索：
- 在推理阶段，使用生成的启发式函数指导搜索算法（如 A* 或贪心 BFS）选择最优路径。
- 不再依赖 LLM 自评或外部模型。
启发式进化：
- 通过多轮“进化”优化启发式函数：保留表现好的，生成新的变体。
- 使用小验证集评估每个函数的效果，逐步提升质量。

实验

在三个经典符号推理任务上测试

审稿人意见

计算成本较高、实验不充分

Hierarchical Representations for Cross-task Automated Heuristic Design using LLMs

https://openreview.net/forum?id=dgvx86qybJ

rating：2646, Reject

痛点

传统的启发式算法设计依赖专家经验，耗时且难以迁移。近年来，大语言模型（LLMs）被用于自动启发式设计（AHD），但现有方法多为单任务、单启发式，缺乏跨任务泛化能力。相比之下，人类专家设计的元启发式（如禁忌搜索、模拟退火）具有更强的通用性。

贡献

提出层次化表示（Hierarchical Representation） 将启发式算法分为两层：
- 高层：任务无关的元启发式（Metaheuristic）
- 低层：任务特定的程序实现（Task-specific Program）
设计 MTHS 框架
- 同时演化多个任务的元启发式和程序实现
- 引入知识迁移机制，将某任务上表现优异的程序适配到其他任务
- 使用Pareto 多目标优化管理种群，平衡多个任务的性能
实验验证 在多个组合优化问题（TSP、CVRP、FSSP、BPP）上，MTHS 显著优于：
- 传统启发式（如 NN、Insert、TS、ALNS）
- Google OR-Tools 的元启发式
- 现有 LLM 驱动的 AHD 方法（如 EoH、ReEvo、MCTS-AHD）

实验

审稿人意见

没有消融实验，运行成本较高，未见明显多任务。

个人看法：这个多任务

TPD-AHD: Textual Preference Differentiation for LLM-Based Automatic Heuristic Design

https://openreview.net/forum?id=VEMknlIPtM

rating：2442, Reject

痛点

传统大语言模型驱动的自动启发式设计（LLM-AHD）中存在的搜索方向不明确、优化过程不可解释等问题。

贡献

提出TPD-AHD框架 这是首个将文本偏好优化（Textual Preference Optimization）与文本梯度（Textual Gradient）结合用于组合优化问题启发式设计的框架。它通过自然语言形式的反馈引导启发式算法的演化，具有高度的可解释性和方向性。
最佳锚定偏好配对机制（Best-Anchored Preference Pairing） 在每一轮迭代中，框架会将当前最优启发式与其他候选启发式进行配对比较，生成一个“文本损失（Textual Loss）”，用于指导下一步的优化方向。这种机制减少了低质量候选对优化过程的干扰，提升了学习效率。
文本梯度反向传播（Textual Gradient Backpropagation） 文本损失被用于生成自然语言形式的“文本梯度”，直接指导如何修改提示词（prompt）以生成更优的启发式算法。这一过程模拟了连续优化中的梯度下降，但完全在离散文本空间中进行。

实验

审稿人意见

动机不充分，文本梯度本质还是反思。

CodePDE: An Inference Framework for LLM-driven PDE Solver Generation

https://openreview.net/forum?id=q196xGhRMa

rating：424，withdraw

卡耐基梅隆大学

目标

求解偏微分方程（PDE）。

动机

大型语言模型（LLM）在复杂数学与科学任务上展现出惊人潜力。其核心洞见在于：代码是连接自然语言与符号科学计算的通用中介。受此启发，一个引人注目的新范式应运而生：仅用自然语言描述 PDE，即可自动产生可执行的求解器代码。

发现

可靠性—复杂度权衡：部分模型保守地采用低阶格式以保证鲁棒，而前沿模型（如 o3、Gemini-2.5-Pro）能在探索高阶、多样方案的同时保持低失败率。
生成与精修技能分离：推理型模型（o3、DeepSeek-R1）初始生成更强，但在精修阶段未必优于标准模型（GPT-4o、DeepSeek-V3），提示两种能力可能由不同机制驱动。

贡献

将 PDE 求解重塑为代码生成任务，提出首个结合领域知识、自改进与测试时扩展的 LLM 推理框架 CodePDE。
证明 CodePDE 能充分释放 LLM 潜力，生成高质量 PDE 求解器。
首次对 LLM 生成的 PDE 求解器进行系统研究，分析其精度、效率、数值方案多样性及失效模式，为构建更强大、可靠的科学计算 LLM 提供指南。

方法

问题描述
代码生成
Debug
评估
求解器精修

实验

审稿意见

求解对象过于简单，成本较高，难以替代传统求解器。

VRPAgent: LLM-Driven Discovery of Heuristic Operators for Vehicle Routing Problems

https://openreview.net/forum?id=02mBAZjFzp

rating：6444, Reject

痛点

NCO痛点

测试阶段需要昂贵 GPU，限制了实际部署；
可扩展性差：注意力机制必须处理完整距离矩阵，导致大规模实例难以应用；
学到的策略难以被人类专家解读，引发可靠性与安全性担忧。

LLM启发痛点

“弱代理沙盒”：仅让 LLM 生成零散的小代码片段，缺乏整体求解框架支撑；
缺乏正确性保障：生成代码可能不可行或破坏解结构；
搜索效率低：容易陷入冗长、脆弱、难以维护的实现。

核心思想

利用大语言模型（LLM）自动为车辆路径问题（VRP）发现高效的启发式算子，从而突破传统人工设计启发式的瓶颈，其中：

LLM 只负责生成“问题专用的启发式算子”（如：从当前解中移除哪些客户、按什么顺序重新插入）；
LNS 框架本身保持不变，负责保证解的可行性与搜索结构；
通过 遗传算法（GA） 迭代优化这些 LLM 生成的算子，最终发现 超越人类设计的启发式策略。

优势：问题无关，仅需单核CPU。

方法

LNS框架

对给定实例，LNS 首先生成初始解（每客户一条路径）。随后重复以下步骤，直到满足终止条件：

销毁：调用 LLM 生成的算子，从当前解中移除一组客户，得到部分解；
排序：调用 LLM 生成的算子，对移除客户得到排序列表；
重插入：按该顺序逐个贪婪插入到当前解的局部最优位置（即增量目标值最小）；
接受：若新解更优，或以模拟退火概率接受，则替换当前解。

最终返回搜索过程中发现的最佳解。

LLM代码进化

初始化种群
评估
排序，分为精英种群和非精英种群
80%的精英和20%的非精英交叉
精英个体变异
形成下一代
重复2-6，40轮

实验

审稿人意见

生成的算法没有可解释性和逻辑解释，成本高，参数过多且难调。

LLMs for Sequential Optimization Tasks: from Evaluation to Dialectical Improvement

https://openreview.net/forum?id=hlFD8pl4qD

rating：2228，withdraw

（这个写作很有意思，故事背景是黑格尔辩证法）

目标

序列优化问题（SOP）。

动机

不给任何人工干预，仅把LLM当成黑盒，它能否独立完成整个优化闭环？

贡献

名称	作用	关键创新
WorldGen	动态评测平台	即时生成“从未见过”的n维优化地形，难度可调，彻底避免数据污染与刷榜。
ACE	推理框架	把黑盒LLM变成“会自我批判、会迭代升级”的优化专家，零额外训练，只靠测试时的“正反合”辩证循环提升性能。

方法

WorldGen

核心思想：优化的本质是在一个 $n$ 维世界中找到最优点，数学上表示为寻找

\[f(x_1,x_2,\ldots,x_{n-1})\]

的极值。

交互循环：为了让 LLM 智能体有效执行任务，我们通过图 2 所示的循环为其提供对生成世界的访问权限。每一轮中，智能体可选择一个批次的查询点，每个点是一个向量 $v_i\in\mathbb{R}^{n-1}$；世界随后返回对应的函数值 $f(v_i)$ 给智能体，结束本轮交互。下一轮，LLM 利用这些反馈决定下一批查询点。

用辩证法提升 LLM 在 SOP 中的表现

动机： vanilla LLM 在非平凡 SOP 上表现不佳，我们能否不经过重训练、微调或后训练就提升其性能？

核心思想：借鉴黑格尔辩证法，我们将 LLM 智能体抽象为立论生成器（Thesis Generator），并引入驳论生成器（Antithesis Generator）与合题模块（Synthesis Block），形成“正反合”迭代循环：

Thesis 提出初始解；
Antithesis 批判并指出漏洞或替代视角；
Synthesis 融合两者，产生更精炼的解。

该结构促使系统持续演化，最终得到更优结果。基于此，我们提出 ACE（Act–Critique–Evolve）框架，其三个组件为：

Actor：生成立论（初始策略/查询点）；
Critic：生成驳论（批判与改进建议）；
Synthesizer：融合并输出升级后的立论，进入下一轮。

审稿人意见

不明确的框架、模糊的方法论以及意义存疑的问题。

Evaluating LLMs for Combinatorial Optimization: One-Phase and Two-Phase Heuristics for 2D Bin-Packing

https://openreview.net/forum?id=9i3PS60x4z

rating：2022, 不可见了

（锐评，不如大作业）

省流：用类似EoH的方式做装箱问题。

AutoFloorplan: Evolving Heuristics for Chip Floorplanning with Large Language Models and Textual Gradient-Guided Repair

https://openreview.net/forum?id=DS2iool3nv

rating：4424, Reject

研究对象

芯片布局。

贡献

提出AutoFloorplan框架 结合大语言模型（LLMs）与进化算法，自动生成并优化布局启发式算法。
文本梯度引导修复机制（Textual Gradient-Guided Repair） 当LLM生成的算法违反布局约束（如模块重叠或越界）时，系统不会直接丢弃，而是：
- 分析错误原因；
- 生成自然语言的“文本梯度”反馈；
- 指导LLM修复算法逻辑。
双循环结构
- 外循环：进化搜索，生成多样化的布局算法；
- 内循环：文本梯度修复，提升算法合法性与性能。

审稿人意见

没什么创新，就是EoH+TextGrad，做芯片布局问题。

Fusing LLMs with Scientific Literature for Heuristic Discovery

核心思想

痛点与动机

贡献

方法

知识库构建与增强

知识增强进化算法

实验

审稿人意见

Adversarial examples for heuristics in combinatorial optimization: An LLM based approach

痛点

核心思想

方法

实验和例子

审稿人意见

Improving LLM Symbolic Problem-Solving via Automated Heuristic Discovery

目标

痛点

解决思路

方法概述

实验

审稿人意见

Hierarchical Representations for Cross-task Automated Heuristic Design using LLMs

痛点

贡献

实验

审稿人意见

TPD-AHD: Textual Preference Differentiation for LLM-Based Automatic Heuristic Design

痛点

贡献

实验

审稿人意见

CodePDE: An Inference Framework for LLM-driven PDE Solver Generation

目标

动机

发现

贡献

方法

实验

审稿意见

VRPAgent: LLM-Driven Discovery of Heuristic Operators for Vehicle Routing Problems

痛点

核心思想

方法

实验

审稿人意见

LLMs for Sequential Optimization Tasks: from Evaluation to Dialectical Improvement

目标

动机

贡献

方法

WorldGen

用辩证法提升 LLM 在 SOP 中的表现

审稿人意见

Evaluating LLMs for Combinatorial Optimization: One-Phase and Two-Phase Heuristics for 2D Bin-Packing

AutoFloorplan: Evolving Heuristics for Chip Floorplanning with Large Language Models and Textual Gradient-Guided Repair

研究对象

贡献

审稿人意见

CATALOG

FEATURED TAGS