A Machine Learning Approach to Solve the E-commerce Box-Sizing Problem

装箱问题 设计最优的包装盒尺寸

Posted by Birdie on March 9, 2025

A Machine Learning Approach to Solve the E-commerce Box-Sizing Problem

来自:印度

发表:Production and Operations Management

投稿时间:2023.11,接受时间:2024.8

研究背景与问题

如何为电子商务平台上的大量商品(SKU)设计一组最优的包装盒尺寸,以最大化空间利用率并降低包装和运输成本。

方法

论文提出了一种基于机器学习的三阶段优化框架,结合了无监督学习、强化学习和树搜索技术,以解决包装盒尺寸优化问题。具体方法如下:

第一阶段:生成初始解

  • 将每个SKU视为三维空间中的一个数据点,使用K-means聚类算法将SKU划分为K个簇。
  • 每个簇对应一个包装盒,簇中SKU的最大尺寸决定了该盒的尺寸。
  • 这种方法快速生成初始解,为后续优化提供起点。

关于包装盒的旋转:

  • 假设一个SKU的尺寸是 $l\times b\times h$,其中 $l\ge b\ge h$。
  • 在包装盒中,这个SKU可以以三种不同的方向放置:
    1. $l$ 作为长度方向,$b$ 作为宽度方向,$h$ 作为高度方向。
    2. $l$ 作为长度方向,$h$ 作为宽度方向,$b$ 作为高度方向。
    3. $b$ 作为长度方向,$l$ 作为宽度方向,$h$ 作为高度方向。

第二阶段:学习改进启发式规则

  • 将包装盒尺寸优化问题转化为一个序列决策任务,称为“包装盒尺寸游戏”。这个序列决策任务可以通过马尔科夫决策过程建模。

    • 状态:每个包装盒由其长度、宽度和高度定义,因此状态可以表示为一个矩阵,其中每一行对应一个包装盒的三个维度。如果有 $ K $ 个包装盒,状态可以表示为一个 $ K \times 3 $ 的矩阵。

    • 动作:增加或减少某个维度的大小,或者,保持当前状态不变并结束游戏。具体来说,对于 $ K $ 个包装盒,每个包装盒有3个维度,因此总共有 $ 6K $ 种调整动作(每个维度可以增加或减少)。此外,还有一个“结束游戏”的动作,因此总共有 $ 6K + 1 $ 种可能的动作。

    • 奖励:奖励函数的设计目标是减少包装盒的空隙率。

      \[r(s_t, a_t, s_{t+1}) = \begin{cases} \text{PF}(s_t) - \text{PF}(s_{t+1}), & \text{如果 } s_{t+1} \text{ 是可行的且状态变好} \\ -1, & \text{如果 } s_{t+1} \text{ 不可行或状态变差} \\ 0, & \text{如果智能体选择结束游戏} \end{cases}\]

      其中,$\text{PF}(s)$ 表示状态 $ s $ 的包装因子,用于衡量包装盒的空隙率。

      \[\text{PF} = \frac{\sum_{i \in D} \sum_{j \in P} d_i \cdot L_j \cdot B_j \cdot H_j \cdot x_{ij}}{\sum_{i \in D} d_i \cdot l_i \cdot b_i \cdot h_i}\]

      其中,

      • $ D $ 是所有商品(SKU)的集合,每个商品 $ i $ 有其长度 $ l_i $、宽度 $ b_i $、高度 $ h_i $ 和需求量 $ d_i $。
      • $ P $ 是所有包装盒的集合,每个包装盒 $ j $ 有其长度 $ L_j $、宽度 $ B_j $ 和高度 $ H_j $。
      • $ x_{ij} $ 是一个二进制决策变量,表示商品 $ i $ 是否被分配到包装盒 $ j $ 中($ x_{ij} = 1 $ 表示分配,$ x_{ij} = 0 $ 表示未分配)。
  • 使用神经网络代理学习改进初始解的策略。神经网络通过强化学习(特别是近端策略优化,PPO)训练,学习如何调整盒子尺寸以减少空隙。

    • 网络(MLP):输入状态,通过2到3层带有ReLU的全连接层,映射到动作空间进过Softmax作为输出。

第三阶段:树搜索优化

将第二阶段学习到的策略与树搜索算法结合,进一步优化初始解。

  • 初始状态:从第二阶段生成的优化后的状态开始。
  • 动作选择和模拟
    • 动作选择:通过网络输出的动作概率向量来评估动作的优劣
    • 动作模拟:通过不断调用网络探索,直到预设的深度 $\tau$
  • 评估动作的长期效果:引入了一个加权包装因子,其实就是其实就是有折扣因子的累计回报
    • $\text{WPF} = \text{PF}_x + \beta \cdot \text{PF}_1 + \beta^2 \cdot \text{PF}_2 + \dots + \beta^{\tau-1} \cdot \text{PF}_\tau$
  • 选择最优动作:根据加权包装因子值最小的动作作为当前步骤的最优动作。
  • 重复上述步骤,直到达到预设的搜索深度或找到满意的状态。

实验与结果

论文使用了来自一家大型电子商务平台的真实数据集进行实验,数据集包含153,625个SKU的尺寸和需求信息。

box assortment:包装箱种类

神经网络的表现

image-20250309152237714

在训练初期,网络可能会使解决方案恶化,环境会因高负分而终止游戏。然而,随着训练的进行,网络学会了在改进和恶化之间做出选择,并逐渐减少负分的出现。在训练的后期阶段,神经网络学会了只采取改进措施,并在不进入不可行状态的情况下持续获得正向奖励。

每个阶段的增量价值

image-20250309152531187

与另外两种MIP建模方式比较

表4是1范数建模,表5是无穷范数建模。

image-20250309153832085

机器学习方法和MIP方法的比较

PAAS:文章设计的机器学习方法的名称。

image-20250309152951924

阶段一方法的选择

聚类方法需要满足:

  • 必须分配所有的SKU
  • 必须生成固定数量的簇

因此,许多流行的聚类方法(如亲和力传播、DBSCAN、均值漂移及其变体)不能使用,因为它们不分配所有数据点或不生成固定数量的簇。这使得我们只剩下几种流行的替代方法,例如层次聚类(Agglomerative Clustering)和谱聚类(Spectral Clustering)。

image-20250309153526638

k-means方法得到的PF不差于另外两种,且层次聚类和谱聚类方法的内存消耗随着SKU数量的增加而呈二次方增长。

(OS:没有不是聚类的方法吗)

研究贡献与实践意义

  • 性能提升:通过三阶段优化框架,最终的包装盒尺寸方案显著优于初始解,平均包装因子(PF)降低了约15%。
  • 计算效率:与传统的数学规划方法相比,该机器学习方法能够在短时间内处理大规模问题,而传统方法在处理数千个SKU时就显得力不从心。
  • 环境影响:优化后的包装盒方案每年可为公司节省约710万美元的成本,同时减少2080吨纸张消耗和1960吨温室气体排放。

研究贡献

  • 提出了一种创新的机器学习方法,解决了电子商务包装盒尺寸优化这一实际问题。
  • 展示了无监督学习、强化学习和树搜索技术在优化问题中的协同应用。
  • 为机器学习在运营管理中的应用提供了新的视角。

实践意义

  • 该方法已被一家大型电子商务公司采用,并在其28个物流中心推广,显著降低了包装成本和运输成本。
  • 该框架具有普适性,可应用于其他电子商务平台或物流场景。