2025年12月03日 星期三 国内统一刊号:CN51—0098     中国•企业家日报

香港大学博士闫以墨: 强化学习重塑供应链效率

来源:企业家日报 作者:

5-4 6闫博士正在演讲.jpg

● 闫博士正在演讲。

■ 谭立华

闫以墨毕业于香港大学,获博士学位,主修数据与系统工程。目前,他目前主要从事智能优化算法在物流供应链领域的研究工作,同时作为多家知名物流企业的技术合作顾问,推动学术研究与产业应用的深度融合。他的研究方向广泛而深入,涵盖交通与物流、“最后一公里”配送、调度算法、近似动态规划、(元)启发式算法、神经组合优化、(分布)鲁棒优化、随机优化、凸优化、半定/二阶锥规划、混合整数线性规划、列生成、分支定界法、深度二分/超图匹配以及深度学习等多个关键领域。这些研究紧密围绕复杂系统的实际优化需求,致力于通过先进算法与技术解决现实世界中的难题。

凭借在该领域的深入探索与卓越成果,闫博士的研究受到国际学术界的广泛关注。他的多篇论文已发表于《运输研究》E辑、C辑及B辑等权威期刊,这些期刊均属SCI收录的顶级学术出版物,具有重要的学术影响力。

闫博士的最新研究以马尔可夫决策过程(MDP)为理论基础,结合Q-learning与策略梯度(Policy Gradient)等方法,探索如何在不确定环境中实现动态最优决策。通过引入Actor-Critic机制及深度神经网络模型,他提出了能够应对高维状态与连续动作空间的强化学习框架,适用于实时交通、库存波动等典型场景。针对供应链多代理交互与需求不确定性问题,他进一步提出优化模型以协调多节点资源配置,从而提升整体系统效率。这些研究突破了传统线性规划模型的限制,在可扩展性与适应复杂环境方面表现突出。

这一理论突破迅速从研究走向一线战场。面对小批量、高频次运输需求的增长与人力成本上升,大型快递巨头德邦引入其提出的动态现场服务调度框架,通过策略梯度算法与Transformer结构优化车辆与人力调度,实现实时决策。实际应用数据显示,该系统帮助企业显著降低运营成本——用工成本比例下降约0.9%,管理开支减少约25%,年度节约支出超过150万元人民币。在运输油价上涨背景下,企业仍保持成本稳定,净利润同比增长逾一倍。准时交货率与客户满意度均维持在行业领先水平。这一案例展示了强化学习在物流调度领域的可行性与经济效益,也体现了高校研究向产业应用的成功转化。

面向未来,闫博士的研究方向包括多代理强化学习在供应链协同与生态系统管理中的应用,结合边缘计算实现实时决策优化。他探索面向可持续发展的深度强化学习模型,用于绿色物流与供应链韧性构建。他强调,未来的研究重点不仅在于算法性能的提升,更在于模型的可解释性与实际部署能力,为实现更加稳健、透明和可持续的供应链体系提供支持。正如粤港澳大湾区内人工智能与跨境电子商务应用的科研协同创新,这些研究将继续推动智能物流关键技术的自主研发与产业化应用。