快速发布求购 登录 注册
行业资讯行业财报市场标准研发新品会议盘点政策本站速递
摘要西安交通大学管理学院智能决策与机器学习研究中心团队开展了全新的基于人工智能技术的研究策略,提出了一种无模型(Model-free)的深度强化学习(Deep reinforcement learning)方法。

  【仪表网 研发快讯】在线选品优化(Online assortment optimization)是近年来运营管理领域中备受关注的重要研究方向。其核心在于探讨平台如何从有限的产品库存中精心挑选出一组最优的产品组合(即“选品”),并将其推荐给随着时间陆续到达的多样化客户群体,以实现在特定时间段内的平台总收益最大化。众多现实场景,例如酒店预订、演出票销售以及短生命周期产品的推荐等,均可被建模为在线选品优化问题。然而,现有主流模型驱动方法(如离散选择模型)的模型假设通常存在局限性,与真实用户行为不符,且在相应的高维动态规划问题求解中计算代价显著。
图1 在线选品优化(以酒店预订为例)
 
  为解决上述难题,西安交通大学管理学院智能决策与机器学习研究中心王尧教授与其硕士研究生李韬(现为香港科技大学博士生)、王晨浩(即将入职同济大学),联合美国纽约州立大学布法罗分校唐少杰(Shaojie Tang)教授和加拿大多伦多大学陈宁远(Ningyuan Chen)教授开展了全新的基于人工智能技术的研究策略,提出了一种无模型(Model-free)的深度强化学习(Deep reinforcement learning)方法。该方法通过使用一个特别设计的深度神经网络(DNN)来构建选品策略,并利用从历史交易数据构建的模拟器,通过优势演员-评论家(A2C)算法更新DNN的网络参数,以有效解决传统强化学习训练需要大量、甚至不切实际的交易数据的问题。
 
图2 本文构建的DNN架构
 
  一系列合成数据与实际数据上的实验结果表明,与主流方法相比,所提方法能够显著提高长期收益,并且在各种实际条件下保持稳健性。研究还证明了新方法的灵活性,即可以进一步考虑客户属性以实现个性化策略,并且可通过在DNN的输入状态中增加历史销售信息,扩展至包含可重复使用产品的应用场景中。
 
图3 在Expedia实际数据集上的实验结果对比
 
  上述研究成果以“基于深度强化学习的在线个性化选品推荐:一种数据驱动的方法”(Deep Reinforcement Learning for Online Assortment Customization: A Data-Driven Approach)为题,于2025年6月在运营管理领域顶级期刊《生产与运作管理》(Production and Operations Management)在线发表。李韬博士生、王晨浩博士为论文的共同第一作者,王尧教授为论文的通讯作者,西安交通大学管理学院为论文的第一完成单位与通讯单位。该研究得到了国家自然科学基金面上项目和国家社会科学基金重大项目的资助。

我要评论
文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

版权与免责声明
  • 凡本网注明"来源:仪表网"的所有作品,版权均属于仪表网,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明"来源:仪表网"。违反上述声明者,本网将追究其相关法律责任。
  • 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
  • 合作、投稿、转载授权等相关事宜,请联系本网。联系电话:0571-87759945,QQ:1103027433。
广告招商
今日换一换
新发产品更多+

客服热线:0571-87759942

采购热线:0571-87759942

媒体合作:0571-87759945

  • 仪表站APP
  • 微信公众号
  • 仪表网小程序
  • 仪表网抖音号
Copyright ybzhan.cn    All Rights Reserved   法律顾问:浙江天册律师事务所 贾熙明律师   仪表网-仪器仪表行业“互联网+”服务平台
意见反馈
我知道了