首页>>活动公告>> 科研>> 管理科学与工程青年教师论坛(1)

管理科学与工程青年教师论坛(1)

时间:2025-09-10

报告人:方浪 博士

报告题目:基于强化学习方法的在线创作出版商付费章节动态定价策略研究

报告时间:2025年9月16日(周二)下午16:00-17:00

报告地点:劝学楼425室

主办单位:东北财经大学管理科学与工程学院

辽宁省大数据管理决策研究生创新与学术交流中心

辽宁省大数据管理与优化决策重点实验室

  

【报告摘要】

强化学习(Reinforcement Learning)旨在关注智能体如何在环境中采取行动以最大化累积奖励,重点在于探索(尝试新行动以获取更多信息)和利用(利用已知信息最大化奖励)之间的平衡。在此框架下,汤普森采样方法(Thompson Sampling)作为解决特定强化学习问题的经典贝叶斯方法,通过概率分布来建模每个臂的奖励分布,并在每次选择臂时根据当前的后验分布进行抽样,以平衡探索与利用。基于汤普森采样方法,本研究考虑如何在 T 个时间点为在线创作出版作品的付费章节做出动态定价决策。在作品出版的过程中,读者不是为整部作品付费,而是为作品的每一章付费(即按章付费模式)。这种模式允许读者根据自己的意愿购买任意数量的章节,而无需担心新章节的发布可能会延迟或停止。尽管作品的章节是逐章发布的,但固定定价策略(FPS)并未充分利用作品章节发布所产生的阅读数据。本研究提出了一种基于学习的动态定价策略(LDPS),该策略利用新信息来最大化出版商的累计收入。LDPS 能够捕捉读者不断变化的特征,并在充分探索不同价格的同时,利用最优价格进行收益最大化。以国内某大型出版商的真实数据集为背景实施所提出的LDPS方法,结果表明 LDPS 超过了诸如Greedy、Prior-Free TS 和Prior-Given TS 等几种经典策略,并与出版商的历史决策相比,LDPS 的平均收益在每个时间点平均提高了 0.5%。此外,本研究还分析了不同类型作品的定价范围和探索阈值参数的选择,并通过考虑捆绑选项的付费章节和折扣因子动态定价问题,为出版商提供了一些管理启示。

 

【报告人简介】 

方浪,管理学博士,东北财经大学与美国天普大学联合培养博士。先后参与中国国家自然科学基金委、辽宁省科学技术厅等机构资助的基金项目,主要从事数据驱动的平台捆绑定价、契约机制设计等相关研究。在Decision Support Systems、IEEE Transactions on Engineering Management、《工程管理科技前沿》等国内外期刊发表多篇论文,目前担任系统工程理论与实践、运筹与管理等期刊审稿人。

 

撰稿:赵永丽 朱晗     审核:吴志樵  印明鹤       单位:管理科学与工程学院


电话: 邮编:116025 地址:大连市沙河口区尖山街217号
Copyright © 2014-2019 管理科学与工程学院