算法能实现对整个社会市场有计划

核心提示2020年2月7日,在第34届美国人工智能协会年会AAAI 2020现场,深度学习三巨头齐聚,“计算机视觉”与“机器学习”分座两旁,对最佳论文虎视眈眈。最终清华大学与南洋理工大学的一篇“混合可分割和不可分割商品的公平划分”文章获得最佳学生论

2020年2月7日,在AAAI 2020,第34届美国人工智能协会年会上,深度学习的三大巨头齐聚,“计算机视觉”和“机器学习”分庭抗礼,对最好的论文虎视眈眈。最后,清华大学和南洋理工大学的一篇题为《混合分割和不可分割商品的公平分割》的文章获得了最佳学生论文奖。

地址:file/tupian/20220826/pp两级学习框架(Two-level.pdf learning framework)斯坦福大学副教授理查德·索彻(Richard Socher)开发了一个包括代理人和税收政策的两级强化学习框架,并利用原始经济环境设计税收政策。

在动态模拟的世界中,只有两种资源:木头和石头,并且假设资源再生的速度是有限的。工人通过在世界各地随机游荡来收集资源,通过买卖或建造房屋来赚钱。钱可以带来效用,但是建房子的劳动会降低效用。

另外,假设劳动者技能不同,劳动效率不同,劳动者赚的钱需要纳税,制度赚的税在所有劳动者中平均分配。

分配的机制需要工人的战略眼光。当模拟世界中的工人以效用最大化为目标时,整个系统中就出现了这种情况:低技能工人自己收集并出售,高技能工人购买材料和建筑。

这种情况在经济学上的术语是“分工专业化”,可以使制度效用最大化。

在模型运行的整个过程中,采用强化学习的最优税收设计作为奖励模式。政策制定者可以设定税率来影响工人的税后收入,工人可以通过买卖资源和建造房屋来获得资金。强化学习奖励的目标是最大化整个系统的效用。

在这个奖励目标下,工人和决策者的行动给整个系统带来了两个挑战:内部循环和外部循环。

在内循环中,劳动者在劳动过程中不断调整自己的行为,挣钱,纳税。如果此时给定一个固定税率,那么问题就变成了一个标准的具有固定奖励函数的多智能体强化学习问题。

在外部循环中,税收政策的调整是为了优化社会目标。这就形成了一个非静态的学习环境,强化学习中的主体需要不断适应不断变化的效用环境。

最后,作者发现通过学习税率表和熵正则化技术可以找到一个稳定的收敛点。实验结果表明,人工智能经济学家通过强化学习可以提高47%的平等性,而只降低11%的生产率。

在虚拟世界中模拟真实的经济情况,设计更好的系统,只是AI和经济学结合的方式之一。事实上,当面临风险参数和不确定性不断增加的实际经济问题时,深度强化学习也可以提供更好的性能和更高的准确性。

深度学习在经济学中的应用

下载:https://arxiv.org/ftp/arxiv/papers/2004/2004.01509.pdf

在《经济学中的强化学习》一文中,来自德累斯顿工业大学和牛津布鲁克斯大学的研究人员统计了经济学中强化学习的表现。

通过对股票定价、拍卖机制、宏观经济学等12个领域的考察,发现深度学习算法在准确性和鲁棒性方面都优于传统的经济学和统计学算法。

1.深度学习下的股票定价

股价高度不确定,风险大。如果一个模型能够战胜股价预测,无疑会给模型构建者带来巨大的利润。用深度学习预测股价的最新进展如下表所示。

毫无疑问,它对股价的走势至关重要。目前大多数研究依赖于低效的情感数据集,这往往导致模型性能不佳。[108]一项涉及超塑性概念的工作已经完成。它具有提高学习机制灵活性的能力,能够从数据中发现更深层次的有用信息并进行学习。研究的重点是MLP,它使用客户数据并输出其在商业智能中的应用。建议的双流门控循环装置比LSTM模型具有更好的性能。此外,他们提出了Stock2Vec嵌入式模型,同时,他们用哈佛IV-4证明了该模型在市场风险方面的稳健性。

[109]提出的MLS和SAE相结合的方法,可以对时序现象的时间维度进行建模,对于异常情况非常有用,即业务日志中的异常检测能力高。提出将基于聚光灯的深度学习技术应用于股票价格预测。主要创新点在于,过滤技术赋予了深度学习模型新颖的输入特征。

[31]设计了新的多层特征选择,其与堆叠式自动编码器交互,并且仅检测数据的关键表示。在分析股票价格模式时,使用深度学习技术来预测股票价值流。具体来说,通过使用时间序列技术设计DNN深度学习算法来寻找模式,尽管准确率为86%。但DNN有拟合过度、复杂度高等缺点,所以推荐CNN和RNN。

在[110]递归神经网络结构用于以业务过程的方式进行预测,其中RNN的输入是通过嵌入空建立的。文中还给出了该方法的精度验证结果和可行性验证结果。的研究中,采用了一种新的多层次深度学习方法,用时间序列的概念来表示数据,从而可以预测当前股票的收盘价。

2.深度学习下的保险行业

现在保险业面临着如何有效管理欺诈检测的问题。相应地,机器学习技术也逐渐开发出算法来衡量各种类型的风险。

由于缺乏处理高维问题的能力,传统的强化学习方法不足以找到最佳策略。以下是深度强化学习的最新研究。等人利用社会网络分析,用大数据集检测汽车保险职业欺诈。他们用循环的概念构建了一个间接碰撞网络。在更现实的市场假设下,这个网络可以识别可疑流通,获得更多利润。此外,他们还通过从实际数据中获得的错误概率来评估可疑组件的方法。

[114]使用深度确定性策略梯度算法作为替代方案,探索动态股票市场中的最优策略。算法处理大动作状态空,兼顾稳定性,消除样本相关性,提高数据利用率。等人采用LDA和DNNs相结合的技术提取事故文本特征,发现其性能优于传统方法。此外,为了考虑LDA对预测过程的影响,他们还在“有LDA”和“没有LDA”的情况下,通过准确度和精度性能因子来评估结果。

[115]等人设计了一种新的自适应深度确定性强化学习框架,用于在动态复杂的股票市场中寻找最优策略。该模型结合了乐观和悲观的深度RL,它同时依赖于负面和正面的预测误差。等人提出了一种结合自动编码技术和telematics数据值的算法来预测与保险客户相关的风险。

3.深度学习下的拍卖机制

拍卖机制的核心是投标人需要规划最佳策略,以实现利润最大化。最新研究结果如下表所示:

[15]该研究通过充分利用DPG方法引入报酬函数来优化累积收益。该模型包括独立评估者的集成拓扑,并在权重分配中结合了一大组神经网络。此外,为了防止梯度破坏,还使用了组合向量存储器。等人在预算约束和贝叶斯兼容性方面扩展了[119]设计了一个无模型卷积神经网络,其中输入是来自加密货币交易所的历史资产价格,目的是生成一组投资组合权重。中的结果。他们的方法证明,通过关注不同估价分布的多个设置,神经网络可以有效地设计一种新的最优收入拍卖。

Yu等人[120]在自动交易的意义上设计了一种新的基于模型的深度强化学习方案,它可以采取行动并做出与全局目标相关的顺序决策。该模型架构包括注入预测模块、生成对抗性数据增强模块和行为克隆模块,可用于工艺设计的回测。等人采用了面向数据的方法。方法:假设多个投标可以适用于每个投标人,战略专家可以利用。

3.强化学习下的在线服务等人利用多层神经网络技术构造了一种有效的拍卖机制,并将其应用于移动区块链网络。

在线服务主要集中在推荐算法上,目前很多推荐方法,比如基于内容的协同过滤,因子分解机,dobby老虎机等。然而,这些方法大多局限于用户与推荐系统的静态交互,且注重短期回报。设计了一种多投标者兼容的拍卖机制,并应用多层神经网络对其机制进行编码,从而使利润最大化。与基于线性规划的方法相比,采用增广拉格朗日技术的方法可以解决更复杂的任务。

4.深度学习下的银行和在线市场

网购和信用卡场景对欺诈检测的要求非常高。当前强化学习的最前沿研究成果如下表所示:

[123]提出了基于电子商务平台的MDP框架下的定价算法。因为它可以有效地应对市场环境的动态变化,所以可以设置一个与复杂环境相关联的有效报酬函数。基础实验的应用证明,AE和RBM方法可以在海量数据集下准确检测信用卡的风险。然而,深度学习需要在建立模型时利用影响其结果的不同参数。

目前采用深度强化学习方法的进展如下:提出的研究设计了自动编码器算法,建立的高效自动化工具可以处理世界各地的日常事务。该模型使研究人员能够在不使用欠采样等数据平衡方法的情况下报告不平衡的数据集。

[122]本文主要研究在与用户行为和竞价策略相关的复杂随机环境下,实时竞价中的付费搜索拍卖。此外,基于阿里巴巴拍卖平台的线上线下评价的实证结果表明了该方法的有效性。设计了一个使用自然语言处理技术的新框架,它可以形成与各种数据源相关联的复杂机制,从而有效地检测洗钱活动。

5.深度学习下的宏观经济

宏观经济最重要的问题是指标预测,包括失业率、GDP增长率等。利用神经网络的方法,最新的研究结果如下图所示:

、、提出了一种高度鲁棒的模型——编码器-解码器模型,利用深度神经架构来提高失业问题的预测精度,精度要求很低。此外,在此基础上,它还使用平均绝对误差值来评价结果。

Haider和Hanif [93]构建了一个预测通货膨胀的神经网络,并用均方根对结果进行评估。

[94]使用前馈神经网络进行战术性资产配置,同时应用宏观经济指标和价格、成交量趋势。他们提出了两种不同的方法来构建投资组合。第一种方法用于估计预期收益和不确定性。第二种方法直接利用神经网络结构获得分配,优化投资组合。

6.金融市场中的深度学习

在金融市场中,有效地应对信用风险是非常重要的。由于最近大数据技术的进步,深度学习模型可以设计出可靠的金融模型来预测银行系统的信用风险。最新研究如下:

[95]使用二元分类技术,给出所选机器学习和深度学习模型的基本特征。此外,考虑到贷款定价过程中的关键特征和算法,本研究使用这两个模型来预测贷款违约概率。

[96]该研究方法可以帮助金融机构以较少的工作量进行信用评估,同时可以提高信用评分和客户评级的分类精度。此外,还比较了线性SVM、CART、k-NN、朴素贝叶斯、MLP和RF技术的准确性。

[97]通过自动编码、校准、验证等过程,构建资产组合算法,可应用于标的股票包括看跌期权和看涨期权的投资组合。

[98]建立了抵押贷款风险的深度学习模型,可以处理庞大的数据集。实验结果表明,受当地经济条件影响的变量与债务人行为之间存在非线性关系。例如,失业变量在抵押贷款风险中占相当大的比例。

7.深度学习下的投资

财务问题通常需要分析来自多个来源的数据集。因此,建立一个可靠的模型来处理数据中的异常值和特征是非常重要的。最新研究成果如下:

[99]设计的模型具有提取非线性数据模式的能力。他们使用LSTM、自动编码和智能指数等神经网络架构来估计证券组合的风险。

[100]利用DNN结构研究期权定价问题,以相当高的精度重构了著名的BLACK-SCHOLES期权定价模型的计算公式。

[101]期权定价问题是结合交易复杂性进行研究的,其研究目标是探索高频交易模式下的有效投资策略。其中,LSTM-支持向量回归模型被用于预测最终交易。

[102]提出了一种新的学习遗传算法,它使用R-NN模型来模拟人类行为。具体来说,采用复杂的深度学习结构,包括用于快速决策的强化学习、用于构建股票身份的深度学习、用于整体决策的聚类和用于转移的遗传。

[103]超级参数的多样化选择使模型更加精确。实验结果表明,该模型能够以较小的误差对期权进行定价。

8.深度学习和零售

增强现实在零售业应用最为广泛,可以改善顾客的购买体验。最新研究成果如下:

[104]在一项研究中,深度学习技术和增强现实方法被结合起来,以便为客户提供丰富的信息。他们还提出了一个移动应用程序,使其能够通过深度学习中的图像分类技术来定位客户。

[105]新的DNN旨在准确预测未来的销售。这个模型使用了一组完全不同的变量,比如产品的物理规格和专家的想法。

[106]等人用CNN回归模型解决了评估店内可用人数和统计关键点两个问题。

[107]同时采用k- means算法和k-nearest neighborhood算法,将计算出的质心合并到CNN中,实现有效分离和自适应。该模型主要用于验证食品生产日期等相关信息。

9.深度学习下的商业智能

[68]

[69]

[70]

[71]

强化学习在高维经济问题中的应用

前面介绍的是深度学习在经济学领域的应用。与传统深度学习相比,深度强化学习可以有效处理高维问题。所以在一些高维动态数据的经济问题上,深度强化学习表现更好。

1.强化学习下的股票交易

[75]

[76]

[77]

[116]为了分析股票决策机制的各种算法,在Deep RL中进行了调查。他们基于DQN、双DQN和决斗DQN三个经典模型的实验结果表明,DQN模型可以获得更好的投资策略。此外,本研究还利用实证数据对模型进行了验证。

[117]专注于利用深度强化学习实现证券交易中的自动振荡,其中他们利用递归卷积神经网络方法从经济新闻中预测股票价值。

2.深入加强学习下的投资组合管理。

[118]采用不同的强化学习方法,如DDPG方法、最近策略优化方法和PG方法。这些方法可以获得与连续行动空中的金融投资组合相关的策略。他们将模型在不同环境下的表现与中国的资产市场进行了比较,结果显示PG模型在股票交易中比其他两个模型更有优势。本研究还提出了一种新颖的对抗性训练方法,可以提高训练效率和平均收益。

[82]

[83]

[84]

[85]

[86]

[87]

[121]设计的推荐算法使用了演员-评论家模型,可以在持续的决策过程中显式地获得动态交互和长期回报。

[89]

[90]

[124]使用DQN方案进行在线新闻推荐可以获得当前和未来的回报。在该模型中,在考虑用户活跃度的同时,还采用了凌渡-班迪特梯度下降法来提高推荐精度。

[92]

 
友情链接
鄂ICP备19019357号-22