微博情绪与投资者情绪代理参数对股票收益的关系体现在哪些方面

核心提示微博情绪主要是指微博用户通过微博互动形式使用文字表达个人的喜怒哀乐等各种情绪,并发送到公开网络上提供其他用户订阅、浏览评价和转发。2009年8月新浪微博推出,其提供140字的文本更新信息,该信息可以即时公布在互联网上,这使得微博快速成为广大

微博情绪主要是指微博用户通过微博互动形式使用文字表达个人的喜怒哀乐等各种情绪,并发送到公开网络上提供其他用户订阅、浏览评价和转发。2009年8月新浪微博推出,其提供140字的文本更新信息,该信息可以即时公布在互联网上,这使得微博快速成为广大民众表达情感和获取信息的重要渠道,与此同时,随着移动互联网快速兴起和手机的普及,网络社交进一步发展,微博已经成为广大网民的重要“基础设施”,已经成为社会生活中必不可少的一部分了,不仅如此微博已经成为重要和可靠信息获取平台,截止2019年中期,经微博认证的机构微博为13.9万个,全国31个省均已开通了政务机构微博,由此可以看出微博在信息聚合的重要性,到2018年底,微博月活用户超过4.6亿,月阅读量过百亿。

新浪微博作为大众社交平台已经成为信息获取和表达个人主张和情绪的重要渠道。据2018年第四季度财报显示在微博财经方面累计兴趣用户超过3500万,月总阅读量超过320亿。国内外学者开始利用微博进行数据挖掘来代替传统的媒体数据,来研究和分析其情绪指标与股票的关联关系。Sun等通过对微博数据的分析,实证投资者关注与股票收益之间的关系具有正向调节作用。Chen等从新浪微博中选择官方账号,通过提取情感特征和潜在的分配特征,分析从这些账号中获取的新闻内容。然后,将这些特征和技术指标输入到一个新的混合模型中,以沪深300指数为例,来预测中国股市的波动性。实验结果表明通过微博数据生成的投资者情绪代理参数对股票收益能有效预测。Liu等从新浪微博中提取2009年至2016年的每日数据,发现股票交易量和换手率与微博活动正相关,而股票收益率则与新媒体活动负相关。

微博数据已经成为投资者情绪对股票市场收益影响的重要数据来源,大量国内外学者采用数据挖掘来研究和分析其情绪指标与股票的关联关系。总结相关研究表明,目前使用微博数据的方式为:微博内容、评论、转发和关注度等数据,相关研究有:Sun等通过微博关注度实证投资者关注与股票收益之间的关系;Liu等提取2009年至2016年的每日微博数据,发现股票交易量和换手率与微博活动正相关,而股票收益率则与新媒体活动负相关;企业和机构官方微博内容,相关研究有:Chen等从官方账号提取新闻内容的情感特征,预测中国股市的波动性等等。

综上可见,目前微博情绪研究主要的方式还是以海量抓紧微博数据和其衍生数据作为研究主题,并没有对微博账号自带属性和影响度对股票市场的收益影响这方面进行分析和探讨,将以微博账号自带属性和影响度为特征,进行分类研究,选取314个头部财经大V账号,并将其分为专业投资人、财经论坛和财经媒体三大分类,来探讨投资者情绪对股市收益的影响,进而完善微博投资者情绪对股票收益率的研究。随着移动互联网时代的到来,微博继搜索引擎、门户网站之后成为了互联网社交重要入口。自2009年8月上线以来,新浪微博就一直保持着爆发式增长,已经成为人们发布个人见解,表达喜怒哀乐,传播信息和讨论问题的重要互联网“基础设施”。

微博具有如下特点:门槛低。每条字数少,易阅读,便于记录现场、发感慨、晒心情、表观点;便利。随时发布和接受信息;裂变传播。具有精准送达和极速转发传播能力;高实时性。信息更新时效性高,更鲜活;分享。可使其他应用数据发布到微博平台;真实有效。由于微博数据大量都是实名认证的,数据真实有效。我国以散户作为投资者为主的股票市场,微博本身存在草根性,为此近几年学者们纷纷开始以微博情绪为代理变量,来预测股市情况。微博数据的获取方式主要有两种:通过爬虫技术对微博网站进行递归式的链接请求,并将网站的超文本内容通过程序进行分析和处理,提取其中微博的主要内容;

使用微博应用程序接口,该方式是指通过微博开发者验证后,由微博开放访问权限,开发者可以调用其开放权限的接口,从而通过指定参数,调用接口服务来获取想要的数据。第一种方式为使用爬虫技术对网站进行内容获取。该方式是对网站进行递归请求,对请求返回的网页进行分析处理,获取需要的内容并按照需要的格式进行规格化处理,然后遍历内容页内的每一个URL并对这些URL地址发起请求获取内容并分析,以此类推直到将最顶层请求的内容页全部子页面内容全部获取完成为止。对于请求URL的返回的内容来说,可能存在两种内容形式:其一为HTML网页形式,其二为是视频或图片形式,如果是HTML网页形式就需要对其进行网页分析,将其中不需要内容过滤掉,只保留需要的有效内容,并对其中包含的URL循环请求获取内容。

如果URL返回内容为视频或图片内容,这可以根据需要考虑下载内容或者只保留相应的地址信息以备以后使用。使用该方法的优点是能够效率高,获取数据内容丰富,但由于需要自行分析HTML网页内容,并且存在网页改版不兼容性问题,相对工作量较大,同时,微博对于爬虫有着技术屏蔽,会出现数据无法获取或屏蔽IP等情况。由于主要使用财经类信息,并不需要过度获取其他内容,为此该方法并没有被采用。第二种方式为使用新浪微博提供的应用程序接口服务来获取数据。使用该方法可以得到已经定制好的数据结构的内容,并且能够保证数据的一致性和可用性。

首先,使用该应用接口之前,需要向微博提供实名制信息并通过认证审核,在获取指定微博内容前,需要登录认证,获得认证令牌,最后可以调用相应的接口服务。该方法为微博官方支持方式,基本上能保持获取数据服务的兼容性和可用性,不会随着微博版本的更新而改变。使用该方法的优点是相对方便简单,虽然存在获取数据的限制,但总体上来说,微博服务器对获取数据访问的壁垒较小,而且获取数据基本是统一的格式,这利于后续工作的开展,存在的问题就是相对获取数据单一,存在内容限制,并且相对获取效率较低。当前采用的是非标准微博应用程序接口的方法,并使用Python语言进行开发而成,首先,通过让网页浏览器仿真为移动客户端设备,然后获取微博为其自己网页脚本语言提供的数据服务接口地址和相应参数,通过Python语言进行浏览器仿真获取的URL地址来请求数据内容。

为了获得更有效的微博文本数据以便于后面对于投资者情绪的量化分析,在此就需要对将要获取的微博数据圈定范围,由于微博的反爬虫技术,现在已经很难通过筛选和股市相关的关键词,然后使用微博提供的搜索引擎来查询并返回相应的数据的方法了,微博已经开始对数据查询时间范围和返回条数进行了限制,并且对IP地址进行访问频度、时长、条数等进行了限制,因此采用了微博财经和股市标签认定的方法,将微博财经和股市标签下影响力较大的大V用户的微博数据全部获取下来,其中包括了314个大V账号,账号类型涵盖:财经媒体、学者、财经类网站、职业投资人、财经博主、股票相关软件应用、财经评论人等方面。

其中财经媒体包括:中国经济时报,经济参考报、国际金融报、金融投资报、上海证券报、第一财经日报等44家;学者包括:余丰慧、管清友、王福重、侯宁、屈宏斌、郎咸平、李迅雷、宋清辉等15位;财经网站包括:中金在线、财富中文网、中国经济网、福布斯中文网、东方财富网、凤凰网财经、东方财富股吧、中国金融新闻网等23家;职业投资人包括:邱武平、龚凯杰、吴国平、洪怀懋、卢麒元、但斌、梁瑞安、雷恩周等55位;财经博主包括:水皮、天津股侠、占豪、花荣、金融八卦女、上海徐晓峰、中国刘杰、展锋、叶檀、股社区、老丁论股经、新闻财经头条、何天恩、泡泡Pisces、魔鬼经济学、玉名、凯恩斯、吴其伦等142位;

财经股票相关应用包括:华尔街见闻APP、财联社APP、同花顺、大智慧通讯社、大智慧官方等5个;财经评论人包括:杨宇2005、胡舒立、吴晓波、小散李大鹏、罗昌平、何刚、何力、张道达、王旗斌、蒋家炯、冰寒说股等30位。截止2019年12月底,314个大V累计有831516734个粉丝,2015年1月1日至2019年12月31日,点赞数累计超过12亿,评论数累计超过1.85亿次,转发数累计超过2.78亿次,相对于我国2019年统计的中国1.5亿的股民数量来说,这些财经大V的微博数据基本满足用于来研究投资者情绪所需。获取当前314个大V账号的微博数据,采用如下步骤实现:1.通过微博财经分类找到标有财经大V的用户列表;

2.使用浏览器查看微博HTML页面源代码获取每个大V的账号ID;3.通过Python语言仿真调用微博非官方Javascript应用程序接口;4.对请求返回数据内容进行有效判断,防止服务器返回无效数据信息,最终存储数据到数据库。使用该方法存在难点:1.该方法介于网络爬虫和微博官方应用接口之间,首先需要人工分析关键内容并采集,然后仿真浏览器调用接口,其获取内容速度较快,但存在兼容性不佳问题;2.该方法使用仿真浏览器方法,会时常出现微博服务端的断掉请求情况,需要加入随机定时器,以防止频繁请求数据被屏蔽情况;3.微博服务器会对IP地址进行检测,为了获取信息,相继使用了9台云服务器来完成信息获取工作。

 
友情链接
鄂ICP备19019357号-22