如果有了这个,那些吹牛的股神估计要下岗了

作者:茅友公社 更新时间:2023-03-03 03:58 阅读:352

前几天茅友公社推送了一篇关于《茅台酒股票又涨价》的文章,没看过的茅友,可以点击蓝色字体进行查看。晚上回家,又看到江苏卫视播放的《最强大脑》节目,里边有一个AI智能机器人与中国最强大的PK,比赛结果中国最强大脑输给了百度人工智能。当时,社长就有一个这样的猜想,如果是AI来帮助我们炒股,那岂不是要赚翻啦


82年的茅台随便喝


如果有了这个,那些吹牛的股神估计要下岗了



今天在网上还真的就看到一篇关于讨论AI与股票的文章


看完之后,社长觉得如果有了这些AI,哪些瞎吹牛逼的股神是时候回家了


以下文章转载自:公众号会牛股票


近年来,人工智能(AI)受到前所未有的关注,一个很重要的原因是人们逐渐认识到了它给社会带来的价值和冲击,促使各行各业把AI定为成公司的一个重要战略方向。它所影响的领域不仅涉及到传统的互联网行业,而且加速深化到其他领域包括金融、医疗、工业、农业、汽车行业等。特别是,最近几年迅速崛起的互联网借贷领域尤其受到了其技术的冲击,核心的风控环节目前逐步被机器取代。除此之外,互联网证券领域也很可能成为下一个被AI颠覆的领域。随着互联网数据的爆发式增长,怎么从这些海量信息中快速总结出对投资有价值的信息是一个很重要但充满挑战的问题。


1. “人工智能(AI)的寒冬不会再来”


当前AI的热潮已经达到了前所未有的程度,尽管有一些被媒体夸大的成分,但我们还是不得不承认它所带来的价值。 回顾AI的发展历程,曾经出现过两次AI的寒冬,都是在一股大热潮之后涌现出来的。对此,不少人可能会担心下一个寒冬的来临。但可以很乐观地说,或许下一个寒冬根本就不存在。如果仔细回顾这段历程,我们可以观察到当前的热潮和历史当中的热潮是有本质性的区别的,就是AI真正开始跟产品深度结合了起来。百度的Andrew Ng在MIT Technology Review上也提到了这一点 [1]。


如果有了这个,那些吹牛的股神估计要下岗了



2. 为什么说自然语言处理技术对证券行业尤为重要?


证券行业充满着博弈,任何的投资决策都需要经过大量的信息搜集和处理过程。对于量化建模来说,我们需要的是各种结构化的信号,一部分可能来自于量价信息,另一部分则可能来自于技术面或者基本面;对于主观分析来说,为了了解一个公司或者行业,分析师可能需要搜集和查阅各种相关研报、新闻、公告、基本面等数据,随后通过一系列的方法论来找出数据间的相关性,最后对未来趋势做预测。


虽然这些方法论已沿用许久,但放在当前的大环境里未必很合适。原因如下:


1、在大数据时代,我们所面临的数据量是几乎以指数增长的。其中,绝大部分属于非结构化信息,比如文本、图片、音频、视频等。包含大量文本数据的新闻、股吧、论坛、微博其实跟投资决策都有一定的关系,但现阶段并没有很好地被利用,甚至被忽略,主要是源于技术的壁垒和领域的新颖性。在未来的几年内,随着移动互联网的持续发展,非结构化数据仍然会以惊人的速度增加。


2、目前的量化建模主要依赖于结构化数据。在这基础上,当我们把非结构化文本转换成结构化信号之后,就可以用来丰富模型的输入从而提升效果。在这方面,美国的量化走在我们的前面,他们早已开始使用自然语言的数据来提升量化模型的准确率,代表性的公司包括two sigma, Sentient technology等。


3、一个分析师可能需要耗费大量的时间去搜集和查阅资料(包括新闻、研报等),从而找到一些信息之间的相关性,但整个过程需要大量的人力成本。事实上,其中的很多流程都可以被机器替代,比如运用自然语言处理技术让机器对原始信息做抽取和分类、做结构化处理、并基于历史数据做相关性验证和逻辑推理等。代表性的公司有Kensho, Ravenpack等


4、对于投资这种极其专业化的领域,一个分析师能考虑到的边界毕竟是有限的,大多数情况下他们只专注于自己熟悉的行业或领域。相反,AI技术可以无限地延伸知识的边界,能够提供更全面的信息和行业全貌。


2.1 自然语言处理的进展、垂直领域中的应用


近年来AI技术在两大问题上取得了突破性的进展,分别是图像识别和语音识别,而且很多学者们预言下一个被颠覆的领域很可能是自然语言处理。比如当我们使用Google翻译的时候,就会发现这个系统正在变得越来越精准。另外,在舆情分析、主题识别、文本分类、搜索、信息抽取、数据融合、聊天交互、智能问答等领域上也取得了很大的进展。但值得警惕的是,现阶段的技术很难支撑一个通用化的商业应用。这就要求我们需要提前定义清楚问题的边界,最好可以在一个细分的垂直领域里深挖下去。


3. 谈谈一些应用场景


假设我们通过各方面搜集到的数据去评估一只股票/公司的价值,这个过程其实非常类似于我们对一个人构建人物画像。举个例子,为了分析一个人的借贷风险,我们首先需要搜集各方面的数据比如行为数据、交易数据、GIS数据、社交数据...,其次通过这些数据去还原这个人全方位的画像,或者通过建模来预测其风险指数。对于股票,也是类似的过程:通过对股票行情、新闻资讯、公告研报等数据的搜集和整理,我们可以多维度地从基本面、技术面、资金面以及,舆情影响、事件驱动等方面去刻画这支股票的画像。


如果有了这个,那些吹牛的股神估计要下岗了



在证券领域里,存在大量的非结构化数据,包括这里所提到的社交数据、股吧、论坛数据和新闻数据。虽然它潜在的价值巨大,但现阶段并没有被很好地挖掘。这好比在风控领域,直到几年前风控模型还是主要依赖于信用数据来做的,当时也并没有考虑到所谓的非结构化数据。但从现在的趋势来看,越来越多的互联网金融公司逐渐把行为数据、社交数据、交易数据,甚至关系网络也带进了其风控模型。其中的道理是显而易见的:只有这些日常生活中的真实的数据,才能足以还原一个真实的人。


3.1 大数据热点 - 实时捕捉全行业的动态


通过海量网上信息的抓取和分析,我们可以分析出每一个行业、每一只股票的实时关注度,这些信息对于投资来说,价值是非常大的。不同于APP上的用户统计数据,这些网络上的信息更能够实时地揭示市场的真实状态。为了确保系统的实时性和准确性,对分布式爬虫系统和文本分析技术提出了很高的要求。


如果有了这个,那些吹牛的股神估计要下岗了



3.2 舆情分析 - 实时捕捉全网股民和专业机构的态度


舆情分析是指通过海量文本的实时抓取和语义分析,去监控全网股民和专业机构对市场的态度。在有效性问题上,其实之前也有过很多的争议,但不可否认的是在美国很多的专业机构里早已把它作为一个重要的信号来辅助投资。美国一家叫Sentient Technologies的公司专门对其他金融机构提供此类的服务。除了证券投资领域,舆情分析技术也被广泛地应用在包括电商、零售业在内的其他领域里。他们通过这项技术来实时监测对产品的评论、负面新闻以及竞争对手的动态等。


相比于其他自然语言处理问题,舆情分析技术的壁垒并不算高,但要做到让舆情实时准确地反映市场情绪,这不仅需要强大的抓取能力,也对语义分析提出了非常高的准确性方面的要求。我们相信深度学习在文本舆情判断上会有大所作为。


如果有了这个,那些吹牛的股神估计要下岗了



3.3 事件的影响 - 通过语义技术实时分析出事件对股票、行业的影响


事件对股市的影响是不可忽视的。特别是对于”黑天鹅“事件来说,它们对于股市或许会是连锁式的影响。为了能够分析出这类事件对未来走势的影响,分析师需要搜集大量的资料、并通过统计建模找到一些相关性、再通过回测等手段最终给出一个方案,但这个方案可能是一个次优解。其实整个分析研究过程是存在一些共性的,如果利用自然语言以及知识图谱的技术去让机器自动识别被影响的个体以及影响路径等,这就会大大提升分析师的效率,从而在最短的时间内做出最优决策。


这里有两个核心的问题需要解决。第一、需要实时监测正在发生中的重要事件,或者甚至去预测不久将来有可能会发生的事件。如果能在信息的获取上比别人提早一些,这其实也是一个很大的竞争力。美国有一家非常优秀的创业公司叫dataminr,专注于事件监测。他们通过实时抓取twitter上的内容,可以在第一时间内预测出一些重要的事件,比如某些地域里疾病的突发。


如果有了这个,那些吹牛的股神估计要下岗了



(图来片自于dataminr)


第二、为了判断事件的影响,我们需要去挖掘历史数据,找出类似的事件并从中学出一些有价值的模式(pattern)。这里有很多的挑战,比如怎么去处理稀疏事件?怎么去比较事件相似度?怎么去量化因果关系?怎么去排除环境中的干扰因素?怎么去设计模型使得不容易过拟合?此外,这对系统实时性的要求也非常高。在这类问题上,美国的kensho是最具有代表性的公司。


如果有了这个,那些吹牛的股神估计要下岗了



(图表来自于[2])


3.4 相关性分析 - 搭建包含各类金融实体的大规模金融知识图谱


一个黑天鹅事件的发生会导致一系列连锁效应,比如英国脱欧。这类的事件一旦发生之后,如果有一个系统能在秒级内以全景图的方式展示出很可能被影响到的范围,它的价值是非常大的。这个范围可以包括任何跟金融相关的实体,有可能是公司、也有可能是行业、甚至是人物或者其上下游关系。除了黑天鹅事件,其他的重要政治事件、政策新闻、甚至非金融类事件也有可能对整个(或者部分)市场产生一定的影响。


如果有了这个,那些吹牛的股神估计要下岗了



在这类总结性的问题上,机器会比人做得更加优秀。两个主要原因:1. 海量的信息处理能力机器要远优于人;2. 机器能考虑到的边界是无限的,但相反,一个分析师一般只会去关注某一个细分投资领域。搭建此类的知识图谱是一个很复杂的过程,从信息的获取、关键信息的抽取、标签化、关联分析到推理,每一个环节都具有不同程度的挑战性。但是如果有了这类的图谱,我们就可以回答解释很多有趣的问题


3.5 预测模型 - 结合深度和广度的信息


对于一个预测模型来说,其核心的难点往往不在于算法本身,而是在于数据的理解和怎么从这些海量的异构(heterogenous)数据中提取出有价值的信息并把这些信息融合在一起从而获得更有效的模型。在股票的预测模型里,基本面、消息面、技术面、资金面其实都可以成为一种可衡量的指标集合,如果融合在一起使用,则很有可能提升预测的准确率。如前面所提到的一样,其中消息面的很多分析需要依赖于自然语言处理技术。


随着这波大数据时代的到来,证券行业的建模理念也可能从单一化的模式逐渐转变成信息的广度和深度融合的模式。在这种情况下,建模所面临的有效信息量会随着指数级上升,而且深度学习将会发挥其强大的作用。


如果有了这个,那些吹牛的股神估计要下岗了



3.6 智能机器人 - 服务于大批未被专业机构覆盖的人群


机器人投顾类似于聊天机器人,但又不同于我们常说的siri。 最大的区别在于,这是一个很垂直领域的应用,并且有非常明确的目标-就是要帮助用户解决跟证券相关的疑惑或者投资者教育。目前在这个散户为主的证券市场里,专业机构(比如券商)的服务还是远远覆盖不到每一位需要服务的客户。更多的股票需要更细致专一的服务,应用AI技术的智能机器人,可以更好地记住每个散户的个性化的用户需求,从而提供个性化的股票知识教育、资讯推荐,甚至基于用户个人的风险喜好,推荐理财策略。


结语


AI对证券行业的影响必将是深远的,在可预见的将来它会逐渐取代人的工作,而且在某些领域甚至会超过一流的分析师或者投资经理。对海量的非结构化数据的处理以及在证券行业的应用仍处于一个比较初级的阶段,但随着技术的发展、人才的投入和数据的持续增加,我们可以期待这个行业慢慢被AI颠覆。 最后感谢Mars对本文提出的宝贵的修改建议。


参考:


[1] https://www.technologyreview.com/s/603062/ai-winter-isnt-coming/


[2] Nadler, D., & Schmidt, A. B. (2015). Market Impact of Macroeconomic Announcements: Do Surprises Matter.


本文作者: 李文哲,凡普金科&会牛科技的首席数据科学家、人工智能领域专家、将知识图谱理论应用于风控的首创者。美国南加州大学博士,发表过10多篇顶会论文,其中两篇拿到最佳论文奖。


会牛APP简介:


在会牛,我们希望通过大数据、人工智能、自然语言处理技术从海量的信息当中挖掘出有价值的信息, 来帮助人们更聪明地投资。


我们在打造一个技术、设计、内容并重的精英小团队,希望公司人不多但都是各领域的大牛。我们提供很有竞争力的待遇。


更多优质文章,请搜索微信公众号【会牛股票】


体验大数据炒股乐趣,让AI与金融更好融合,请在各大安卓应用市场及app store搜索“会牛”


微信扫一扫加我

加微信送福利,酱香白酒低价买。茅台镇老牌酒厂直接供货,品质保障,物美价廉,专注高性价比酱香型白酒!