财新传媒
位置:博客 > 唐涯 > 互动城邦 | 获取第一手的金融数据的六种武器

互动城邦 | 获取第一手的金融数据的六种武器

文 | 马骋
 
工欲善其事,必先利其器。作为一位金融工作者,要产出有质量的研究成果,获取第一手金融数据的能力是基本功。
 
数据的检索查询(search)是研究(research)的基础,这篇文章总结一下我在日常工作中的金融数据查询的基本方法。
 
查询金融数据的关键:一手信息,权威渠道。
 
01 金融研究常用哪些数据?
 
金融行情数据(股票、债券、黄金等资产价格指数);
 
宏观经济数据(GDP、CPI、利率等);
 
公司信息(上市/非上市);
 
专题统计数据,根据研究目标而定的数据需求,例如A股的散户比例、各国的货币、财政政策等;
 
实时大数据,例如全球新冠疫情实时数据、全国人口迁移数据等;
 
其中宏观数据、行情数据、公司信息等都是标准化的,重点是找对渠道,认准数据的口径。从数据的频率上来区分,宏观经济数据往往是月度、季度发布的,称为低频数据;而金融行情数据是实时的,在交易日的每分每秒都更新,是高频数据。
 
专题统计数据的获取没有确定的方法,如果存在有可靠的专题统计,那么万事大吉,否则就需要统计整理的工作。
 
实时大数据则是最有时效性、很有含金量的部分。数据爬虫的技术本身不算复杂,重点是拿到人无我有的数据,才能挖掘独有的价值。此外,还有一些国外的金融数据,需要在外网权威渠道查询。
 
02 如何获取一手的金融数据?
 
先总结一下各种数据的基本渠道:
1. 金融行情数据
 
金融行业数据,大多数炒股、买基金的朋友基本都会,没有特别的技术。值得一提的是,2020年以来全球金融市场极度动荡,全球多种金融资产有必要放在一起看,包括美股、美债收益率、股指期货、VIX恐慌指数、COMEX黄金等,才能对金融市场的变化有整体的感知。
(示例:wind自选指标)
 
2. 宏观经济数据
 
以香帅的金融江湖每月发布的经济数据简析为例:
(香帅的金融江湖:宏观经济数据解析)
 
宏观经济数据体现着国家经济活动的冷热,对经济冷热的感知直接影响我们投资的决策。要做好宏观经济数据的查询、整理,要具备基本的宏观经济知识,准确理解经济指标的意义。
 
查询宏观经济数据,搞清楚数据的口径非常重要。以利率指标为例——宏观经济中有多种利率指标:国债利率、存款基准利率、贷款基准利率、银行间拆借利率、LPR利率等。
 
即使银行间拆借利率拆借利率也有N个版本。因此每一个宏观数据都要有非常明确的限定,讨论和对比才有意义。
(wind:各种口径的银行间同业拆借数据)
 
宏观经济数据一般每个月通过央行、统计局的网站发布,此为最权威一手来源。一般wind(万得)这样的金融数据服务商会自动跟踪,行业内默认以wind 数据为准。
 
重要的官方网站:
 
国家统计局
 
http://www.stats.gov.cn/
 
央行统计调查司
 
http://www.pbc.gov.cn/diaochatongjisi/116219/index.html
 
中央结算公司
 
http://www.chinaclear.cn/zdjs/tjyb1/center_tjbg.shtml
 
中央结算公司月度发布新开户投资者统计,是股市冷暖(韭菜进场)的温度计。
(中央结算公司:投资者统计)
 
3. 公司信息
 
上市公司的信息披露相对是全面,一般通过财经软件都能查到基本信息。非上市公司的信息通过天眼查、wind全球企业数据库等,基本可以查到全面的工商信息,尤其是股权控制信息。
 
例如,我们想查一下浑水做空报告中披露的瑞幸关联公司——长盛兴业的基本情况。
(天眼查示例)
 
4. 专题数据
 
专题数据是一个非常泛的概念,完全根据研究需求而定。非标准化的数据查找,没有一定之法,往往是一个顺藤摸瓜、迭代的过程。基本的原则是——不要重复造轮子。你能想到的数据,往往行业内早有人做过了,找到可靠的汇总数据,是事半功倍的做法,形形色色的券商研报就是重要的线索。
 
▶ 示例1:券商营收结构
 
如果我们想研究中国券商行业的发展情况,就需要了解券商的营收构成。在wind中找到【券商行业透视】的专题板块,即可直接查到历年数据。
 
从数据可以直接的看出,整个券商行业从2018~2019,零售经纪业务的比例从31%下降到了27%,结合历年的比例可以看出券商营收来源多元化的趋势。
(wind-券商行业透视)
 
▶ 示例2:A股投资者构成
 
想了解A股的投资者构成变化,就需要A股的散户比例。通过券商研报搜索,关键词“A股 散户”:
(wind 研报平台搜索)
 
从图表可以看出来,A股的散户投资者持仓占比,从2014年至今是不断下降的:从72.4%到52.5%。
(中金研报-A股投资者结构)
 
▶ 示例3:新冠疫情后各国的货币财政政策
 
想研究疫情后各国政府的刺激政策,就需要汇总各国的货币财政政策新闻。各国的政策是非标准的,动态的,没有现成的数据库可以查询,在券商的宏观周报中,往往会有政策汇总的专题。
 
以申万宏源的《宏观周报》为例,汇总了美国应对新冠疫情的2万亿财政刺激政策梳理。周报是很多券商的标配输出,质量好的可以长期跟踪,作为稳定的信息源。
(申万宏源宏观研报)
 
5. 实时大数据
 
对于动态产生的数据,用大数据爬虫的方法获取是最及时有效的。例如,在新冠肺炎后,对应急影响最大的变量就是复工率。官方统计发布的复工率往往是滞后的,研究机构往往会使用互联网的移动人口数据来推测复工率,例如:
(中信建投:复工率研究)
 
要注意的是,这样的研究结果本质是二手的数据,要获取一手数据,就要追溯到移动人口数据的源头——百度迁徙数据(https://qianxi.baidu.com/)。
 
4月8日是武汉解禁的第一天,从百度迁徙大数据可以看出武汉市人口迁入、迁出的流向和规模。
(百度迁徙:武汉)
 
网页上看到的可视化数据,难以直接作为研究用的数据。要获取表格化的数据,就需要采用Python爬虫技术了。
 
如何编写爬虫呢?这依然是一个造轮子的问题,常用的数据源在网上往往有成熟的开源代码。例如百度迁徙数据的爬虫代码,可以很容易搜索到。你需要的不是从头开始写代码,而是消化改造、为我所用。
 
更专业的代码,还可以从代码托管网站github上查找,有编程基础技能的同学应该都能搞定。例如新冠疫情的实时数据:
(GitHub 新冠疫情实时数据代码)
 
6. 外网数据
 
国外的金融事件、时政要闻,国内的二手信息往往不够可靠,必须通过外网渠道核实。例如,我们要核实著名的KKR杠杆收购纳贝斯克案的交易金额和时间。在国内某研报查到的数据是1989年、交易金额250亿美元:
(某中文研报数据)
 
通过外网原始报道(纽约时报:HISTORY OF THE RJR NABISCO TAKEOVER)核实的信息是:1988年11月30日,KKR宣称以248.8亿美元达成对纳贝斯克的收购。可见中文资讯对国外事件报道的有效性还是不够的。
(纽约时报原始报道)
 
查询外网数据,最重要的就是梯子工具,通过Google一般可以追溯到第一手的信息源,例如美联储官网、纽交所、纳斯达克官网、世界银行、IMF,以及其他权威媒体等。
 
03 总结
 
获取第一手、权威的金融数据,是高质量研究的基础。查询数据的过程,也是不断思考、分析、判断的过程。数据来源清晰、严谨是文章报告可信度的根基。
 
在数据工作中,香帅老师给我的两句指导:
 
1. No second tier material.
 
2. Check english and formal channel.
 
另外,专业的金融数据服务如wind是非常昂贵的,年费高达3~8万。对于大多数人来说,没有必要这么专业,通过财经网站和央行等官网可以查到最常用的信息。牢记一手信息、权威渠道的原则。
 
作者介绍
 
马骋:
 
香帅金融工作室研究助理,得到大学上海6期学员,前AI算法工程师。
 
文章原载于马骋观察 
 
 



推荐 60