第一节 数据来源与处理
一 中国工业企业数据库
本书使用的数据库之一是中国工业企业数据库,是由中国国家统计局统计的涵盖全部国有企业和年度销售额超过500万元人民币的非国有企业的企业层面的投入产出数据,2011年及之后,统计企业的销售额门槛提升至2000万元人民币。该数据库报告了关于中国制造业的详细企业层面的信息,包括资本存量、就业人数、中间投入、销售收入、增加值和企业联系方式(如企业名称、联系人、电话和邮政编码)。
本书采取以下步骤来清理原始数据。第一,删除关键变量(如员工人数、销售额、总资产、固定资产净值或中间投入)缺失的观测值;第二,剔除违背会计准则的观测值,依照Cai和Liu(2009),具体包括以下几种情形:总资产小于流动资产、总资产小于固定资产合计、总资产小于固定资产净值、企业员工人数少于8人。第三,使用Brandt等(2012)公开的代码匹配随时间变化的企业名称或者代码,并为每个企业生成唯一的数字代码,从而形成面板数据;此外,由于国民经济行业标准2002年有更新,本书也使用Brandt等(2012)提供的行业对应表来统一前后两个行业分类标准。第四,本书仅保留制造业企业。
在根据以上步骤对原始数据进行清洗和整理之后,我们得到了一个1998~2013年中国制造业企业面板数据,每年的企业数量见表2-1。
表2-1 1998~2013年中国制造业企业面板数据
本书大部分章节仅使用2000~2006年的中国制造业企业数据,另有少部分章节的时限拓展到了2013年,这也是我们能够获取的最近年限的中国工业企业数据。具体地,第一、二、七、八、九、十、十一章均使用2000~2006年制造业企业数据,或者与中国海关数据库匹配后的数据,后文将介绍中国海关数据和两个数据库的匹配过程和结果。第五、六章则使用2000~2013年的制造业企业数据及其与中国海关数据库匹配后的数据。
二 中国海关数据库
中国海关数据库来源于中华人民共和国海关总署。该数据库统计了中国对外贸易企业详尽的进出口信息,包括企业信息(企业代码、企业名称、联系人、电话号码、地址、邮编、所有权性质等)、产品代码、进口或出口的数量和金额、进口来源地、出口市场、贸易方式、产品计量单位等。海关数据按月份统计,产品代码为HS 8位码。
与大部分使用中国海关数据库进行研究的文献一致,本书也将数据库从月份加总到年份层面、HS 8位码加总到HS 6位码。进一步,HS 6位码产品分类标准在2002年和2007年以及2012年分别发生了变化,而本书最长的样本期(2000~2013年)跨越了HS 6位码的1996年、2002年、2007年和2012年的四个版本,本书使用UN Trade Statistics中公布的HS 6位码行业不同版本之间的对应表,将2002年、2007年、2012年版本分别对应到1996年版本,因此本书样本期内各个年份的HS 6位码产品分类都统一为HS 1996年版本。
根据本书各个章节的研究需要,我们对海关数据库进行了差异化的处理。具体地,第五章从企业—产品—市场等多个维度计算企业出口二元边际。在该章节中,我们删除企业—产品—目的地层面上为一般贸易出口的观测值,这是考虑到加工贸易不能有效反映企业主动选择产品和市场的策略。同时,我们还剔除了中间商出口企业。Ahn等(2011)研究发现,中国的中间商出口企业的平均出口产品和出口市场种类远远大于直接出口企业(既生产又出口的企业)。中间商出口企业具有相对丰富的国际市场营销知识和经验,专注于经销或者代理生产企业的产品,产品和市场种类数往往大于生产企业,这就决定了中间商出口企业和直接出口企业具有不同的产品—市场选择策略。因此,我们借鉴Ahn等(2011)、Chen和Li(2014)等文献的做法,将企业名称中包含“进出口”、“贸易”、“经贸”、“外经”、“工贸”、“科贸”和“外贸”等词汇的出口企业定义为中间商出口企业,并将其删除。
中国海关统计数据库的可获得性有限,且可能存在统计偏误等问题,我们获取的中国海关统计数据库覆盖年份为2000~2013年。本书将基于海关统计数据库加总的全部出口额和一般贸易出口额与国家统计年鉴报告的相应指标进行比较,具体见表2-2。表2-2第(1)列和第(4)列分别报告了来自国家统计年鉴和海关统计数据库的全部出口额,2000~2011年,二者高度吻合;但在2012年和2013年,二者存在明显的差异:国家统计年鉴报告的2012年和2013年的总出口额分别为20487.1亿美元和22090.0亿美元,然而基于海关统计数据库加总的总出口额分别为25790.4亿美元和27619.3亿美元,分别高出5303.3亿美元和5529.3亿美元,这一数值分别占国家统计年鉴报告的总出口额的26%和25%。相应地,国家统计年鉴报告和海关统计数据库加总的一般贸易出口额在2000~2011年基本一致,2012年和2013年存在显著区别,后者明显高于前者。因此,本书使用的2012年和2013年海关统计数据库可能存在一定程度的统计偏误,但为了尽量保证样本期的长度,本书保留2012年和2013年的数据。值得说明的是,本书只有第五章和第六章使用了2000~2013年的海关数据库。第七章至第十一章均只使用了2000~2006年的中国海关数据库。在第五章中,我们还将详细考察和讨论这两年异常值对出口二元边际测算结果的影响,进一步分析可能的原因。在第六章中,如果只使用2000~2011年的海关数据库,该章的主要结论没有发生明显变化。
此外,表2-2第(7)、(8)分别报告了直接出口企业一般贸易出口额和占一般贸易出口总额的比例。2000~2013年,直接出口企业一般贸易出口额占比处于47.5%~79.9%,直接出口企业一般贸易出口额占比呈逐年上升的趋势(Chen和Li,2014),说明直接出口企业的地位越来越重要。
表2-2 2000~2013年中国出口额
本书绘制了基于国家统计年鉴报告的1996~2017年总出口和一般贸易出口的平均增长率、基于海关数据库计算的2000~2013年一般贸易出口和直接出口的平均增长率的趋势(见图2-1)。这样一方面,能够从更长时间段把握出口总体变化趋势,另一方面,比较本书样本期和更长时间段的出口总体演变趋势,探究本书样本期是否能有效反映中国出口整体发展脉络。
根据图2-1,可以得到如下结论。①1996~2017年,我国总出口增长率演变轨迹可以大致划分为三个阶段:第一个阶段是加入WTO前的反复波动期,第二个阶段是加入WTO后的高速增长期,第三个阶段是国际金融危机后的持续减速期。加入WTO前,我国出口面临的不确定性因素较多,出口不稳定,尤其受亚洲金融危机影响,1998年出口负增长;加入WTO后,我国适用WTO的优惠贸易政策,不确定性因素减少,出口快速增长;国际金融危机后,国外市场需求减少、贸易保护主义抬头、发达国家制造业回归等因素导致我国出口增速不断下降。②一般贸易出口和总出口增速变动轨迹基本吻合,说明一般贸易出口能较好地反映总体出口增长特征和规律,这为本书第五章使用一般贸易出口作为研究对象提供了事实基础。③除2012年和2013年外,基于海关数据计算的一般贸易出口增长率与国家统计年鉴汇报的一般贸易出口增长率也基本一致,2000~2011年呈现先上升后下降的总体变化趋势,这说明本书使用的海关数据能较好地反映我国出口增长变动特征。④2000~2013年,我国出口经历了加入WTO和国际金融危机的正向和负向外部冲击,也受到2008~2010年国家一系列经济政策的影响,我国出口在这一时期内经历了一个完整的周期,以该时期为样本研究我国出口增长动态,能较好地反映我国出口整体发展规律。
图2-1 1996~2017年中国出口年均增速趋势
第六、七、八、九、十、十一章均基于企业—产品—年份层面进行研究。中国海关数据库报告了企业—产品—目的地—年份层面的出口金额(进口金额)、出口数量(进口数量)等关键信息,这些章节不考虑目的地层面维度,因此将出口金额(进口金额)和出口数量(进口数量)分别加总到企业—产品—年份层面。基于出口金额(进口金额)和出口数量(进口数量),可以进一步计算企业—产品—年份层面的单位出口价格(单位进口价格)。
三 中国工业企业数据库与中国海关数据库匹配数据库
计算本书的核心变量——企业产品出口加成率,需要企业投入产出数据和产品贸易数据,因此必须合并工业企业数据和海关数据。中国工业企业数据库和中国海关数据库均报告了企业代码,但是二者的编码规则完全不同,因此不能作为中介变量。参考田巍和余淼杰(2013)的做法,本章使用其他企业属性指标采用序贯匹配法逐年匹配两套数据。具体分为三个步骤。第一,使用企业中文名称为匹配变量,如果同一年内,两个数据库的企业中文名称相同,即为同一家企业;第二,考虑到两个数据库部分企业中文名称缺失,以及可能存在的统计误差,本书进一步使用邮政编码和企业电话号码的后七位的组合变量作为中介,这是因为在一个邮政区域内仅有唯一的电话号码,这就能够确定为同一家企业;第三,作为补充,本书还进一步采用企业联系人和电话号码后七位的组合变量进行匹配。匹配成功的出口企业数量分别占中国海关数据库和中国工业企业数据库出口企业数量的33.1%和57.0%,出口额则分别占中国海关数据库和中国工业企业数据库出口额的47.1%和69.6%;匹配成功的进口企业数和进口额分别占中国海关数据库的进口企业数量和进口额的35.7%和38.4%。与Fan等(2015)以及田巍和余淼杰(2013)的匹配成功率基本一致。表2-3列出了2000~2006年的匹配结果。
表2-3 匹配结果
四 产品关税数据库
本书的另一套重要数据是关税数据,主要用以衡量贸易自由化程度。该套数据来自联合国贸易和发展会议(UNCTAD)贸易分析与信息系统数据库(TRAINS),从这套数据可以获取每年的HS 6位码产品进口关税(最惠国关税率)。
五 产品差异化数据
本书还有一套重要数据为产品差异化程度的数据,来自Rauch(1999)。Rauch(1999)将SITC 3位码层面的产品划分为同质性产品和异质性产品两类。同质性产品是指在交易所交易或者具有指导价格的产品;异质性产品则是既不在交易所交易也没有指导价格的产品,这类产品的差异化程度较高。Rauch(1999)在对产品进行分类时,发现某些产品既可以归为同质性产品,也可以归为异质性产品,因此提出了两种分类方法:保守估计方法和自由估计方法,在保守估计方法下,将这些分类模糊的产品全部划为异质性产品,而在自由估计方法下,则将这些分类模糊的产品全部划为同质性产品。因此,保守估计方法下的异质性产品种类数要大于自由估计方法。
根据Rauch(1999),本书根据SITC和HS之间的对应关系,获得HS 6位码产品层面的同质性产品和异质性产品分类。