怎么把工业企业数据库弄成面板数据
中国工业企业数据库的使用现状和潜在问题 聂辉华 江艇 杨汝岱 ue000 提要:在经验研究中,企业级的微观数据正受到越来越多的重视。中国工业企业数据 库成为海内外学者研究中国企业行为和绩效的主要数据库之一。但是该数据库存在样本匹配 混乱、变量大小异常、测度误差明显和变量定义模糊等严重问题,忽视这些问题可能会导致 研究结果错误。本文介绍了该数据库的基本情况和使用现状,指出了该数据库的若干缺陷, 并根据现有研究提供了若干改进建议。 关键词:企业数据 工业企业 微观计量 制造业 生产率 JEL 分类号:C33 D24 L22 L60 一、引言 数据是经验研究的细胞,因此数据质量的好坏直接决定了经验研究的活力。最近十多 年来,国际经济学界越来越重视使用微观面板数据(longitudinal micro-level data)的研究。 相对于宏观数据或行业数据,微观的企业数据或个体数据的优势是非常明显的:第一,微观 面板数据包含了更多信息,例如企业的所有制、规模和出口等状态,这些信息对于企业行为 研究是必不可少的;第二,微观面板数据同时包含了时间维度和个体维度,有助于解决计量 经济学中的个体异质性问题,更容易保证估计的一致性;第三,微观面板数据增加了观测值 个数,使得估计更有效率。对于产业组织理论、企业理论、公司金融、国际贸易、收入分配 和劳动供给等研究领域来说,经验研究的数据主要就是微观数据。 伴随微观计量经济学的引入和国内外微观数据库的开放,中国经济学者越来越重视微 观数据的开发和使用,并生产了很多基于微观数据的研究成果。一些中国数据库甚至被全世 界各国学者使用,这一方面表明中国问题越来越受到国际经济学界的重视,另一方面也表明 中国数据的质量得到了越来越多的认可。特别是,相当多海内外学者使用了“中国工业企业 数据库”(Chinese industrial enterprises database) ① ,其研究成果广泛发表在包括《American Economic Review》(如Song等,2011)、《Quarterly Journal of Economics》(如Hsieh和Klenow, 2009)和《经济研究》等国际和国内著名学术期刊上。作为一个由中国国家统计局收集的 数据库,它的优点是样本大、指标多、时间长。但是,它毕竟不是一个由学术机构发布的数 据库,因此在很多方面还不太符合学术研究的严格要求,其缺陷包括样本匹配混乱、指标存 在缺失、指标大小异常、测度误差明显和变量定义模糊等严重问题。我们认为,如果研究者 没有察觉到这些数据缺陷,并且采取有效的方法缓解或消除这些缺陷,那么就会对经验研究 的结果产生负面影响,甚至会导致错误的结果。而错误的结果对于理论研究和经验研究来说, 不仅浪费了时间和精力,而且可能会产生误导作用。鉴于此,我们认为有必要详细地、严谨 地讨论中国工业企业数据库的基本情况、使用现状,指出其存在的问题,并尽可能提供解决 问题的建议。我们希望,本文的分析不仅有助于潜在使用者了解该数据库的研究现状和未来 ue000 聂辉华,中国人民大学经济学院,人大企业与组织研究中心,北京市 100872;email: niehuihua@263.net。 江艇,中国人民大学经济学院,人大企业与组织研究中心,econjiang@gmail.com;杨汝岱,湘潭大学消费 研究院,rudaiyang@gmail.com。作者感谢何帆对写作本文提供的建议,感谢屠顺杰提供的助研工作,同时 感谢两位匿名审稿人提供的有益建议。本文的研究得到姚洋主持的国家社科基金重大项目“我国中长期经 济增长与结构变动趋势研究(09&ZD020)”和聂辉华、杨汝岱分别主持的教育部新世纪优秀人才项目的资 助,特此鸣谢。文责自负。 ① 一些英文文章将该数据库名称翻译为“China Annual Survey of Industrial Firms”或“China Annual Survey of Manufacturing Firms”。 1 本文发表于《世界经济》2012 年第5 期 方向,而且有助于他们更准确地使用该数据库,从而推进相关领域的研究。当然,作为该数 据库的使用者之一,我们并不能保证我们全面地熟悉了该数据库,并且我们对问题的分析不 可避免地包含了一定的研究倾向。 二、数据库基本信息 我们首先简单地描述数据库的基本情况。中国工业企业数据库由国家统计局建立,它 的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。该数据库的全称为“全部 国有及规模以上非国有工业企业数据库”,其样本范围为全部国有工业企业以及规模以上非 国有工业企业,其统计单位为企业法人。这里的“工业”统计口径包括“国民经济行业分类” 中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类,主要是制造 业(占 90%以上)。这里的“规模以上”要求企业每年的主营业务收入(即销售额)在 500 万元及其以上,2011 年该标准改为2000 万元及其以上。基于上述统计口径的数据库自1998 年开始采集,但多数学者使用的工业企业数据库涉及的年份在1999-2007 年之间。由于该 数据库的主要成份为制造业企业,在统计口径上与其它国家的产业分类比较一致,而且一些 变量(例如资本、研发投入和出口交货值)更容易度量,因此使用者通常析出该数据库中的 制造业企业。制造业的统计口径包括从农副食品加工业、食品制造业到工艺品及其它制造业、 废弃资源和废旧材料回收加工业等30 个大类(二位数行业),对应于国民经济行业分类与代 码(GB/T4754—2002)中的代码 13-43(没有 38)。为了保持企业样本的完整性,同时与 现有研究具有可比性,我们以1999-2007 年全部国有及规模以上非国有工业企业作为我们 分析该数据库的主要样本。 1999-2007 年中国工业企业数据库包括了 200 多万个观测值,每年的样本企业数量从 1999 年的大约16 万家逐年递增到2007 年的大约33 万家。 ① 在9 年样本期内,总共有大约 55 万家企业出现,包括上市公司。显然,这是一个巨大的非平衡面板数据。由于企业关闭、 改制、重组等各种原因,只有4 万6 千多家企业(约占样本企业总数的8%)连续出现在整 个样本期间。该数据库样本占据了中国工业企业的绝大部分比例。根据具有可比性的 2004 年第一次全国经济普查年报,当年工业企业销售额为218442.81 亿元。而中国工业企业数据 库当年全部样本企业的销售额为195600 亿元,约占全国的89.5%。 ② 目前,除了经济普查 数据库,中国工业企业数据库是可获得的最大的企业级数据库。表1 描述了1999-2007 年 企业总数和国有、集体、民营、外资企业(含港澳台企业)的份额变化。可以看出,国有和 集体企业的比例在显著减少,从1999 年的三分之二下降到2007 年的不足十分之一,而民营 企业的比例从不足 20%迅速增加到超过 70%。该表从一个侧面反映了中国市场经济结构的 剧烈变动。 表1 中国工业企业的类型、数目和比例 年份 国有 比例% 集体 比例% 民营 比例% 外资 比例% 总数 1999 52817 32.86 53507 33.29 27757 17.27 26652 16.58 160733 2000 44665 27.66 49383 30.58 39192 24.27 28240 17.49 161480 2001 36781 21.67 42528 25.06 59208 34.89 31178 18.37 169695 2002 31570 17.55 38237 21.25 75884 42.18 34208 19.02 179899 2003 25157 12.93 32334 16.62 98698 50.74 38318 19.70 194507 ① 学者们使用的该数据库可能有几个不同的来源,但是内容相差很小。 ② 经济普查的工业企业销售额来自国家统计局网站《第一次全国经济普查主要数据公报(第二号)》,工业 企业数据库中的工业企业销售额来自作者计算。 2 本文发表于《世界经济》2012 年第5 期 2004 27403 9.89 26896 9.70 165864 59.85 56976 20.56 277139 2005 18520 6.86 23875 8.84 171603 63.53 56112 20.77 270110 2006 16209 5.40 20983 6.99 202417 67.43 60585 20.18 300194 2007 11724 3.50 19355 5.78 236823 70.68 67174 20.05 335076 来源:作者根据数据库计算 事实上,工业企业数据库也是最全面的企业数据库。该数据库包括企业的两类信息, 一类是企业的基本情况,另一类是企业的财务数据。企业的基本情况包括:法人代码、企业 名称、法人代表、联系电话、邮政编码、具体地址、所属行业、注册类型(所有制)、隶属 关系、开业年份和职工人数等指标。企业的财务数据包括:流动资产、应收账款、长期投资、 固定资产、累计折旧、无形资产、流动负债、长期负债、实收资本、主营业务收入、主营业 务成本、营业费用、管理费用、财务费用、营业利润、利税总额、广告费、研究开发费、工 资总额、福利费总额、增值税、工业中间投入、工业总产值和出口交货值等指标。全部指标 大约为 130 个。特别是,2004 年为第一次全国经济普查年,因此在数据库中当年的企业指 标还包括了不同学历(研究生、本科、大专、中专、高中、初中及以下)、不同职称(技术 职称和技师等)的男职工和女职工的相应数量,此外还包括了企业是否加入工会以及加入工 会的人数等其它年份所没有的信息。 毋庸置疑,工业企业数据库的优势非常显著。第一,它的样本量非常大,涵盖了全国 所有的国有工业企业和规模以上的非国有工业企业。9 年的观测值总数超过200 万个。2006 年之后,每年的样本企业数目已经超过了30 万个。除了普查数据库,还没有哪个企业数据 库在样本量上能与之匹敌。从统计学或计量经济学的角度讲,大样本的优势是降低估计的近 似偏误,提高估计的效率。第二,它的指标非常多,包括了企业的基本情况和企业的财务数 据,能够从多个角度比较全面地反映企业的市场进入、投资、借贷、广告、研发、出口等行 为和企业的短期与长期经营绩效,并且企业加总数据能够反映出企业所处行业或地区的市场 结构。从产业组织理论的角度讲,一旦可以获得市场结构、企业行为和绩效的数据,学者们 几乎就可以进行任何主题的研究!公司金融、企业理论、国际贸易和产业集聚等相关领域的 研究者们也可以对该数据库各取所需,包括进行跨专业研究。如果将该数据库和其它数据库 合并,那么学者们将会发现更加丰富的研究视角。指标越多,在构建计量方程时解释变量和 控制变量就越多,这样可以减少遗漏变量问题。第三,它的时间序列比较长。工业企业数据 库最早的建立年份是1998 年,目前已经更新到了2008 年,前后跨期11 年。这使得研究者 采用动态面板方法具有可行性,从而有助于反映历史因素的作用,以及从动态的角度研究企 业和产业的演化过程。 相对而言,目前流行的其它几个企业数据库,例如万得金融数据库、色诺芬经济金融 数据库、国泰安上市公司数据库,样本企业都是上市公司,它们的指标更全面、准确,提供 指标的频率也更高。比如,这些上市公司数据库通常包括了主要股东持股情况、董事会成员 和高管的个人特征以及职位变动,从而可以研究公司治理结构。另外,上市公司数据库不仅 包含工业类上市公司,还包含了金融类和服务类上市公司,这也是工业企业数据库所缺乏的。 此外,一些特定的调查项目也催生了企业数据库。例如,2006 年世界银行和国家统计局对 中国12 省的1200 多家企业进行了调查,内容涉及企业社会责任、内部管理、质量管理、劳 动管理、环境管理、市场竞争以及技术改造等方面。从1991 年到2006 年,中央统战部和全 国工商联陆续对全国民营企业的经营情况进行了抽样调查,内容涉及企业基本情况、管理体 制、企业家背景以及劳资关系等方面。 ① ① 关于其它企业数据库,感兴趣的读者可以访问香港中文大学中国研究服务中心的网站。 3 本文发表于《世界经济》2012 年第5 期 三、数据库使用现状 由于工业企业数据库的独特优势,近几年来每年都有大量的海内外经济学者使用该数 据库撰写和发表论文,主题涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸 易、劳动经济学和区域经济学等学科。下面,我们简要介绍工业企业数据库在上述经济学分 支中的使用现状。一方面,我们希望这有助于感兴趣的研究人员了解人们在不同领域已经用 该数据库做了什么,还可以做什么;另一方面,我们希望这有助于感兴趣者了解现有研究者 是如何做这些研究的。当然,囿于篇幅和精力,我们不可能囊括所有使用该数据库的文献, 而是将目光聚焦于国内外的主要学术期刊或者流传较广的英文文章。 1、生产率 在所有使用该数据库的相关研究文献中,企业生产率是最受关注的主题。因为生产率 是最重要的效率度量,正如克鲁格曼(Krugman,1997)所言:“生产率不是一切,但是长 期来看生产率近似于一切。”而且,对于计算企业生产率而言,工业企业数据库提供了加总 数据所不具有的独特优势。利用工业企业数据库中提供的销售额或经济增加值(表示Y)、 固定资产(表示K)和职工人数(表示L),采取相应的价格指数进行平减,可以计算出每个 企业的劳动生产率和全要素生产率(total factors productivity,简称TFP)。鉴于劳动生产率 不能反映资本的效率,因此多数文献以TFP作为生产率的度量。又因为制造业口径与国际产 业分类更具可比性,所以现有文献在计算TFP时几乎都以制造业企业为样本。在计算TFP时, 一些学者采取了传统的索洛残差法(Solow residual),例如谢千里等(2008)、Hsieh和Klenow (2009);一些学者采取了主流的OP方法(Olley和Pakes,1996),例如张杰等(2009)、余 淼杰(2010)、聂辉华和贾瑞雪(2011)、杨汝岱和熊瑞祥(2011)、Brandt等(2012);一些 学者采取了LP方法(Levinsohn和Petrin,2003),例如周黎安等(2007);一些学者采取了随 机边界方法(SFA),例如刘小玄和李双杰(2008)。 ① 2、国际贸易 与生产率研究密切相关的是国际贸易,更具体地说,是考察企业出口与生产率的关系。 根据著名的企业异质性假说(Melitz,2003),生产率高的企业会倾向于选择出口,即生产 率和出口是正相关的。工业企业数据库包含了企业出口交货值,但无法区分一般贸易和加工 贸易企业。利用工业企业数据库,一些学者检验了这一假说对于中国企业是否成立。张杰等 (2009)利用1999-2003 年的制造业企业数据发现,出口有利于企业提高TFP,即存在出 口的“学习效应”。而李春顶(2010)利用1998-2007 年的样本发现,出口企业的平均TFP 或劳动生产率低于内销企业,他认为这是“生产率悖论”。此外,赵伟等(2011)发现劳动 生产率与出口选择是负相关的,但 TFP 有时与出口选择是正相关的。这似乎表明,利用该 数据库文献研究还没有明确地支持企业异质性假说,但 Lu(2010)对此提供了一个理论解 释。还有一些学者利用工业企业数据库做了相关的研究。例如,余淼杰(2010)发现,贸易 自由化(降低关税)会提高出口企业的TFP;包群等(2011)发现,制造业企业出口后对其 员工收入的改善并不明显;杨汝岱和郑辛迎(2011)发现行业的垂直专业化程度对企业员工 工资有差异化影响。 3、外商直接投资 中国加入 WTO 已经十周年了,外商直接投资(FDI)究竟在中国的经济发展中扮演了 什么样的角色?亓朋等(2008)利用1998-2001 年的制造业企业数据,考察了外资企业对 内资企业 TFP 的溢出效应,发现在行业内溢出效应不显著,行业间和地区间均存在正的溢 出效应。罗雨泽等(2008)使用2000 年和2002 年的制造业企业数据,发现外商投资企业对 ① 聂辉华和贾瑞雪(2011)比较了计算TFP 的几种方法的优劣。 4 本文发表于《世界经济》2012 年第5 期 本行业和本地区的内资企业有显著正的溢出效应。有趣的是,路江涌(2008)利用 1998- 2005 年的制造业企业数据,发现外资企业对内资企业的溢出效应随地理距离而递减,在本 市内溢出效应为正,在全国范围内为负,并且对国企为负,对民企为正。Du 等(2011)发 现,外资企业对内资企业的溢出效应主要是通过前向或后向产业关联实现的,横向产业关联 没有产生显著的溢出效应;而且,来自港澳台的外资企业和来自外国的外资企业对内资企业 的影响也不相同。Xu 和Sheng(2011)也得到了类似的发现。Sheng 等(2011)还发现,FDI 通过后向产业关联提高了内资企业的出口价值,通过同行业的示范效应提高了内资企业的出 口倾向。Chen 等(2011)发现,外资企业具有明显的工资溢价,并且对内资企业的工资有 抑制作用,从而加剧了企业之间的工资不平等现象。 4、研发 技术创新是企业生产率的重要源泉之一,因此企业的研究开发(R&D)行为也备受关 注。关于 R&D 的文献主要分为两类:第一类是研究 R&D 或者企业创新的决定因素,主要 是检验“熊彼特假说”;第二类是研究企业的 R&D 对绩效的影响。聂辉华等(2008)利用 2001-2005 年的制造业企业数据,分析了发现企业的研发密度(度量创新)与规模、市场 竞争之间均呈倒 U 型关系,而且尽管国有企业的研发密度比民营企业的更高,但是研发的 效率更低。Hu 等(2009)发现FDI 和企业改制对于促进企业研发密度有正面作用。陈林和 朱卫(2011)使用2005-2006 年的工业企业数据,根据国有经济比重区分行政进入壁垒高 的行业和行政进入壁垒低的行业,发现在前一类行业中创新与市场结构之间是倒U 型关系, “熊彼特假说”成立,但是在后一类行业中相反。Chesbrough 和Liang(2007)以制造业中 的半导体行业为例,发现市场导向会影响企业R&D 的投资回报,即全球市场导向的企业比 国内市场导向的企业能够获得更高的 R&D 回报。戴觅和余淼杰(2012)发现,出口前的 R&D 投资能够促进企业在出口后的生产率提高。 5、民营化 中国国有企业改革的主要成效之一,就是大量的国有企业进行了转制,即从百分之百 的国有企业变成了国有控股企业或者民营企业。这一点明显地反映在国有工业企业的实收资 本成份变化上。Tong(2009)利用1998-2003 年的工业企业数据,发现市场竞争的加剧、 FDI 集中度的上升以及预算约束的硬化是国企民营化的主要动因,而且绩效相对好的国企更 有可能民营化。Bai 等(2009)研究了国企民营化的影响,发现民营化增加了销售额和劳动 生产率,而这主要是通过减少管理费用来实现的。Dougherty 等(2007)发现,民营化通过 提高企业的赢利能力和生产的地区专业化水平提高了企业的生产率。Lu 等(2010)发现, 集体企业的私有化导致了销售成本的上升,但是也导致了管理费用的下降。 6、公司金融 由于中国工业企业数据库包含了丰富的财务指标,因此很多学者用它研究企业的投资、 融资和避税行为。Cai 和 Liu(2009)提出了一个有趣的问题:竞争是否会加剧公司规避所 得税?他们识别避税程度的方式是,比较企业报告的利润和根据会计规则计算的利润之间的 差额。使用 2000-2005 的工业企业数据,他们发现竞争会加剧企业的避税行为。Cull 等 (2009)认为,中国的银行贷款(loan)和商业信用(trade credit)之间存在一种替代关系, 业绩差的国企会通过商业信用将银行贷款再配置给企业客户,而业绩好的民营企业比业绩差 的民营企业更有可能扩展商业信用。余明桂和潘红波(2010)利用2004-2007 年的工业企 业数据发现,企业(特别是私有企业)会将授予客户的商业信用作为产品市场竞争的手段, 这验证了商业信用的竞争假说。Guariglia 等(2011)发现,民营企业的内部融资(现金流/ 总资产)是企业增长的重要约束条件,而国有企业则不受此类约束。 7、产业集聚 利用企业层面的数据,我们可以得到行业或地区层面的加总数据,这可以反映中国工业 5 本文发表于《世界经济》2012 年第5 期 的产业集聚现象。使用1998-2005 年的制造业企业数据,Lu 和Tao(2009)考察了中国制 造业集聚(用EG 指数衡量)的决定因素,发现地方保护主义(国有企业的雇佣比例)是阻 碍产业地区集聚的主要因素。另外一些学者考察了产业集聚对企业的影响。Li 等(2011) 发现产业集聚对企业规模有显著的正面影响。Lin 等(2011)发现,产业集聚和企业生产率 之间存在一种倒U 型关系。Yang 和He(2011)发现贸易通过信息和分工影 转载仅供参考,版权属于原作者。祝你愉快,满意请采纳哦
面板数据的数据包络分析一年一年做到底可不可以
要求间固定效应啦要间产虚拟变量做归啦-
基于面板数据的实证研究思路总结
1、定量分析,有经验支持和实证检验; 2、在获得截面数据的同时也要有一定的时间纵深,建立标准化的研究模型,构建稳健的评价指标体系; 3、评价方法选取方面,主观评价法有TOPSIS法、层次分析法、云模型法和整数规划模型等,客观评价法有熵权法、相关回归、因子分析和数据包络法等; 4、相对于截面模型和时间序列模型只考虑单一维度的影响,面板数据兼具横截面和时间两个维度,可以解决截面数据和时间序列数据单独不能解决的问题; 5、面板数据模型可以有效解决对象间不可观察的个体差异或者“异质性”导致的遗漏变量问题,同时面板样本容量大幅增加,与横截面相比,会明显提高估计的精确度。竞争力评价相关研究思路: 先构建指标体系(选取合适的评价指标,具有客观性以及横向和纵向可比性的关键指标;评价方法给指标赋权值;形成算法;进行评价;数据分析;模型设定;结果分析;得出结论)
求DEA数据包络分析面板数据如何做?
一年一年的做,或者你用malmquist模型,可以做面板数据的。其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作"面板数据"。但是,如果从其内在含义上讲,把panel data译为"时间序列-截面数据" 更能揭示这类数据的本质上的特点。也有译作"平行数据"或"TS-CS数据(Time Series - Cross Section)"。
面板数据格兰杰因果检验的滞后阶数怎么选?
格兰杰因果关系检验通常会涉及到滞后阶数的选择。一般来说,滞后阶数的选择需要依据实际问题的需求和数据特点来确定。在实际应用中,可以尝试使用一些经验法则来选择滞后阶数。例如,可以先进行几轮初步的分析,然后根据残差自相关函数和偏自相关函数图像,选择一个能够较好地解释残差序列特征的滞后阶数。另外,还可以利用一些信息准则,如AIC、BIC等,在不同的滞后阶数下,比较模型拟合程度和参数数目,从而选择一个较优的滞后阶数。需要注意的是,不同的滞后阶数选择方法可能会得出不同的结论,因此选择滞后阶数时应该综合考虑多方面因素,并且结合实际情况来确定。
你好,SPSS分析面板数据,怎么做聚类啊?
如果你要考虑到面板数据本身的特定 还要再进行聚类的话,spss是没法做的,因为spss无法处理面板分析。但是如果只是进行聚类的话,无论是否有时间序列因素在,都可以直接采用一般的聚类方式进行操作就可以了。实际上做聚类分析,不需要考虑面板的时间序列因素,所以你可以直接按照一般聚类方法做就好了