聚合数据

图显示了汇总数据的基本含义,该图是单个数据的组合。

汇总数据是高级数据,通过组合个体级别的数据来获取。例如,一个行业的产出是该行业中公司单个产出的总体。总数据应用于统计数据,数据仓库和经济学。

汇总数据和单个数据之间存在区别。汇总数据是指按地理区域,按年,服务机构或其他方式平均的单个数据。单个数据是分解的个体结果,用于进行分析以估计亚组差异。

由于多种原因,研究人员和分析师,决策者,银行和管理人员主要使用汇总数据。它们用于评估政策,认识过程的趋势和模式,获得相关见解并评估战略规划的当前措施。从各种来源收集的汇总数据用于不同的研究领域,例如比较政治分析和APD科学分析,以进行进一步分析。汇总数据还用于医学和教育目的。汇总数据被广泛使用,但它也有一些局限性,包括得出不准确的推论和错误的结论,这也称为“生态谬误”。 “生态谬误”意味着用户在单个层面上得出两个定量变量之间的生态关系的结论是无效的。

申请

统计数据中,汇总数据是从多个测量值组合的数据。当汇总数据时,根据这些观察结果将观测组替换为摘要统计数据

数据仓库中,汇总数据的使用大大减少了查询大量数据的时间。开发人员定期使用的夏季化查询,例如在几个维度上进行每周销售,例如按项目层次结构或地理层次结构进行。

经济学中,汇总数据数据汇总是高级数据,这些数据由众多或其他更多个性化数据的组合组成,例如:

主要用户

研究人员和分析师

研究人员使用汇总数据来了解普遍的精神,评估社会现实和社会组织的本质,规定研究中关注的主要问题,并就社会问题的性质提供供应预测。当研究人员有兴趣调查总级别的两个不同变量之间的关系,以及聚集变量与单个级别的特征之间的连接时,对研究人员的聚合数据很有用。研究人员还努力在综合数据的帮助下评估系统的政策,实践和戒律,以研究相应的相关性功效

决策者

政府使用汇总数据来制定更有效的政策,因为它们可以衡量政府如何意识到其公民的需求和需求的能力,并衡量政府如何有效地维护社会秩序的方式。例如,世界各地的政府使用汇总移动位置数据进行分析,以响应COVID-19。总移动位置数据可以提供有关政府发起的社会距离措施有效性的见解。政府还使用汇总数据来确定可能的“热点”和传播的潜力。

除了预测政府政策的有效性外,还采用了汇总数据分析来评估性质,评估范围,认识趋势和研究特定现像或过程的模式,以设计策略,准备短暂或长期术语政策,并采取有效且相关的程序来控制或预防。决策者还利用金融汇总数据评估公司和家庭的经济和金融活动,因为这些数据有助于确定与金融稳定相关的风险。决策者可以采用汇总数据,以更好地了解一个国家的经济和财务状况的发展。

银行

银行从大量客户中收集汇总数据,然后通过消除个人信息来匿名数据。银行使用汇总数据的主要原因是估计经济趋势并获得对客户群的见解。不允许银行共享客户的个人数据,但是可以与银行的业务客户共享汇总数据,并且可以由其他合作伙伴访问,他们也使用相同的平台来获取有关汇总数据的信息。

在澳大利亚,英联邦银行为其业务客户提供了与客户交易衍生的客户有关的匿名数据。 ANZ还向其企业客户提供了匿名数据,这些数据是从数百万个商家终端交易和ANZ卡交易中收集的。

在英国,综合的紧急护理汇总数据收集(IUC ADC)提供了有关IUC活动,其性能及其服务需求的全面信息。它的数据来自负责在英格兰提供综合紧急护理服务的主要数据提供商。英格兰卫生与社会护理部(DHSC)领导下的国家卫生局(NHS)表示,这一集合数据将取代NHS 111最低数据集。它也将用作IUC统计数据的正式来源,并监督IUC ADC的关键性能指标(KPI)。

管理员

管理人员和知识分子以及关心地区或社会福利的人使用了国家或区域级别的可用经验数据。特别是,管理人员利用总数据来评估一个国家的当前政治,宗教,社会或其他氛围,以跟踪与时空有关的社会响应差距,并决定采取行动的优先级。这些评估有助于管理人员评估当前措施,这些措施在未来的战略规划中有用,并提供有关有效纠正措施的指标。

来源和收集方法

汇总数据可以是各种类型的著作和记录的组成,包括传记自传,描述性帐户和对应关系。例如,研究人员通过利用社会研究的多种机制来收集,整理或编译汇总数据,包括库存访谈,意见词表和问卷或时间表时间表。官方或非官方机构还通过利用现场级别的部门内可用的基础设施来持续收集和编译总数据。

聚合数据的来源也可以视为发现数据的工具。在美国,一些美国数据以表格的形式呈现。这些美国汇总数据来源的示例包括美国人口普查局美国统计摘要和社会探险家。国际货币基金数据,世界数据库和宾夕法尼亚州世界表是交易和国际总计数据源的示例。

使用汇总数据

比较政治分析

汇总数据用于比较政治分析,因为分析师不仅关注个人的行为。他们还专注于领域单位的行为,包括选举选区和国家。在政治活动分析中,与工业化城市化以及大众传播网络有关的重要数据不容易在个人层面上表达。它们以人均术语表示,以控制面部单位人口规模的变化。总数据可以广泛使用,因为各国收集和发布了人口统计,社会经济和政治数据。这促进了研究人员和分析师进行更长的趋势研究,并使他们能够将变化和发展带来更深的重点。

APD科学荟萃分析

包括时间,大量资源和广泛的国际合作在内的因素阻碍了单个患者数据(IPD)荟萃分析的使用,这导致大多数已发表的荟萃分析依赖于综合患者数据(APD)。为了在所有患者的所有试验中获取数据,从专业会议上介绍,在医学文献上发表或直接由个别研究人员提供的所有患者数据收集了汇总患者数据。包括Cochrane合作,美国预防服务工作队以及多个专业社会在内的用户使用了汇总的患者数据,以提供临床实践指南的支持。汇总患者数据还用于对荟萃分析的时间研究,因为结果可以告知投资者有价值的是继续进行更多基于资源密集型个人患者数据的荟萃分析。

其他用途

卫生保健

在健康信息系统中,汇总数据是与许多患者有关的数据集成。特定患者不能基于汇总数据来追踪。这些汇总的数据仅计数,包括结核病疟疾或其他疾病。卫生设施使用这种类型的统计数据来生成报告和指标,并在其卫生系统中进行战略计划。与汇总数据相比,患者数据是与单个患者有关的个体数据,包括一个人的名字,年龄,诊断和病史。基于患者的数据主要用于跟踪患者的进度,例如随着时间的流逝,患者对特定治疗的反应。

COVID-19数据存档(也称为Covid-arc)汇总了来自全球研究的数据。研究人员能够访问国际同事的发现和锻造合作,以促进与该疾病作斗争的过程。具体而言,使用汇总的医疗保健数据允许医疗保健提供者在例如临床数据或连续患者记录的透彻视图时,可以取消可操作的临床见解。

教育

在实验分析中使用了诸如学校级人口统计数据和汇总学校水平成就数据之类的汇总数据,以评估学生成就与学校级别的干预措施之间的关系。聚合数据也可以用于非实验分析,例如回归不连续性分析和中断的时间序列分析。在这些非实验分析中,不需要个别级别的数据。例如,中断的时间序列分析估计了学校级课程带来的影响,通过比较在没有必要数据的情况下启动该计划之前和之后的学校的成就。

限制

在平均某个集群或一个国家内的平均单元的过程中,信息丢失了,这增加了绘制推断不准确的可能性。信息丢失之所以发生,是因为数据的聚合忽略了单个变化,就好像它只是统计噪声或测量误差的类型一样。当使用单个公司数据或汇总数据进行分析时,推理也不同。例如,国家平均值的计算不能说明特定于公司的变量,例如公司规模,公司年龄或公司所有权集中,但单个平均值的计算确实如此。从汇总数据和单个数据产生的结果之间存在差异。

还有一个“生态谬误”的问题。这个概念是由鲁滨逊(1950)提出的。该术语的含义是,单个级别均值的变异性与包含骨料均值的变异性有显著不同。通过总体概念,表达了总体数据的单个等效物以外的其他事物,这意味着无法得出个体级别的结论。尽管总数据比单个级别的数据具有更大的适用性,但是当使用汇总数据时,研究人员对亚组结果进行分析更具挑战性。最终,也可能需要个人信息。基于聚合数据的增长建模和纵向建模也很困难,因为变量会随着时间而变化。

其他类型的汇总数据

财务汇总数据

金融汇总数据是一种关于信用和澳大利亚货币供应的汇总数据,该数据被政策制定者用于评估家庭和公司的经济和金融活动。

信用聚合

信用汇总是家庭和企业从金融中介机构借款的衡量标准。企业借入的用于包括项目投资,资产购买或现金流量管理的目的的资金还可以使用信用汇总来衡量。

货币汇总

货币汇总是银行体系的货币或“货币般”工具的测量,该工具归功于企业和家庭。 “类似货币的”工具的一个例子是存款在银行帐户中。

人口普查汇总数据

在英国,人口普查汇总数据是从英国人口普查中产生的数据。他们提供有关该国人口的社会经济和人口特征的信息。它们是对具有特定特征的个人,家庭居民或家庭数量或家庭数量的汇总或总结计算的,或者是从人,人群,家庭,健康,健康,健康,健康,健康,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭,家庭的,种族和宗教,住房和工作。

总数据用作英国人口普查输出的组成部分。它们是从人口普查回报中给出的信息的分析中获得的。人口普查汇总数据用于比较和描述英国各个地方的人口特征,因为它们能够在整个英国的一系列地理水平上提供可比的信息。人口普查汇总数据还用于学术领域,用于教学和研究目的,以及私营部门的现场位置和营销。