您现在的位置是：首页 > 大数据 >

从ETL到NoETL Aloudata实现了数据管理的自动化、智能化蜕变

2023-12-22 10:28:28作者：路沙来源：信息主管网

摘要在业务需求增长百倍的情况下，我们的数据生产力是否能同步增长百倍?显然，按照常规逻辑，这几乎是不可能实现的。在Aloudata CEO周卫林看来，为实现这一目标，需要采用全新的思维方式、新的架构和新的技术。...

　　在业务需求增长百倍的情况下，我们的数据生产力是否能同步增长百倍?显然，按照常规逻辑，这几乎是不可能实现的。在Aloudata CEO周卫林看来，为实现这一目标，需要采用全新的思维方式、新的架构和新的技术。

　　当然，采用新思维、新架构以及新技术的目的是要解决原有的，并且长期存在的数据管理及应用难题。而这一难题就是在数智化运营过程中，“用数需求”的复杂性和不确定性与实时性、高效率、低成本之间的矛盾。

　　周卫林表示，企业内部的数据需求可以分为数字化管理和数智化运营两个方面。数字化管理围绕商业模式展开，以营收等顶层指标评估为基础，主要服务于管理层的日常决策和战略制定，因此“看数需求”变化较少，节奏更为稳定。相反，在数智化运营方面，由于有众多团队和员工从事大量短周期的微决策运营工作，从而导致“用数需求”不仅充满不确定性，对实时性的要求也更高。

现有的ETL工程体系将不可持续

　　“同一个指标，在管理层看来很直接，但当它到达业务运营层面时，会引起分析师和业务人员的广泛数据需求，产生新的数据链路。这个链路涉及到创建大量宽表和汇总表，以满足用户的具体需求。随后，还将引发更多的明细层数据的建模，以及更多数据源的引入，从而形成一个复杂的需求网络。”周卫林说道。

　　从ETL(抽取、转换、加载)的角度来看，如果每一条数据链路都代表一系列的ETL研发作业流程，而每个研发作业流程都代表着数据的搬运和处理过程。随着数据的实时更新，不仅会涉及大量的数据搬运和处理工作，还会使得每个任务都将经历排期、研发、测试、上线发布等复杂步骤，从而影响整个链路的开发和优化。

　　不仅如此，我们还将面临技术成本的失控和数据目录失真的挑战。“当业务从数字化管理转向数智化运营的过程中，我们通常会面临数据源、数据需求和用数人群的快速增长。这意味着ETL作业数量将会呈指数级增长。然而，尽管需求在快速增加，但我们招聘的ETL工程师数量却有其限制。同时，ETL工程师个人可以管理的任务量和处理系统复杂度的能力也是有限的。因此，在这样一种看似不可调和的矛盾下，如何凭借有限的能力处理更多的事务，就成为一个巨大的挑战。而这种挑战也预示着现有的ETL工程体系将不可持续。”周卫林如此说道。

　　对此，Aloudata产品负责人肖裕洪也表示，Aloudata的初衷其实很简单：业务部门需要数据，必须通过ETL过程来交付，这导致ETL团队不得不长期加班，且满意度极低。因此，Aloudata认为要从ETL的泥潭中爬出来的唯一途径，就是让那些重复性低价值的工作被自动化替代，从而减轻企业负担。

　　此时，就会涌现出一种典型的思考方式：既然传统的模式，即依靠ETL工程师驱动的模式是不可持续的，那么是否存在一种无ETL的新模式可以替代它?答案自然是肯定的，而求解的方式将由Aloudata向我们娓娓道来。

让NoETL不再是奢望

　　从ETL到NoETL，看似简单的解题方式，其实内在则有着极大不同。

　　毋庸置疑，NoETL的模式旨在寻找一种不再依赖于传统ETL工程师驱动的方法，从而实现数据生产力的可持续和大规模增长。从需求端来看，传统的数据工程体系在满足管理层需求时可能表现良好，但对于底层业务人员而言，他们需要的其实不是报表，而是多维度、细粒度、口径明确的指标。因此，企业需要一种全新的交互界面，在该界面上，用户不需要知道表存放的具体位置，只需要清楚理解指标口径以及指标的准确数值即可。

　　同时，企业还需要一种全新的数据集成方式，进而找到一种快速完成数据集成和自动化构建ETL链路的新方法，进而能够大幅提高数据准备的效率。此外，还需要一种基于主动元数据驱动的数据管理模式，以及一套能够感知当前系统状态的精准的元数据系统。“我们通过数据语义引擎提供全新的交互界面，通过数据虚拟化引擎实现逻辑数据集成与自动化构建ETL链路，通过主动元数据引擎实现数据治理的辅助驾驶。这三个技术引擎是我们最核心的技术创新与突破。”周卫林如此说道。

　　周卫林进一步表示，Aloudata设计的NoETL模式可以充分利用企业现有的数据湖、数据仓库和其他数据源，盘活全部数据资产，实现平滑升级，而不是完全重构。通过这一全新的架构，将能够消除传统数据工程的障碍，例如繁重的管道、运维任务和高企的预计算成本，同时提高效率和生产力。从实际的业务效果来看，一方面能够缩短需求交付周期，从按月或按周交付变为按天或按小时交付，另一方面，能够将存算成本和人工工作量降低70%以上。

让核心技术具象化

　　正如周卫林所说，数据语义引擎、数据虚拟化引擎以及主动元数据引擎，是Aloudata在探索实现NoETL的过程中所积累的三大核心技术。而基于这三大核心技术，Aloudata又通过具体产品的形式，将Aloudata的技术优势进行了场景化、具象化的延展，使其能够真正贴近业务需求，解决企业的实际业务难题。

　　“在全新的架构下，我们推出了三个主要的产品：Aloudata AIR逻辑数据平台，主要负责多源异构数据的整合;Aloudata BIG主动元数据平台，拥有算子级血缘解析能力;Aloudata CAN自动化指标平台，负责指标定义、管理和系统自动化开发。”周卫林如是说。

　　具体来看，Aloudata AIR是国内首个基于Data Fabric(数据编织)架构的逻辑数据平台，能够实现多源异构数据的虚拟化集成。这种方式类似于淘宝模式：数据源就像是不同的商家，而我们的平台则像是淘宝，提供了一个集中的购物平台。此外，Aloudata AIR还通过自动化链路编排和智能查询下推技术，实现了自适应的查询加速，提高了处理效率。同时，通过提供统一的安全管理界面，进一步强化了数据的合规管控。

　　关于Data Fabric，肖裕洪也谈到了自己的个人理解。他认为，依托Data Fabric，无论数据存放在哪里，无论其格式如何，当企业需要时，系统都能够在正确的时间向正确的人提供正确的(即质量有保障的)数据，从而让数据安全、规范地流通。总体来看，Data Fabric为我们提供了一种新的数据管理模式，它通过逻辑化集中、动态集成、智能治理和增强型数据目录，实现了对数据的更高效、更智能的管理与应用。

　　以在某证券企业的成功实践为例，他们不愿意使用传统的数据湖仓架构，因为这种方式对开发人力投入的要求过高，维护负担较重。转而采用Aloudata AIR平台构建逻辑数仓之后，他们实现了数据的逻辑集成和自动化ETL流程，大大降低了数据工程的人力和成本投入。

　　Aloudata BIG是一个拥有算子级血缘解析能力的主动元数据平台。关于什么是算子级血缘解析能力，周卫林解释道，企业中存在着巨量数据，同时伴随着一系列问题，如数据交付缓慢、难以管理、难以理解、难以治理等。要解决这些问题，就需要更精细的管理能力。Aloudata BIG的目标是通过算子级血缘解析，看清楚线上SQL代码逻辑，从而实现真正实时、精准的数据理解和更高效的产品应用。

　　周卫林用一个形象的比喻说明了算子级血缘解析能力的优势所在。他表示，传统的地图可以查询到建筑物级别的精度，类似于表级血缘。但在导航时，这样的精度可能无法找到某个人具体所在的房间。算子级血缘解析在深入理解代码逻辑的基础上，能够精确到具体位置，找到特定的人。

　　Aloudata CAN是一个全新的自动化指标平台，用户在这里定义指标，定义完成后，系统自动进行指标开发。这意味着，定义即生产，定义即服务，定义即管理，无需额外的开发和发布工作。这样，就实现了指标的一致性，并解决了口径不一致和指标不能充分复用的问题。

　　周卫林表示，在传统的指标平台中，指标管理面临着诸多挑战。例如，ETL工程师开发数据表，然后利用BI工具为业务指标配备度量和维度。但这种物理指标的生产依赖于数据工程，而指标的定义则又在BI工具内，这两者之间往往难以统一和复用。此外，如果通过建立指标管理平台进行指标的注册和管理，再由IT人员进行开发，也会面临指标管理和实现之间的脱节，以及工程师在理解和编写代码时产生偏差的问题。

(本文不涉密)
责任编辑：路沙

上一篇：第三季度全国规上工业企业利润同比增长7.7%

下一篇：邬贺铨：数据先行区应建立高质量国家级重要领域基础知识库、数据库、资源库