随着大数据时代的到来,越来越多的企业开始认识到数据对于业务的分析和支持提供了非常重要的支持,尤其是金融、银行、交通运输等行业。如何更好地管理、分析这些数据?StarRocks提供了基于大数据的全场景OLAP业务,为用户提供统一的解决方案。
2023年11月17日,由StarRocks社区主办、镜舟科技协办的了StarRocks Summit 2023技术交流峰会在上海举行,本次峰会提供了40余厂的技术型演讲,多位头部企业的大数据专家在现场和大家进行深入地交流,峰会期间,我们采访了镜舟科技CTO张友东先生,和大家共同探讨基于StarRocks大数据湖仓架构的方案落地以及未来技术路线。
镜舟科技CTO张友东先生
AI时代 数据湖、湖仓一体架构同样是基石型的技术
随着AI大数据的爆火,企业开始逐步接受AI概念,认识到AI能够为企业提供更多帮助。在AI的问题上,镜舟科技CTO张友东先生是这样理解的:目前,StarRocks的湖仓产品当前还是侧重于结构化数据和半结构化数据的处理。当然,对于AI所侧重的非结构化数据处理,StarRocks也在不断提升相应处理能力。
比如,StarRocks已经开始探索现在AI大模型底层需要的向量检索类能力。目前,StarRocks社区跟腾讯展开紧密的合作,致力于在此方面取得更多进展,如果一切顺利,预计明年能够将其贡献至StarRocks社区。届时,StarRocks将在AI大模型体系具备一些基础能力。
如果要实现湖仓一体,需要解决哪些技术的一些难题?
镜舟科技CTO张友东先生表示:关于数据湖和数据仓库的选择,在进行数据分析时,通常需要在二者之间进行取舍。构建数据仓库和构建数据湖是两种不同的策略,它们各自有优势和劣势。
数据仓库发展了几十年,已经是一个广为接受的概念,并且从原来的离线数仓向现在的实时数仓演进。而数据湖的上一代经过Hadoop生态在国内普及,很多企业通过Hadoop去做数仓,然后从Hive再演进到使用Iceberg、Hudi等构建数据湖。
随着两者开始融合,企业可能会将数据统一“扔”在原本由Hive管理的大型湖中,但由于查询性能不足,需要将部分数据导入到另一个实时数仓,比如类似于StarRocks的产品,以实现对数据湖中数据的直接分析。
然而,融合虽然有望带来更灵活的数据处理能力,但也面临着一些挑战,其中最主要的挑战之一是维护复杂度。但我们认为,一体化是趋势,优点比缺点多,数据统一存储、统一分析,整个数据技术栈管理简单。而且有部分头部企业已经走在前列,做到了湖仓一体
镜舟数据库为企业数据安全保护做出重要贡献
安全方面,镜舟科技CTO张友东先生表示:整个StarRocks,包括镜舟数据库这样的企业版,都做了全链路安全方面的增强。
首先,StarRocks 3.0对原来的简单权限体系进行完全重构,在3.0支持完整的RBAC的访问权限体系,实现在湖仓一体的架构下,无论数据在哪里,都可以通过这套权限体系管理。
其次,基于这套权限体系,StarRocks3.0拓展了细粒度的行列权限控制。例如一些金融机构,数据存储的时需要存储原始数据,但是查询的时候需要脱敏,比如身份证信息。那就可以通过这种行业权限细腻度,针对某个行或者某列的数据,在查询的时以脱敏的形式呈现给用户。
最后,StarRocks 3.0还完善了与企业级权限体系的集成,包括 LDAP、Kerberos等 系统。这意味着StarRocks能够与企业现有的权限管理系统集成,为企业提供更灵活、更可控的权限管理方式。
总体来说,StarRocks在数据访问鉴权、数据存储以及中间权限管理方面构建了一套全链路的安全体系,为用户提供了强大而全面的数据安全管理能力。
镜舟为什么选择StarRocks发展商用数据库?
张友东先生指出,第 一,从市场角度来讲,现在中国数据库的TP、AP,包括NoSQL等一些细分的领域里,AP市场的成长性应该是最大的。相比北美市场,国内AP的市场占比在整个数据库领域明显较低,但是数据分析的诉求会越来越多,整个AP市场的潜在成长空间仍然巨大。
第二,StarRocks作为目前数据分析领域比较活跃,且影响力较大的项目,在国内已经吸引了许多具有重要影响力的企业,它们正在基于StarRocks构建数据分析平台。因此,无论是在用户受众还是整体发展趋势上,StarRocks在国内都表现得非常出色。
此外,镜舟在StarRocks的基础上进行了多方面的企业级特性提升,包括数据安全、集群管理、智能化诊断等方面。这些提升旨在帮助企业用户更好地利用StarRocks,提供了更全面、更可靠的解决方案。
镜舟科技在数据库市场的核心技术壁垒以及竞争优势
镜舟基于StarRocks做商业化的路上在业界的优势,最核心优势之一是其探索出来的基于用户驱动的产品迭代闭环。
StarRocks社区本身汇聚了众多深度参与用户,包括了诸如腾讯、阿里等互联网企业,以及金融机构如平安、南京银行等金融行业用户,中间还涵盖了零售、制造、游戏等多个行业。
而从业务场景来讲,互联网行业和金融行业代表了两种截然不同的用户选择逻辑。互联网用户创新力比较强,敢于去尝试新的东西,所以,当StarRocks推出新版本时(例如存算分离架构),很多互联网用户会去尝鲜,率先在他们的场景里使用这些特性去加速业务发展,并经过一段时间打磨,形成较为稳定的版本。
接下来,镜舟可以基于StarRocks的成果,将这些经过验证的特性及其他适用于企业业务、管理、协作场景的功能推广至其他行业所用,如零售和制造行业,进而到金融行业。在这个过程中,其他行业的企业也能够充分受益于这些已经经过互联网行业验证的特性,同时保证使用产品的稳定可靠。
所以,镜舟整体的产品研发过程完全是以用户需求驱动的。基于用户需求,团队不断开发新的功能特性并目标明确地确保这些特性具有领先性,要在业界拥有足够的竞争力。如果特性过于普通,很容易被其他竞争对手超越。因此,在每个特性的设计、评审、研发和测试过程中,镜舟都会以高标准要求团队。每个特性都争取做到业界领先,以确保整个商业化产品在数据领域竞争中具有一定壁垒。