2024-05-23

江南体育官网下载·我们日常生活产生的庞大数据去了哪?一文解析大数据背

返回

发布时间:2024-10-15 11:29:03 来源:江南官方网站下载 作者:江南app官方网站


  探讨了最新科技领域的突破性进展与应用,分析了顶尖创业公司的产品力创新,分享了不同领域优秀的创始人们对于商业科技的思考与认知,来自投资人的视角:如何宏观地看到投资的趋势,如何微观地判断企业的潜力?

  《投资笔记》播客第二季正在更新,如果你也对科技的发展抱有强烈的好奇心,对在商业世界中开疆拓土的故事充满热情,希望自己对这个世界的认知又变得更加深刻与宽广一点点,那么不妨打开电台,听一听我们为你带来的科技与商业世界的信号与电波,在小宇宙、喜马拉雅、苹果播客、Google Podcast等泛用型客户端搜索“投资笔记”即可收听。

  一次网页点击、 一条社交媒体互动、 你在路上遇到的某次交通堵塞、 工厂生产线上每分钟传送的货, 这些构建了我们生活的日常, 而这些也都是「数据」。

  你可能听过 「数据库」的概念,但面对大量的无形的数据,这个「库」到底意味着什么?如果我们把数据比作「车」,那么作为「停车场」的数据库,要如何用更高的分配效率,把不同的车型、不同尺寸大小的车,以性价比最高的方式分类停放?在数据库已经无法满足人们的全部需求时,由此诞生的数据仓 库、数据湖、湖仓一体又要如何理解?

  今天,全球数十亿人在同时生产数据,每个人本身都是一个数据生产者。通过言语和行动,我们不断创造数据。

  观察当下数据产生的主要行业,可以发现,除了汽车、证券公司和银行等大家较为熟悉的行业外,还有其他领域可能会因数字化或数据的影响而遭到颠覆。特别是随着人工智能生成内容(AIGC)技术的兴起,文本和图形制作行业不仅可能会被AIGC颠覆,而且有可能变成一个巨大的数据平台,这为该行业带来了前所未有的机遇。

  这是喻思成。他身上有诸多光环——前甲骨文大中华区技术总经理,负责阿里云全球化业务的阿里副总裁......在2021年,他开始了下一数据平台创业,成立了云器科技。撇开这些头衔,喻思成还是云计算、数据库和大数据行业的资深专家。

  如果说,早前他的履历集中在云计算的应用层面,那么这一次创业,他更关注的是更「普世」的、云计算的底层逻辑,也就是所谓的Data Infrastructure。

  数据平台是由一系列工具组成的集合,为数据工程师或业务分析师提供处理数据的基本工具。这包括数据采集、数据集成、数据加工、数据分析以及数据开发等环节。此外,还需对这一系列工具进行监控。显然,这一过程需要一些专业技术手段的支持。当这些工具集合在一起时,它们共同构成了一个数据平台。

  大约二三十年前,随着数据仓库的出现,许多专业人士阅读了关于数据仓库的初期文献。例如,泰瑞data 专注于数据仓库的开发,但那时主要还是关系数据库管理系统(Relational Database Management System, RDBMS)的时代。

  因此,像 Oracle 这样的数据库厂商能够扩展其能力,开发自己的数据仓库解决方案,这标志着数据平台的第一代。随后,开源软件开始逐渐兴起。数据仓库面临的主要问题是,当处理大规模数据时,成本会线性甚至是抛物线式增长。

  数据库是一个相对容易理解的概念。我之前在 Oracle 工作,这是全球最领先的数据库公司之一。我们将数据库称为关系数据库管理系统(Relational Database Management System, RDBMS),这是基于一个天才人物的发现:用表格型的东西来管理数据,会使得它极其易于管理。这与我们使用 Excel 的方式非常相似,尽管 Excel 是一种更简单的格式。当数据量增加到一定程度时,需要使用专业工具进行存储,并且可以随时查询数据。

  传统的数据库通常被用于事务处理(Transaction Processing),即能够立即访问的交易类型。这类数据库的数据量通常不大,例如一个会员数据库,但它必须支持在多人交易的情况下进行高并发的小查询,并能够以非常快的速度提供信息。

  数据库提供的主要是「查询」功能,应用于基本的、日常的事物处理。以银行系统为例,客户在银行做的每一笔交易都可以被数据库记录,也可以简单理解为用数据库来记账。由于银行的交易量巨大,数据库通常存储的是当前的、最新的数据。

  而数据仓库是什么呢?在银行的案例里,它更像是一个分析系统——从数据库里获取数据再汇总加工,比如某个分行在某段时间里发生了多少笔交易,当前存款和消费交易每月有多少,并且为银行提供决策依据——比如,某个地区的分行需不需要设立更多ATM机?

  后来,人们开始想,除了实时交易的处理,我们还需要事后进行分析。这就是我们所说的分析过程(AP),意思是晚上下班后,我要回顾一下今天都卖出了什么,卖了多少。然后,就把事务处理(TP)数据库里的数据导入到一个更大的数据仓库里去。

  为什么叫作仓库呢?因为它真的很像一个仓库,就是把所有数据都存储起来,而且这些数据不仅仅来自我们之前提到的会员数据库。数据仓库将各种数据汇集在一起,进行度分析。

  在这个过程中,会用到各种技术,比如雪花模型等等。然后开始分析,数据要经过层层加工,最后变成业务人员也看得懂的报表,比如销售量,或者当你点击某个SKU时,能看到它的库存是多少。库存数据就不是来自我们之前说的交易数据库了,可能是来自库存数据库。业务人员可以顺藤摸瓜,不停地点击进行分析。它的特点是数据量很大,但并不要求实时反馈。比如,如果老板能在第二天早上8点看到报表,那么数据就可以在夜间慢慢处理。这就是数据仓库的概念。

  数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源和决策需要而产生的。在此之后,又诞生了「数据湖」的概念:

  数据湖的关键点在于,以前我们往数据仓库里放的都是经过精细处理的数据。就像我们在仓库里上架商品,需要非常准确地找到合适的货架位置,把它摆放好。这样,站在货架前一看,就能清楚地知道这个商品卖了多少。再从上往下看,就能清楚地看到在这个时间段内各个SKU卖了多少。这些数据是被仔细摆放和处理过的。但是,当数据量非常大的时候,你就没有那么多时间去事先精细处理它,也不确定最后业务人员需要什么样的报表。

  关键在于,你现在往仓库里送的都是原始数据,这些数据可能是半结构化的。比如说,客户在你网站上的一系列点击,产生的都是节省空间的半结构化数据,或者他们上传的各种图片和评论都是文本形式的,这些都不像传统的关系数据库管理系统(RDBMS)那样,有着严格规划的字段。

  那这个时候怎么办呢?你想的是,不管数据是结构化的还是非结构化的,只要能把它存到数据仓库里就行了,其他的以后再说。

  因此,数据湖的概念就出现了。数据湖特别适合处理AI模式,比如说,根据用户之前的点击日志,制作一个机器学习模型,这样就可以预测用户下一次可能会买什么。这是一个非常典型的机器学习过程。

  对人来说,这个过程并不难。如果你站在柜台前一个月,你大概就能知道白发人士喜欢买什么,黑发人士喜欢买什么。但对机器来说,它需要一段时间来学习,不过它也能慢慢学会。这就是最典型的例子。很多时候,AI就是基于数据湖来进行的。

  数据库、数据仓库、数据湖的诞生,一方面得益于技术的演进,而另一方面,它们之间也并不是互相替代的关系,更多是基于企业的不同需求而诞生的产物。这背后有几个关键的事件节点:

  1988年,IBM的研究员提出数据仓库的概念,而1991年,一本《构建数据库仓库》的出版奠定了数据仓库的正式开端。到了1993年,研究人员发现数据库常用的OLTP、也就是联机事务处理的架构,已经不能满足终端用户对数据库查询的需要,提出了OLAP、也就是联机分析处理的概念。

  传统的数据仓库时代,数据处理的硬件一般是采用小型机,计算能力的扩充通常采用的是Scale up方式。但是到了大数据时代,数据的规模已经不是单台机器通过扩充硬件就能解决的了。数据仓库的特性也决定了,当数据规模越来越庞大的时候,它的成本也直线上升。

  下一个行业的革新者是Google。2003年到2006年间,Google的三篇论文奠定了大数据的技术基础,标志着“大数据平台”的诞生,甚至即使是如今,这三篇 论文背后的技术架构,都还被称为Google的「三驾马车」,在大数据、云计算甚至AI的发展里都有相当重要的地位。

  比如其中一篇论文里提到的MapReduce,它是一个针对大规模群组中的海量数据、进行处理分析的分布式编程模型;能将大数据标 准化处理,简化成map和reduce两个流程,让使用者可以用很简单的接口、实现大规模的分布式计算。

  所以,当Google发布了几篇论文,公开了它们管理数据的方法之后,人类就进入了一个新的时代。这意味着现在可以使用非常便宜,甚至是非专业化的x86机器,来搭建一种分布式的、可扩展的、非常大规模的数据处理平台。

  包括MapReduce和HDFS文件格式,这些技术开始成为一段时间内业界的标准。随后,出现了许多像Hive和Greenplum这样的数据仓库软件。

  再往后,我们进入了云计算的时代。你会看到每个云服务提供商都开始提供一些基础服务,通常被称为“四大件”:虚拟服务器、存储服务、负载均衡(SLB)和内容分发网络(CDN),以及其他搭建应用所需的基础组件,包括云数据库。

  当这些应用在云上搭建之后,它们就开始产生数据。这些数据是真正的云原生数据,最终需要像传统应用产生的数据一样被存储和分析。

  这包括不仅限于结构化数据,还有大量的非结构化数据,如日志、图片等。这些云上产生的数据需要一个地方进行存储和处理,于是数据平台应运而生。

  在早期,可能只有大型企业如电信公司和银行能够投入数千万建立自己的数据仓库。但随着Hadoop等平台的出现,即使是几十人规模的公司也能够使用开源的数据平台进行基本的数据服务。到了云计算时代,即便是两三人的创业公司也可以直接在云上购买所需服务,因为成本非常低。

  公有云的成熟和普及,让这些原本属于大公司的数据服务,对那些预算不足的中小型公司也敞开了大门。在此之前,一个企业想要构建自己的数据平台,需要投入高昂的硬件、软件和人力成本,还需要拥有一个专业运维团队来保证自己数据中心的正常运营。

  而「降本」这件事只是云的价值之一。它更深远的价值在于,能让初创与中小型企业在很早的阶段就享受科技的便利,探索更多创新的可能。

  云计算,就像水和电一样,确实降低了成本,但它的价值远不止于此。想想给手机充电,一年也花不了多少钱,对吧?如果人们线块钱,那他们可能根本就不会使用手机。实际上,手机一年内为我们创造的价值与这点电费根本无法比较。它为我们打开了一个五彩缤纷的世界,让我们能够做到以前完全不可想象的事情。

  对于企业而言,使用云计算包括了新闻服务、SaaS服务、数据平台这样的PaaS服务,以及可能使用的其他SaaS服务。

  无论是SaaS服务,如OA、ERP、CRM,还是PaaS服务,如数据平台,我们之前提到过的那些可能需要千万级投资的事情,企业现在可以在很早期就开始组织自己的业务。对大型企业来说,节省的不仅仅是成本,也不仅仅是早期就能享受到便利性。更重要的是业务创造力,很多以前不可想象的场景现在变得可能。即使你有钱,有一个强大的IT团队,但相比于云计算的能力和灵活性,还是有所不足。

  确实,一个企业不可能同时自建数据平台、ERP系统和CRM系统,而应该集中精力于自己最擅长的领域,继续推动业务创新。如果能够利用世界上最先进的技术来构建自己的技术和业务应用,这无疑是企业应该追求的方。


江南体育官网下载


TAG标签耗时:0.0024280548095703 秒