当前位置:首页 期刊杂志

小米:数据+AI赋能,打造业务新形态

时间:2024-05-20

程梦瑶

“融汇全景数据,赋能核心业务”,这是小米大数据团队成立5年来,对自身定位的一种诠释。通过业务与技术的双轮驱动,依托小米多维度的产品矩阵,小米不仅打造了基于核心业务的大数据体系架构,更不断赋能小米生态链企业。

国际化、新零售、生态链三驾马车助力小米业务蓬勃发展。如今的小米不仅仅是国内声名在外的移动互联网公司,同时也是一家智能设备公司,更是一家大数据公司。小米“铁人三项”(硬件、新零售、互联网)战略,都离不开大数据的支持。

2014年底,司马云瑞加入小米公司,并从事大数据相关的研发工作,此前他曾在微软工作了十年时间。“最触动我的,是小米在大数据领域的机会。”在小米大数据负责人司马云瑞看来,小米拥有超过5亿台生态链联网设备,这些设备为小米提供了源源不断的数据,加上各种互联网服务中汇聚的海量数据,构成了小米进行数据应用和数据驱动的基石。

从用户画像到虚拟大脑

自2010年推出MIUI以来,小米生态圈逐步趋于完善。“我们有很多自研应用,而要想进一步提升用户体验,我们就需要更深入地认识和理解用户。因此,我们需要用户画像,这就是小米大数据的雏形。”司马云瑞谈到。

用户画像是通过对用户的社会属性、兴趣属性、生活习惯和消费行为等信息进行分析挖掘,从而抽象出的一种标签化的用户模型,它可以完美地展现一个用户的信息全貌。因此,可以看做是企业应用大数据的根基。构建用户画像,多维度地描绘用户,并实现精细化、精准运营是小米大数据团队的主要职能之一。

“用户画像是我们整个数据体系中的核心,把用户画像做好实际上是向公司证明,数据可以发挥价值。最直观的一个方式就是,各个业务线都可以通过用户画像提升用户体验。”司马云瑞介绍道,小米的用户画像经历了三个阶段的发展—从最初以预测和统计规则为基础的用户画像1.0阶段,到基于行为的事实标签、更加精细化的2.0阶段,再到提供即时、个性化的标签、行为、场景和意图预测的3.0阶段。基于小米全生态、多维度的数据资产,小米大数据团队构建了丰富的用户画像体系,在业务运营、广告、互联网金融、新零售等各个领域都发挥了重要作用。

用户画像帮助小米实现了对用户的深入洞察。随着业务规模的扩张,截至上市前小米MIUI全球联网激活用户已超过3亿,MIUI月活用户已超过1.9亿,客户群体不断在普罗大众中延展。

通过对用户群体的深入洞察,小米将公司使命定位为坚持做“感动人心、价格厚道”的产品,让全球每个人都能享受科技带来的美好生活。这种定位非常契合目标人群内心深处的核心需求。

“对我来说,做用户画像就要把用户的标签做准,还要把实时场景做好,从而实现智能化。我希望我们的画像能够为用户、为产品提供建议,而不只是冷冰冰的数据。”在司马云瑞看来,小米用户画像最终的目标是开发虚拟大脑,让小米为用户提供的每一次服务都变成智能化和个性化的。

业务与技术双轮驱动,打造大数据架构

“小米拥有非常丰富的数据来源,这些数据催生了我们的大数据平台。我们用一种很好的方法把这些数据治理好,让其他业务团队可以访问这些数据,这也是小米做大数据的驱动力之一。”司马云瑞如是说道。

在公司大量业务的驱动下,小米大数据打造了属于自己的大数据平台体系架构。和很多公司类似,小米的大数据框架也包括数据采集、存储、管理、分析、算法和可视化等,但不同之处在于,面对小米“全生态、多样性”的海量数据,小米大数据架构旨在从一致性、效率、可控和创新四个方面着力。

当数据混乱且随意时,需要分层治理,降低使用门槛,避免数据孤岛,解决数据一致性的问题。“数据有时候会出现不一致,各自搭建的服务接口都有自己的服务逻辑,很可能造成数据服务质量的差异性。几十个服务接口,该如何保证服务的可用性,确实是一个很严重的问题。”司马云瑞谈到。

另外,小米大数据架构体系也从提升业务接入效率、数据服务开发效率、数据查询性能、数据分析效率等方面入手,解决了数据处理效率的问题。同时,在质量、可控性和合规性方面,小米也十分谨慎。“隐私是企业的生命线,小米严格遵从欧盟GDPR法规(欧盟《通用数据保护条例》)等相关隐私保护法规,保证100%合规。”司马云瑞补充道。

在创新性方面,小米通过打通全景数据,开发横向工具,推出了一系列创新性的数据产品。对此,司马云瑞也介绍了小米大数据在新零售方面的创新实践。“我们对新零售的关注点是要打通线上、线下的数据,提升效率。针对新零售我们做了两件事:

第一,我们基于小米的大数据和人工智能技术,为小米的线下零售体系建立了一套风险控制模型。

第二,我们为每一个线下商户和加盟合作伙伴开发了信用體系,有了这套信用体系我们就可以数字化每家商铺的经营和合规情况,并可以基于信用等级进行个性化、自动化的运营。”司马云瑞谈到。

“数据一致了,数据质量提高了,数据服务的能力也提高了,同时,我们还会在这些数据服务上做大量的优化,比如我们自研了一套代号为UnionSQL的解决方案,其目的是汇总公司所有类SQL的查询,进行自主优化。”司马云瑞补充道,业务对数据的查询需求有很多种,UnionSQL将不同的查询方式封装起来,业务人员只需要通过SQL语句就可以直接调用,极大地提升了开发效率,并降低了学习成本。“更关键的是,由于有了这个数据服务的唯一接口,我们就可以通过自动缓存(比如Kylin等)和机器学习来优化慢查询,所以我们的整个查询速度会越查越快。”

数据驱动,效率优先

小米丰富的数据可分为“被动数据”和“主动数据”。“被动数据”是指用户身边所处的环境信息,比如天气、湿度、交通等数据。而“主动数据”是指用户主动获取信息时所产生的数据。小米拥有20多款手机内置应用以及近300款智能硬件,通过这些终端设备,小米抓取了庞大的“被动数据”+“主动数据”,形成了在大数据上的独特优势。

“我们猜测在未来,得益于机器学习、深度学习以及统计分析技术的发展,大量的重复性工作将会被替代。所以我们大数据团队的思考重点,就是如何将重复性劳动通过大数据的方法来解决。”正如司马云瑞所言,以机器学习、深度学习为基础的人工智能技术,将成为数据驱动的重要组成部分。

“我们将数据驱动分为四个层次,辅助层、智能层、创新层、颠覆层。我们在最靠下的辅助层上尝试运用了众多人工智能技术,我们将商业化数据分析过程通过算法进行了自动化智能归因。辅助层之上是智能层,目前越来越多的业务,包含推荐和商业产品等业务都在使用我们的机器学习算法来提升运营效率。接下来是创新层,一方面要创造一些新的业务形态,另一方面我们希望把小米的大量业务,依靠大数据的方法进行整合,重构业务流程,提升业务效率,因为从本质上讲,商业竞争就是效率竞争。最上面的是颠覆层,小米正在尝试借助人工智能技术来颠覆某些行业。”司马云瑞谈到。

对小米而言,发展大数据不仅仅是把数据收集起来,而是要想尽一切办法使数据发挥出自身的价值,这也是小米大数据团队的职责所在。

访谈实录:

Q:中国大数据产业生态联盟、《软件和集成电路》杂志社

A:小米大数据负责人司马云瑞

Q:小米大数据团队主要在做哪些事情?

A:小米大数据团队主要在做三件事:第一件事情是数据治理。数据治理包含了数据收集、存储、管理等工作,它主要承担的是平台化、工具化和管理职责。我们希望把数据分层管理起来,这个有点类似于数据仓库的分层结构。第二件事情是用户画像。用户画像其实要把关键数据做好,小米是一家2C公司,对我们来讲用户是最重要的。所以用户画像是我们整个数据体系的核心。

用户画像怎么做呢?我们从一开始的标签化、行为化到智能化,有一个三步走的体系。第三件事情是数据驱动,也就是如何发挥我们的数据价值。我们把数据驱动分成了四个层面,包括辅助层、智能层、创新层和颠覆层。每个层面实际上都有一系列的产品以及工具来进行辅助开发,这是我们整个研发工作的思路和节奏。

Q:如何理解AI赋能?

A:关于AI赋能,我会从两个方面来看,第一个方面是C端,第二个方面是B端。两者的关注点和目标是不同的,对于C端来讲,AI赋能更多的是在体验上,我希望用户体验更好。

比如,小爱同学很明显就是一个AI赋能的例子。现在可能看到的小爱同学是一个语音交互系统,实际上它的背后是一个虚拟助手。这其实都是在感知层的赋能,而在认知层上,我们的知识图谱帮助用户回答问题,也在逐渐开始发力,这是可以看到的明显趋势。关于B端的AI赋能,我的理解是这样一句话,叫做商业竞争的本质其实是效率的竞争,所以在B端我更看中的是效率问题。

Q:小米大数据如何赋能生态链?

A:小米大数据的部分技术能力目前已经在赋能小米生态链企业了。小米公司對小米生态链企业提供了大量支持,比如设计、供应链、渠道、品牌,以及各种基础设施资源。其实小米从最初生态链模式刚起步时,就一直在把公司内部的各种能力输出给他们。现在我们的用户画像其实也是对小米生态链企业提供服务的,而且我们也有计划把数据工场、数据智能决策平台、异常监测平台等解决方案,逐渐对小米生态链企业开放。

行业应用案例

案例名称:借助UnionSQL解决方案全面提升数据查询效率

核心特点:

小米大数据承担着整个公司的数据治理工作,倡导利用数据金字塔的理念梳理各业务线数据,并通过一站式的数据平台更便捷地实现数据的收集、存储、访问。

此外,借助用户画像平台、智能分析系统以及UnionSQL解决方案等一系列的数据产品与服务,小米大数据得以大幅改善公司在数据处理、查询、挖掘等方面的速度与效果,在手机、金融、新零售、品质等领域的核心业务上实现了全面赋能。

应用解读:

数据分析师在为业务管理者提供决策支持时,需要从多个维度分析业务数据,从不同角度衡量业务指标,而这就必须进行多维联机分析处理OLAP。以往的OLAP面临着四个痛点:

1.查询模式多。不同业务团队,和同一个业务团队在不同时期,对于数据分析的需求都不尽相同。查询数据的实时性要求,时间跨度,聚合粒度,涉及的维度和指标都在不断变化;

2.门槛高。不同的查询模式,需要采用不同的技术架构,因此这就需要数据分析师将多种引擎的查询方法,并将结果手动合并;

3.速度慢,更新慢。复杂查询耗费的时间、资源都很多,查询速度会被拖慢,但业务现状却要求立刻得到数据,从而出现矛盾。此外还有数据新鲜度低的问题,很多数据并不是实时数据,无法实现分钟级延迟的数据查询。这些因素都会降低业务运营效率;

4.数据质量问题。由于数据流的复杂性,很难保证所有数据统计口径的一致性,也无法及时发现并修复数据量、数据分布的异常变化。

而UnionSQL解决方案,则能很好地解决上述四方面的挑战,大幅改善数据查询效率,满足苛刻的业务需求,更好地通过数据驱动业务发展。

应用价值:

UnionSQL解决方案,通过技术手段有效提升了公司业务团队在进行数据查询时的体验,有针对性地帮助多项工作流程变得“更快、更好”。具体来说,UnionSQL的优势主要体现在以下五个方面:

1.上手快。数据分析师不再需要熟悉底层查询引擎,直接使用SQL语法就能自动完成SQL解析、重排、分发以及结果合并。此外还内置支持Lambda架构,及多机房查询;

2.更新快。基于小米数据流服务、ES/Kudu等多种引擎以及Lambda架构,可以实现分钟级数据延迟;

3.查询速度快。基于Kylin等OLAP引擎,通过与计算等手段加速常见查询模式;

4.越用越快。随着使用量的增加,系统会识别查询是否需要切换计算,以及在现有引擎中需要如何进行优化。

例如:通过语法解析,发现多个部门都在使用同一份公共数据来统计运营效率。于是在系统的建议下,工程师为该数据构建Kylin Cube,从而使得业务方从查询Spark SQL切换为查询Kylin,查询速度得到大幅优化。

在整个切换过程中,系统将基于用户历史的Spark SQL查询/Hive SQL查询,提供Cube构建推荐设置,让用户可以自动化、无感知地完成迁移;

5.数据血缘与数据质量监控。系统基于对数据全生命周期的数据分布、总量的监控,能极大地提高MTTD/MTTR。当某个阶段发现数据错误时,会及时报警,避免浪费资源进行下游作业计算。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!