大数据的价值挖掘与联想研究院的探索实践

百度首页

近年来，“大数据”一词被广泛提及，人们用它来描述和定义信息爆炸时代产生的海量数据。根据研究机构高德纳（Gartner）的定义，“大数据”是海量、高速、多样化的信息资产，它需要有效创新的信息处理模式才能产生对事物的洞察分析、帮助制定决策和促进流程优化。这个定义揭示出大数据是一种资产，但这个资产的价值不在于庞大的数据量本身，而在于对这些数据进行分析处理，发现数据中潜在的规律，从而创造价值。

大数据在医疗、商业、金融、政治事件以及企业生产和运营中凸显了巨大价值。随着信息化和数字化系统的部署，生产制造类企业逐渐积累起产品相关的全流程、全生命周期的数据和信息。通过对这些数据进行整合、分析、处理，可以有效帮助企业决策、节约成本、创造价值。联想公司是全球电脑市场的领导企业，具有全球领先的超算构建能力和遍布全球存量巨大的多样化设备和数据集群，以及产品信息、客户服务、运行维护、故障修理等海量数据资源，这些为公司在大数据挖掘和分析方面形成了先天优势。本文结合联想公司在这方面的探索与实践，论述大数据蕴含的价值和提取方法，并介绍在保护用户数据隐私的前提下如何对数据进行挖掘利用。

1. 数据的分析与预测

人类对于数据的应用自古有之。随着人类社会从工业时代进入信息时代和智能时代，数据的生产和消费量持续扩大，现代意义上的数据分析和预测在不断发展和进化。随着最近十几年信息化在社会生产生活中的普及和深入，特别是大量多源多态数据的快速增长，数据分析和预测在应用范围和要求上都产生了显著的变化。

首先，数据分析和预测需要处理海量的非结构化、半结构化和结构化的数据，其中非结构化的数据占全部数据量的70%-80%。精确高效地抽象出这类数据的概念性模型，并将其转化为结构化的数据模型，是大数据分析和预测的难点和关键。其次，数据分析和预测的广度和深度在持续扩展，对于精确度和敏捷度的要求也在不断提高。除了高速发展的互联网行业和应用催生的精确推荐、用户行为分析、点击量预测等典型场景，传统行业（比如金融、制造、医疗、供应链和物流等）对高效的大数据分析和预测的要求也在快速增加，希望能够实现数据驱动的快速运营决策和优化，进而提高效率、节省成本甚至催生新的产品或流程。

相应地，大数据领域的核心数据分析技术，已经从传统的统计模型扩展到以机器学习或深度学习为主的模型，其技术应用范式也相应进化，对数据质量和特征工程更加敏感。对于数据分析应用来说，数据来源和质量是数据分析工作的首要关注点。除了挖掘企业的内部数据之外，还应充分考虑外部数据，同时需要利用包括机器学习在内的多种技术高效并尽可能自动地对数据进行预处理，从而为预测或决策模型的选择和训练准备高质量的数据。同时，如何将数据分析的结果和业务知识有机结合，对于大部分企业级的数据分析应用而言，正在成为另外一个重要的关注点。增强型分析（augmented analytics）的提出，就是在这方面的有益探索。

联想研究院近年在数据分析领域进行了相应的技术探索和实践，有效帮助企业进行业务流程优化，如供应链中的库存优化、生产线智能排产，以及配送路径优化等，借助于人工智能技术提升企业的效率和效益。

以联想集团服务供应链为例，目前存在的痛点包括对未来的需求把握不准确，应对突发事件的储备预案不足，多元可替换备件调度不智能，多需求点同时调度请求时分配不合理等。智能平台将对非必要场景的人为干预程度最大程度地降低，提高“机器智能”决策的占比。它的核心要点是提前预测，提前采购，提前调度，提前在离用户最近的服务站备货，在用户的产品发生故障之前就提前感知到需求，这样当需求真正发生时就能以最快的速度完成对用户备件更换的服务。用户满意度最大化就是平台的终极目标。为了实现这一目标，算法需要考虑与备件需求相关的各种内外部数据，针对不同业务场景关注的指标进行关联分析和因果分析，通过多模型集成学习发掘商业洞察背后的关键因子，以达到最佳的业务收益。

联想研究院联合服务备件供应链部门研发了人工智能赋能的服务供应链智能平台。它在集预测、采购和调度于一身的同时，使每一个模块的决策准确度、反应速度以及自动化智能化程度都有了大幅度的提升。联想备件供应链预测的需求是要预测返修备件的数量，目的是要准确地向供应商提出订货量，以及准确控制仓库中的备件储备量。计算机备件是典型的具有生命周期的产品，系统根据备件生命周期不同阶段的特点，采用了不同的预测算法：

（1）新品导入阶段，由于特定种类备件的历史数据较少，即可供学习的数据量较少，很难在已发生的较少的数据量上构造预测算法，于是采用梯度提升决策树（Gradient Boosting Decision Tree，GBDT）算法，经过构造特征，在所有备件的历史数据中通过拟合历史来构造模型，然后用模型完成预测。另外，由于该阶段处于生命周期的早期，采用代价敏感回归和分位数回归等方法，将预测结果调高，达到代价预测最优化的目的。

（2）需求平稳阶段，由于单个备件产生了大量的历史数据，可以通过拟合各备件的历史完成预测，所以采用了时间序列分析、线性回归和神经网络等方法进行预测，然后将多种技术的结果进行集成，得到最终的预测结果。

（3）末次采购阶段，这是备件供应商根据自身生产计划，对设备生产厂提出的一个“窗口期”，设备厂商备件计划员需要做出紧急决策，在这个窗口期一次采购未来某个备件的所有用量。结合产品在保量数据和备件历史用量、备件故障率等数据，通过动态时间归准（Dynamic Time Warping，DTW）算法，可以对未来的长期需求趋势做出准确的预测。这套解决方案成功应用于联想PC服务备件需求计划，每年可帮助业务缩减8%的资金投入。

在物流配送中，提升配送效率、优化成本配置和资源利用率是亟待解决的问题，这些问题集中体现在对运单、车辆及货物的分析和调度上。智慧物流的核心目标是通过优化配送路径，降低城市配送中心的运营成本，提升服务质量。联想研究院联合中国区物流研发的智慧物流平台，可以灵活地从城市路网、实时交通、天气情况等多源复杂数据中挖掘决策输入信息，根据车辆、运单、货量及客户信息，对分单排车智能优化，在保证满足复杂业务规则需求的同时，具备较强的泛化性和自学习持续进化能力。

平台采集和接入物流运输中的城市实时地图、运单、车辆、费率等内外部多源数据，通过深度图网络模型有效挖掘出“订单一客户一路线”之间的复杂关系，面向不同优化目标及权重，如时间最短、成本最低、装载率高、空驶率低等，基于多智能体强化学习进行实时求解，能够快速、动态地产生不同目标优先级的智能调度方案集合。基于联想中国区物流北京配送中心的实际运行数据仿真模拟，本套方案预期可节约10%以上的物流配送成本。

2. 数据的提取与加工

数据已经成为当今的“新石油”。各行各业每时每刻都有数据产生，数据的激增为基于数据的智能应用创造了前所未有的施展空间。“新石油”需要“提炼”才有用，而这项技术对应着大数据的提取与加工，当下基于知识图谱（knowledge graph）的大数据提取和加工技术最具代表性，近年来也最为活跃。

知识图谱的概念由谷歌在2012年正式提出，旨在利用知识构建更智能的搜索引擎。基于知识图谱的大数据提取与加工的过程包括提取、融合、关联三个关键步骤。提取就是从数据源中识别出需要的实体和关系，数据源可以是海量的文本、网页、表格或图片，从数据源中提取出来的知识最初是一些碎片，需要融合技术将众多碎片知识通过关系连接起来。随着碎片知识越聚越多，最终形成一个知识网络，即构成了知识图谱。内部的知识图谱还可以与外部公开的知识图谱关联，从而使知识图谱继续增长，构建为一个既包含自有知识又兼具公开知识的内容丰富的知识资源。用这样的数据提炼技术，我们可以从海量甚至泛滥的大数据中萃取出知识，并且使计算机更容易使用具有更高的价值。

以联想客服知识图谱为例，介绍将数据加工为知识图谱的过程。联想客服知识图谱中储备了售前、售后、手机使用、故障排除和常识5大类知识，总的实体数量超过30万条。这些知识是从大数据中抽取、融合、关联得到的。

联想有关于产品信息、客户服务、运维、故障修理等各种数据资源，互联网上也有大量关于联想公司、联想产品的介绍和评论。这些信息构成了联想客服知识图谱的原材料。这些原材料来自不同的业务应用和不同的区域，因此格式复杂、数据异构，同时语言种类也比较多，知识融合成为难点。知识互联的自动学习也是一个很大的挑战。

联想客服知识的抽取就是按照知识图谱的总体本体定义，从数据原材料中抽取出需要的实体和关系。比如，针对公司产品的调查问卷、公开的产品评论，可以利用产品名识别技术（named entity recognition）和情感分析技术（sentiment analytics），自动构建产品评论知识，并和联想产品知识图谱自动关联。构建完成后，在联想客服知识图谱中，每款产品分别对应必备型、期望型、魅力型、无差异、反向型等多级评价。这些细粒度的知识不仅可以更好地引导客服流程，而且还可以应用于指导业务的质量改进和产品迭代。

另外一类比较重要的知识是对话策略相关的知识，这类知识可以帮助客服机器人理解用户的行为进而跟踪和管理对话的状态，更好地指导机器人自然、友好地与人对话。这些知识是从大量的人工客服与用户的对话中加工出来的。获取了客服代表和用户在服务中的对话日志，借助流程策略识别、抽取、加工和合并，最终形成相关的策略、流程等知识图谱。联想的客服机器人已在更大范围内投入使用，也逐渐融入线下服务，因此可以从过去维修记录中提取问题根源相关的知识，这些知识可以用来辅助人工更快地诊断问题，进而提高其生产率，最终提升用户体验。

除了基于知识图谱技术进行知识的提取与加工，基于众包（crowdsourcing）和基于人计算（human computing）等大数据加工技术也值得关注。众包的模式把数据加工拆分成众多微型任务，然后在网络平台上批量发布，通过广泛招募志愿者或付费工作者来完成数据加工；人计算的模式，侧重人能轻易成而机器难以完成的任务。这些方法都是通过调动大众的力量，试图用相对便宜的价格获得大规模的加工数据，它们随着智能网络的兴盛和AI技术的进步应运而生，并逐渐被业界认可和使用。

未来大数据加工的广度和深度以及影响，可能会超越我们的想象，不过我们相信不论使用何种数据加工方法，大数据提取与加工必将向“知识共享，知识融合，数据自由”的方向努力。然而，随着大数据提取与加工技术的进步，从大量关联的普通数据中还原出用户的敏感、隐私信息已不再困难。如何在数据加工、共享及使用中保证数据安全、可信、受控，成为大数据抽取与加工的新课题。

举报/反馈

我是天边飘过一朵云

9415获赞 1万粉丝

科技改变未来，未来生活更美好

关注