本篇文章3780字,读完约9分钟
作者:一鸣
大数据制造技术浪潮已经多年了。 腾讯作为国内流量最多的网络公司,对大数据技术有很大的业务诉求。 在大数据平台的建设中,腾讯走出了“价值驱动、拥抱开源”的快速发展路径。
最近,腾讯在年开源angel机器学习平台上从linux基金会lf ai顺利“毕业”,成为国内第一个成功的开源项目。 这确实是十年来腾讯大数据业务迅速发展的重要一笔。 很多人可能还不知道腾讯的大数据业务,甚至其全栈机器学习平台。 腾讯在迅速发展这个平台的路径上也有自己的考虑事项。
angel平台毕业后,机心采访了腾讯数据平台部总经理、ams平台总经理、智慧零售战术合作部总经理蒋杰博士。 蒋博士为机器心灵介绍了腾讯大数据快速发展的思路,以及受商业增长变化、大数据产业中的新变化、开源社区崛起等因素的影响腾讯大数据的快速发展方向。
腾讯大数据的迅速发展:为商业而生
蒋杰表示,腾讯大数据的迅速发展经历了离线计算( 2009-)、实时计算(-)、机器学习(年至今)三个阶段。 年删除oracle后,腾讯选择使用hadoop构建原始规模的脱机计算集群。 随着广告、推荐等方面的诉求的提高,对业务计算结果的实时性要求越来越高。 因为在这个第二阶段,腾讯选择了spark和storm,建立了满足实时性要求的大规模数据系统。 保证在广告、信息、金融等方面满足要求。
在最近的业务中,在顾客维度的成长和参加者群体的发掘等方面,这个腾讯已经转移到开发和开源的angel机器学习平台,因此提出了更高的要求。 年后,腾讯的大数据事业走向了机器学习这个新阶段。
angel平台:满足商业形态
angel是腾讯的第一个ai开源项目,在年联合北大开始研发,年底上市,成为年开源。 作为面向机器学习的第三代高性能计算平台,angel致力于稀疏数据的大规模训练和大规模图数据观察的问题。
与tensorflow、pytorch和spark等同类平台相比,angel具有以下优点:
angel是基于参数服务器( PS )理念开发的平台。 良好的横向扩展功能使angel能够有效地解决千亿级模型
angel有一个特别优化的数学库来解决高维稀疏的特征
angel擅长推荐模型和图网络模型的相关行业(社会交流网络的分解等),稀疏的数据和高维模型的解决能力更强。
“腾讯技术快速发展的逻辑是服务产品。 ”蒋杰在采访中说。 腾讯的想法是开放的,越适合各自的业务,越有用,对研发的投资就越少,效率高,是用技术搞好业务的最高追求。
angel的技术力量是为了满足腾讯业务中的指控而产生的。
以广告的精确推荐诉求为例,10亿级顾客的特征维度很稀少,要解决这样的稀疏矩阵,以前传来的深度学习框架在性能上比较不足。 因此,面对自己的业务优势,腾讯开发angel平台的主要意图是满足自己的技术诉求。
由此,帐篷形态不同的业务可以在统一的大规模数据平台上计算,提供适合各业务的技术方案。 angel平台包括以前流传下来的机器学习算法和深度学习算法,有些图解法可以在腾讯的实际业务中找到应用场景和价值。
例如,图的计算能力是比较客户的特征、人群图像和社会交流关系的连锁,即使是简单的逻辑回归算法也可以描绘客户图像。 像dnn这样的神经网络对应于人们的特征发掘,cnn被用于特征管理等。
angel平台支持的图计算体系结构。
蒋杰说,angel平台的作用是一个综合的机器学习平台,与tensorflow、pytorch等维度不同。 实际上,angel平台为了应对内部的招聘诉讼,封装了pytorch、tensorflow、spark等框架,开发人员可以根据商业诉求灵活选择和采用。
价值主导,实用进化
这样,angel机器学习平台的好处好像不明显吗? 相反,对技术的发展非常实用,集中于商业上的诉求是angel平台快速发展中最大的好处。
为什么新技术的使用这么保守安静,这是腾讯在迅速发展angel平台过程中的谨慎态度。 蒋杰表示,腾讯大数据面临的挑战是在业务增长时保证。
价格继续下降;
提高性能和效率,降低故障率
闲置资源的最大化利用等。
这需要在很多地方继续优化整个人类系统,包括数据压缩的比例、互联网传输的效率、运用的微细化效果等。 这些只能通过在平台上添加新算法或提高现有算法的精度来实现.。
当然,在angel平台的快速发展过程中,除了现有的问题外,大数据业务出现了新的问题,这些给腾讯大数据的快速发展带来了新的挑战。
数据隐私越来越重要,angel平台怎么应对?
采访中蒋杰博士认为目前面临的最大困难是“数据墙”的问题。 具体来说,在一个企业内,各业务和部门之间有自己的数据。 在数据为王的时代,这些数据确实是最有价值的资产。
面对强大的数据壁垒,为了在不接触数据隐私红线的情况下进一步提高数据价值,腾讯的大数据考虑了几种方法来应对。 这是未来angel平台领先的重要方向。
在统一的大数据平台上贯穿部门的数据壁垒
在腾讯内部,为了减少数据壁垒带来的障碍,腾讯近年来使用了平台组件的开源、多个团队共同构建的方法。 通过构建内部统一的大规模数据平台体系,该平台在各业务部门之间实现功能复用,提高数据开发和应用效率。 这样可以弥补数据壁垒造成的价格损失,整体降低开发和运营的价格。
例如,腾讯内部的天穹大数据平台是这种想法下的例子。 这个平台采用开源协同建设的方法,使内部商务部门以开源协同的方式参与研发工作,使平台满足商务诉求,成为统一的基础支持。
联邦学习:使数据计算可靠
在外部处理数据可靠性问题也特别重要。 联邦学习至此进入了腾讯的视线。
联邦学习可以定义为新的机器学习算法。 由于自身数据的局限性,模型需要计算越来越多的数据,提高其效果。 由于顾客数据的隐私问题,多个参加者直接共享数据是不现实的,因此联邦学会了通过参加者共享数据的特征和模型的梯度,使所有参加者能够得到更有效的模型而不泄露自己的数据
联邦学习确实是angel平台认为的迅速发展方向。 腾讯需要保护客户数据,金融机构等腾讯合作伙伴也需要确保数据的隐私和安全。 因为这个联邦学习将是未来快速发展的必然选择。
当然,联邦学习的迅速发展也有点困难。 如果在数据加密后存在数据大小是否膨胀的问题,则需要适当的加密算法。 另外,除了技术以外,还可以让顾客和监督管理方承认联邦学习带来的数据安全性和隐私保护能力,需要时间。 最终,还必须考虑应用此类技术和算法所需的额外价格和技术投资。 例如,欧洲数据保护条例生效后,腾讯需要根据监督管理的要求,进行业务上相应的技术调整,引进追加的数据保护措施。
abc融合:通过混合云提供技术服务
另一个快速发展的趋势是继续推进abc融合,即人工智能( ai )、大数据( big data )、云计算( cloud )的融合,使用混合云的方法进行业务和协作部 在此系统中,云计算作为基础架构,包括公共云和私有云的融合,以保护关键数据的安全。 大数据进行数据收集、解决、分解等,提供计算支持,最后采用人工智能,进一步挖掘数据中的价值。
蒋杰认为数据壁垒的“壁垒”很厚,需要以多种玩法共同处理。 在联邦学习中,腾讯与顾客、合作者共同进行联合数据建模。 云计算是通过客户的专用云和腾讯的公共云混合部署的.。 腾讯计划投资漂移计算等新技术,逐渐打破数据壁垒。
面对与数据隐私安全相关的新挑战,腾讯一定做好了准备。 许多人忽视的另一个重要的迅速发展思路是腾讯对开源的开放态度。 从angel平台的开源来看,腾讯的大数据将在今后的快速发展中与开源社区更密切地结合。
拥抱开源,angel平台上有一斑
去年,angel平台在github上开放源代码。 迄今为止,angel在github获得了5600 star,1400 fork,这些数据表明社区赞同angel的出色表现。
腾讯只对“公开”这个项目不满意。 同年,腾讯将这个项目托管在lf ai基金会。 蒋杰说,这项举措有项目深层次的考虑因素。 首先,lf ai基金会对托管的项目有着代码规模、质量等高要求。 托管项目,证明基金也同意这个项目。
另一方面,基金会托管的项目可以更好地获得社区的关注和录用,并得到基金会自己的监督和促进。 与在github开源后因客户不足而无人问津,或开发人员/开发人员因后续维护和改善动力不足而死的项目相比,用外部管理的方法促进angel的迅速发展
最后,lf ai基金会对获准“毕业”的项目也有严格的标准。 通过审查后得到开源社区的正式同意,这对于大规模宣传angel的采用,提高其能力很重要。
在采访中蒋杰博士说,腾讯的大数据将继续以开源形式为linux基金会和apache基金会等提供很多项目,以开源的方式使项目和行业标准接轨,促进与技术社区的交流
除了算法方面,腾讯还透露,云计算、边缘计算等其他领域的开源计划,甚至微信小程序等开源明年也将进一步工作。
面对开源带来的开放和竞争的关系,腾讯有自己的想法。 蒋杰博士认为,在开源社区中,大企业和社区实际上是相互依赖的关系,不存在独特的情况。 当身体量变大、平台变大时,技术可以面临很多实际业务无法触及的、想不到的问题。 因为这关系到更好的进步。
这种想法也是腾讯的大数据低调务实,积极推进开源的理由。
标题:【要闻】蒋杰:价值驱动,拥抱开源,从Angel平台看腾讯大数据打法
地址:http://www.tjsdzgyxh.com/tyxw/21679.html