Alluxio发布新版本1.8,加速数据分析和机器学习的云部 发布时间:2020-03-18
云已逐渐成为大数据企业的必需品。据美国媒体报道,7月31日,分布式虚拟存储系统Alluxio发布了1.8版,以加快数据分析和机器学习的云部署。
Alluxio是世界上第一个可以在内存级别集成数据的软件系统。它的技术来源于其创始人李浩源博士的开源研究项目——位于加州伯克利的AmpLab——它可以在大数据应用层和存储层之间构建一个虚拟数据层,以便企业可以使用该系统来使用和管理不同的数据应用和存储方案。在此之前,世界著名的非凡级开源软件Spark和Mesos来自AMPLab,但它们在存储方面不同于Alluxio。前者侧重于计算,而后者侧重于资源管理和调度。
由于其内存级别的访问速度,Alluxio系统比以前的方案快10倍甚至10倍。
创建五年后,Alluxio是数据生态系统中最活跃的开源项目之一,它解决数据问题的能力受到高度信任。按市值计算,中国10大互联网公司中有8家已经在使用Alluxio的技术来管理PB级数据。此外,华为、联想、中国电信、京东等公司也在使用它来管理数据。其他合作伙伴包括英特尔、三星、微软、英伟达、甲骨文等。
Alluxio经历了几个版本。通过此次更新,系统希望进一步支持不同的云存储方案,加快数据存储、检索和使用的速度,解决深入学习面临的数据存储问题。同时,他们将为他们非常重视的开源社区提供更多的支持和帮助。
对于云部署,新版本的Alluxio提供了三个新功能:
1.感知定位数据管理工具。企业可以根据数据位置标记设置不同的数据应用策略、选择特定的数据调用区域或优化数据分布,从而降低在不同存储位置调用数据的成本并提高效率。
2.不同云存储方案的优化。解决了对象存储或云存储方案与传统的HDFS(HadoopDistributedFileSystem)方案在应用编程接口和执行效率上的差异所带来的问题;这也使得从HDFS到对象存储的数据传输变得更加容易,以便在云中轻松传输数据。
3.FUSE(文件系统用户空间)接口。FUSE可以在本地缓存云中的数据,并通过普通的本地文件夹显示出来,以无缝地支持现有的机器学习和大数据分析框架来访问云数据。
云趋势下对混合云部署的强烈需求
对Alluxio版本的这一更新可以说是顺应了企业“在云端行走”的趋势。
近年来,不仅有大量的云数据存储、计算和分析初创项目提供服务,而且大公司也在寻找更好的云部署解决方案。
2018年6月,微软收购了著名的开源开发平台GitHub后,表示将把GitHub与自己的云服务产品AzureCloud集成在一起。分析报告预测,未来的云服务市场将从今年的281亿美元增长到2021年的533亿美元。
“数据分析和机器学习的兴起大大增加了云计算的数量。Alluxio的特性意味着它还可以很好地管理混合云中的数据。”李浩沅告诉钛媒体。451研究报告显示,据估计,在2019年,超过66%的企业将使用混合云架构或多种云服务方案。他们可能在不同的云服务中面临不同的操作差异。单靠自己很难保证效率,需要第三方服务方案的帮助。
在未来,中小型企业可能会完全转向公共云部署。
Gartner预测,到2021年,全球超过50%的企业将应用纯公共云存储解决方案,而大型公司将应用更多第三方云基础设施来管理混合云。
这与李浩源的判断是一致的。他认为,许多现代企业的真正价值往往在于数据。
特别是对于一些大型企业来说,核心数据管理是很难伪造的。2017年,马云在接受彭博社采访时说,“这些数据和上个世纪的石油一样重要。”
埃里克森(当时的谷歌产品经理)谈论Alluxio
“他们总是希望将一些数据保留在本地服务器上,但将所有数据放在本地服务器上成本太高,因此选择折衷方案并在无缝架构下管理私有云和公共云是一种合理的需求。”李浩源说道。
此外,Alluxio还希望解决近年来热点数据分析和深入学习所面临的数据存储问题。
对于数据分析,已经有许多方案来使用云中的数据。Alluxio只能帮助提高性能和降低成本。
对于深入学习来说,这个问题稍微复杂一些。
“并非所有培训数据都可以直接用于深入学习框架,如张量流。此外,各种类型的分布式存储和云存储的交互模式与传统的本地交互模式有很大不同,这使得用户很难准确配置和使用新工具。”例如,如果没有Alluxio,TensorFlow(一个深度学习框架)很难访问微软云服务AzureObjectstore上的数据。
Alluxio的特性意味着它可以集成各种存储系统,缩短各种深度学习框架和存储层之间的距离,提高效率和灵活性,并降低成本。另一方面,此更新中的FUSE工具允许Alluxio安装本地文件系统,允许用户在使用远程云分布式存储时拥有与使用本地数据时类似的交互体验。
聚焦开源社区
除了针对云部署和深入学习的更新之外,新版本的Alluxio还有另一个重点:它为开发人员提供了更多便利,包括:
1.为运行的应用程序提供数据服务监控工具,包括能够获取集群实时数据的网络图形界面和命令行界面工具,以便开发人员能够更好地了解数据的使用情况,分析性能结果并获得数据洞察力。
2.更好的生态系统整合。通过将数据服务的跟踪和洞察扩展到不同的应用程序和存储层,开发人员可以通过新工具直观地看到存储系统中的问题,例如延迟直方图和存储空间利用率。
3.一个StarterKit,它包括预构建的代码和其他文件以及一些简单的案例展示,包括“如何在本地机器上安装Alluxio”和“如何安装和设置AWSS3Bucket并加速远程读取”,以便开发人员能够更快地开始使用Alluxio。
“开源社区是我们最珍视的东西之一,所以我们希望尽可能帮助开发人员理解和使用这个系统。”李浩源说道。他认为,自成立以来,这个社区所带来的活力一直是奥路修快速发展的重要驱动力之一。
在2016年接受CSDN采访时,Alluxio曾经说过“Alluxio是历史上发展最快的开源社区之一”,现在它的贡献者已经超过800人,在GitHub上有3000多位明星。
一些正在玩泡泡足球的Alluxio队员。
在这个项目中有许多活跃的公司贡献者,他们也可以提供关于特定产品和应用场景的反馈。英特尔、腾讯、阿里巴巴、百度、京东和莫莫也是这个开源项目的贡献者。例如,陌生人的工程师团队将根据陌生人的应用场景进行适应和调整,然后经过Alluxio的社区经理审核后接受,“最终形成一个积极的反馈,这是一个双向的改进过程”。
百度、群岛和莫莫都分享了他们在使用优酷后的体验。例如,百度以前曾分享过,当使用他们自己的使用SparkSQL作为计算引擎的查询系统时,一个查询需要100-150秒。添加Alluxio作为内存中心的存储层后,数据可能会影响本地或远程Alluxio节点,需要10-15秒;当所有数据在本地存储在Alluxio中时,平均只需要5秒钟,速度提高了30倍。经过测试,百度围绕Alluxio和SparkSQL构建了一个完整的系统。
2016年初,Alluxio从硅谷著名风险投资机构AndressenHorowitz获得了750万美元的融资。
这篇文章是由网站管理员的用户提交的。未经网站管理员同意,严禁复制。例如,如果大多数用户在稿件中发现虚假报告,欢迎读者反馈、纠正和报告问题(反馈入口)。
免责声明:本文是对用户的贡献。站长之家发布这篇文章只是为了传达信息。这并不意味着站长之家同意其观点,不对内容的真实性负责,仅供用户参考,不构成任何投资或使用建议。读者被要求核实真实性和可能的风险,任何后果将由读者自己承担。
- 上一篇:老年肺炎的病因和症状是什么
- 下一篇:老年肺炎的原因是什么?
相关文章推荐
- 山东省为湖北省防疫和控制捐赠了10亿
- 金被发现在音乐会上作弊,并一度假装
- 刘备见人时说他是钟的。刘备和刘胜是
- 揭示雍正帝的特殊爱好,喜欢给大臣们
- 钟一生中从未打过一次著名的战役。为
- 当海印的财富管理公司计划裁员三分之
- 200,000名股东激动不已!从下限到上
- 苏宁瑞城启动230万美元基准科技城建
- 中国在意大利的防疫:从误解到赞美
- 2020年,空调品牌承受不起损失
- 龙脊股份(601012。上海:控股股东李春
- 不到两周,情节就会逆转!美国拒绝接
- 谁比NBA总决赛冠军更强?乔丹8-4,科
- 买车后,这10样东西一定在你的车里。
- 独立教练:我非常希望把阿奎罗和卢卡
- 李:西班牙体力和驾照都在手。我的家
- 七年前的今天,热火失去了詹伟,波什
- 前意大利小姐在科斯塔库塔吐口水:和
- [晨谈]是时候展示你的大脑了!让我们
- 4月1日河北疫情最新消息:2例新输入病
- 如果没有奔驰和宝马,BAIC华晨的“空
- 通用汽车下周交付首批20,000个口罩
- 穆尼:我的目标是在巴黎疫情期间和我
- 赖斯身体:巴洛特利失去了俱乐部和球
- 谢晖:从助理教练到教练是很自然的。
- 巴拉圭前锋的近1000件球衣被盗!包括
- 博腾事故:无人员伤亡,财产损失约25
- "显然我应该战术性地为梅西服务!"
- 怡保体育用爱心赞助波尔多,携手展示
- 马德里竞技主席:现在讨论军事问题没
- 美国新增确诊病例累计超过170,000例
- ANSA:孔蒂和国际球员都愿意减薪,目

