当前位置:首页 > 报告详情

4-马浩_沐瞳出海实践业务分享之大数据成本优化_1_副本.pdf

上传人: 张** 编号:169072 2024-07-06 32页 3.90MB

1、基于基于AWSAWS的大数据系统成本优化方案的大数据系统成本优化方案沐瞳沐瞳出海实践业务分享出海实践业务分享马浩马浩-大数据运维负责人大数据运维负责人上海沐瞳科技上海沐瞳科技ContentsContents目录目录项目背景项目背景沐瞳大数据架构简图沐瞳大数据架构简图我们的挑战我们的挑战如何提高计算资源的利用率,从而降低计算成本如何对数据进行分层,从而在数据上升的情况下降低整体数据成本如何有效对存储数据进行监控/管理/筛选,从而辅助进行数据分层,并有效解决冗余数据的问题如何提高计算资源的利用率,从而降低计算成本?离线计算弹性伸缩离线计算弹性伸缩-针对工作周期性进行优化针对工作周期性进行优化离线离

2、线计算的工作方式计算的工作方式-利用率周期明显,部分任务定时进利用率周期明显,部分任务定时进行行6:00 am0:00 am12:00 am6:00 pm12:00 pm利用率通过通过弹性伸缩进行计算利用率的提升弹性伸缩进行计算利用率的提升将一定比例的常驻机器转化为弹性资源当产生业务需求时再对应拉起这件部分的计算资源以确保整体资源利用率保持在一定的程度弹性伸缩的技术实现弹性伸缩的技术实现通过ASG进行弹性组的定义通过Eventbridge进行定时任务触发通过System Manager进行内外环境初始化以及任务启动离线离线计算的工作方式计算的工作方式-利用率周期明显,部分任务定时进利用率周期明

3、显,部分任务定时进行行6:00 am0:00 am12:00 am6:00 pm机器成本12:00 pm利用率机器成本成本优化量如何对数据进行分层,从而在数据上升的情况下降低整体数据成本?S3S3存储层成本优化存储层成本优化-针对冷热数据进行数据分层针对冷热数据进行数据分层大数据大数据存储存储困境困境S3存储分布存储分布待删除数据需冷备数据S3S3存储现状存储现状存储成本三大问题:S3S3数据存储分层解析数据存储分层解析存储类别存储类别存储价格存储价格请求价格请求价格访问速度访问速度访问场景访问场景Standard贵便宜快热数据存储Standard-IA便宜偏贵快冷数据存储Glacier非常便

4、宜贵慢归档冷数据数据成本=存储成本+访问成本AWS S3存储针对数据的访问冷热,提供了多种存储类型以及计费方式善用不同存储类型,能极大地优化整体存储成本S3S3数据存储分层解析数据存储分层解析010000200003000040000500006000070000800005000100001500020000数据成本随请求变化图数据成本随请求变化图StandardStandard-IAGlacier单位:USD单位:K req右图为假设存储2000TB数据时,数据成本随着月请求量变化的数据假设每上升1000K req,数据检索量上升1000GB可看出,standard数据的成本几乎不变化,I

5、A变化较明显,而Glacier随着请求上升,成本的变化非常剧烈S3S3数据存储分层解析数据存储分层解析热数据成本热数据成本冷数据成本归档数据成本根据数据的实际访问情况以及业务形态,主动进行S3数据冷热分层,可有效降低整理成本S3S3存储类存储类别与成本别与成本优化优化S3S3存储类别与成本优化存储类别与成本优化准确的识别数据的冷热对降低成本至关重要准确的识别数据的冷热对降低成本至关重要问题问题:如何识别:如何识别S3S3中数据的冷热?中数据的冷热?如何有效对存储数据进行监控/管理/筛选S3S3存储清单存储清单+日志分析日志分析+Class+Class AnalysisAnalysis如何如何有

6、效地监控有效地监控BucketBucket的数据情况以及增量情况?的数据情况以及增量情况?每天的数据总量是多少?有多少文件?变化趋势是什么?如何准确地获取所有需要清理的冗余数据的清单?是否可以针对数据系统,进行Bucket Prefix Object级别的筛选和Group?是否能做更进一步的数据分析?解决方案解决方案:S3S3 InventoryInventory什么什么是是S3S3 InventoryInventoryS3 Inventory 会每天根据我们需要的字段,从Bucket中读取所有Object的元数据所有的这些元数据可汇总成当天的S3基表通

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要分享了上海沐瞳科技在大数据运维方面的实践经验,特别是他们在AWS平台上进行大数据系统成本优化方案的探讨。文章指出,大数据存储面临的主要挑战包括如何提高计算资源利用率、对数据进行分层以降低整体数据成本,以及如何有效监控、管理、筛选存储数据以解决冗余问题。 核心数据和关键点如下: 1. **计算资源利用率提升**:文章提出通过离线计算的弹性伸缩,针对工作周期性进行优化。例如,将一定比例的常驻机器转化为弹性资源,仅在产生业务需求时对应拉起所需的计算资源,从而提高整体资源利用率。 2. **数据分层与成本优化**:为了降低数据上升带来的整体数据成本,文章建议使用S3存储层成本优化策略,对冷热数据进行分层。通过使用不同的S3存储类型(Standard、Standard-IA、Glacier),可以根据数据的实际访问情况有效降低存储成本。 3. **数据监控与管理**:文章提出使用S3 Inventory和S3访问日志分析来有效地监控Bucket的数据情况以及增量情况。S3 Inventory能提供关于S3的所有存储信息,而S3访问日志分析可以帮助识别数据的冷热,并实现自动化。 4. **自动化工具**:文章还提到了Class Analysis这个高级自动化工具,它能持续分析Object的访问情况,帮助用户决策将冷热数据存储到正确的存储类中,进而监控与决策何时对什么文件进行操作。 5. **存储策略优化实践**:沐瞳科技采取了三阶段的大数据存储策略优化实践,一阶段通过存储清单和日志分析删除存量数据,目标是优化存量存储30%;二阶段通过日志分析对历史低访问数据存储类进行优化,目标是成本优化20%;三阶段则是通过长期分析自动写入数据库表,实现自动化策略执行,以长期优化S3存储成本。
如何通过AWS优化大数据计算成本? 如何利用S3存储分层降低数据成本? 如何通过S3 Inventory和日志分析实现数据监控和管理?
客服
商务合作
小程序
服务号
折叠