[AWS] Data & Analytics

Amazon Athena

S3에 저장된 데이터를 SQL로 쿼리하는 서버리스 서비스
스캔한 데이터양 기준으로 비용 청구
보고서, 대시보드를 위해 주로 Amazon Quicksignt와 함께 사용됨

ex) 1월 1일 500번대 에러가 몇번 발생했지?

SELECT COUNT(*) 
FROM access_logs 
WHERE date = '2024-01-01' 
  AND status_code >= 500
```

-> Athena 사용

성능 최적화

비용 절감을 위해 컬럼 기반 데이터 사용 -> Apache Parquet, ORC
데이터 압축 -> qzip, snappy
특정 컬럼을 자주 쿼리한다면, 파티셔닝

Federated Query

S3외의 데이터 소스도 쿼리 가능 -> RDS, DynamoDB 등
연합 쿼리 실행을 위해 Lambda의 Data Source Connector 사용

Redshift

OLAP(분석)용 데이터 웨어하우스
PostgreSQL 기반이지만 트랜잭션 처리용은 아님
데이터를 컬럼(열) 기반으로 저장
병렬 쿼리 엔진 사용
다른 데이터 웨어하우스에 비해 10배 빠른 성능 제공, PB 단위의 데이터까지 확장 가능
단일 AZ
스냅샷으로 DR
BI 도구(Amazon Quicksight, Tableau)와 통합해 사용
대량 삽입이 훨씬 효율적
S3 데이터를 Redshift로 로드 없이 쿼리

Athena와의 가장 큰 차이점은 "데이터가 어디 있느냐"

Athena = 가벼운 쿼리, 가끔 사용, S3 그대로
Redshift = 무거운 쿼리, 자주 사용, 전용 스토리지

-> Redshift는 Athena와 같은 쿼리 실행대비 속도가 빠름 : 인덱싱 + 데이터 정렬/압축 최적화 + 메모리 캐싱

-> 가끔 쿼리할때는 Athena 사용

-> 적은 비용은 Athena

OpenSearch Service

검색/분석 엔진
다른 DB 보완 용도
DynamoDB는 기본 키나 인덱스로만 데이터를 쿼리할 수 있지만 OpenSearch는 부분적으로 일치하는 필드를 포함해 모든 필드 검색 가능
OpenSearch를 생성하고 사용하기 위해서는 인스턴스 클러스터 생성 필요 -> 서버리스 X
SQL 지원 X

EMR(Elastic MapReduce)

Hadoop 클러스터를 위한 서비스
클러스터는 수백 개의 EC2 인스턴스로 구성될 수 있음
Apache Spark, HBase, Presto, Flink 등과 함께 사용
데이터 처리, 머신러닝, 웹 인덱싱, 빅 데이터 등에 사용

Qucksight

서버리스 머신 러닝 기반 BI(Business Intelligence) 도구
대시보드, 시각화 생성
RDS, Aurora, Athena, Redshift, S3 등 다양한 데이터 소스에 연결 가능
SPICE 엔진을 사용해 인메모리 계산 가능

Glue

서버리스 ETL(Extract, Transform, Load) 서비스
Glue Data Catalog : 메타데이터 저장소 -> Athena, Redshift, EMR이 참조
Glue Crawler : 자동 데이터 스키마 검색

Lake Formation

데이터 레이크 구축, 관리를 쉽게 해주는 서비스
Glue 위에 구축되지만 더 많은 기능 제공
데이터 검색, 정제, 변환, 주입을 위한 데이터 레이크 구성
세밀한 액세스 제어 : Row, Column 레벨의 보안

Kinesis Data Analytics

두가지 버전 존재 : SQL & Flink
SQL 버전 -> Kinesis Streams/Firehose에서 실시간 SQL 분석
Flink 버전 -> Java, Scala로 더 복잡한 스트림 처리, Firehose 데이터 못읽음

MSK(Managed Streaming for Apache Kafka)

완전 관리형 Apache Kafka
Kinesis의 대안

최종 : Big Data Ingestion Pipeline

ex) IoT 장치 → IoT Core → Kinesis Data Streams → Kinesis Data Firehose (+ Lambda 변환) → S3 → Trigger

Athena : 서버리스 SQL 쿼리
Glue : ETL, 데이터 카탈로그
QuickSight : 시각화
Redshift : 복잡한 분석

'AWS' 카테고리의 다른 글

[AWS] 모니터링 : CloudWatch & CloudTrail & Config (0)	2025.12.22
[AWS] Databases (0)	2025.12.16
[AWS] Serverless Architectures (0)	2025.12.15
[AWS] Serverless (0)	2025.12.10
[AWS] Integration & Messaging (0)	2025.12.02

heeyeon

[AWS] Data & Analytics

Amazon Athena

성능 최적화

Federated Query

Redshift

OpenSearch Service

EMR(Elastic MapReduce)

Qucksight

Glue

Lake Formation

Kinesis Data Analytics

MSK(Managed Streaming for Apache Kafka)

최종 : Big Data Ingestion Pipeline

'AWS' 카테고리의 다른 글

티스토리툴바

[AWS] Data & Analytics

Amazon Athena

성능 최적화

Federated Query

Redshift

OpenSearch Service

EMR(Elastic MapReduce)

Qucksight

Glue

Lake Formation

Kinesis Data Analytics

MSK(Managed Streaming for Apache Kafka)

최종 : Big Data Ingestion Pipeline

'AWS' 카테고리의 다른 글

관련글

티스토리툴바