최근 수정 시각 : 2025-12-13 16:52:58

Apache Spark

<#ffffff,#1c1d1f>파일:spark-apache-logo.svg파일:spark-apache-logo (라이트 테마).svg
1. 개요2. 상세

1. 개요

#!syntax python
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql import types as T
from pyspark.sql.window import Window
import pyspark.pandas as ps

아파치 스파크(Apache Spark)는 오픈 소스 클러스터 컴퓨팅 프레임워크다. #

2. 상세

원래 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다.

Spark는 GIL (Global Interruption Lock)의 제약과 벡터화 연산을 쓰지 못 하는 기본 Pandas 모듈의 단점을 개선시킨 자체적인 Pandas 구현체를 탑재했다. pyspark.pandas라는 네임스페이스에 있다. Polars에서 구현되지 않은 기능을 사용해야 하나 기본 Pandas의 느린 성능에 발목 잡히는 대부분의 실무에서 쓰인다.