최근 수정 시각 : 2026-04-22 00:08:42

Apache Spark


{{{#!wiki style="margin:-10px -10px"<tablebordercolor=#356fa5> 파일:파이썬_화이트.svgPython
패키지 목록
}}}
{{{#!wiki style="margin: 0 -10px -5px; min-height: 28px;"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px; word-break: keep-all;"
<colbgcolor=#356fa5><colcolor=#fff> 수학 NumPy
데이터 가공 Pandas, Polars, PySpark
데이터 시각화 matplotlib, Plotly
웹 프레임워크
동기
Django, Flask
비동기
FastAPI
머신 러닝·딥 러닝 TensorFlow, PyTorch, Keras, JAX
프론트엔드·GUI PyQt, wxPython, PyGTK
게임 Pygame, Ren'Py
기타 SQLAlchemyDB, OpenCV컴퓨터 비전, RequestsHTTP
}}}}}}}}} ||
<#ffffff,#1c1d1f>파일:spark-apache-logo.svg파일:spark-apache-logo (라이트 테마).svg
1. 개요2. 상세

1. 개요

#!syntax python
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql import types as T
from pyspark.sql.window import Window
import pyspark.pandas as ps

아파치 스파크(Apache Spark)는 오픈 소스 클러스터 컴퓨팅 프레임워크다. #

2. 상세

원래 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다.

Spark는 GIL (Global Interpreter Lock)의 제약과 벡터화 연산을 쓰지 못 하는 기본 Pandas 모듈의 단점을 개선시킨 자체적인 Pandas 구현체를 탑재했다. pyspark.pandas라는 네임스페이스에 있다. Polars에서 구현되지 않은 기능을 사용해야 하나 기본 Pandas의 느린 성능에 발목 잡히는 대부분의 실무에서 쓰인다.