| {{{#!wiki style="margin:-10px -10px" | <tablebordercolor=#356fa5> | Python 패키지 목록 | }}} |
| {{{#!wiki style="margin: 0 -10px -5px; min-height: 28px;" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px; word-break: keep-all;" | <colbgcolor=#356fa5><colcolor=#fff> 수학 | NumPy | |
| 데이터 가공 | Pandas, Polars, PySpark | ||
| 데이터 시각화 | matplotlib, Plotly | ||
| 웹 프레임워크 | 동기 Django, Flask | ||
비동기 FastAPI | |||
| 머신 러닝·딥 러닝 | TensorFlow, PyTorch, Keras, JAX | ||
| 프론트엔드·GUI | PyQt, wxPython, PyGTK | ||
| 게임 | Pygame, Ren'Py | ||
| 기타 | SQLAlchemyDB, OpenCV컴퓨터 비전, RequestsHTTP |
| <#ffffff,#1c1d1f> |
1. 개요
#!syntax python
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql import types as T
from pyspark.sql.window import Window
import pyspark.pandas as ps아파치 스파크(Apache Spark)는 오픈 소스 클러스터 컴퓨팅 프레임워크다. #
2. 상세
원래 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다.Spark는 GIL (Global Interpreter Lock)의 제약과 벡터화 연산을 쓰지 못 하는 기본 Pandas 모듈의 단점을 개선시킨 자체적인 Pandas 구현체를 탑재했다. pyspark.pandas라는 네임스페이스에 있다. Polars에서 구현되지 않은 기능을 사용해야 하나 기본 Pandas의 느린 성능에 발목 잡히는 대부분의 실무에서 쓰인다.