최근 수정 시각 : 2024-10-29 02:22:14

데이터 마이닝

데이터마이닝에서 넘어옴


[[컴퓨터공학|컴퓨터 과학 & 공학
Computer Science & Engineering
]]
[ 펼치기 · 접기 ]
||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||
하드웨어 구성 SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술 기계어 · 어셈블리어 · C/C++ · C# · Java · Python · BIOS · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구

기타
논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영 체제 · 데이터베이스 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크 · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템 · Git · GitHub)

Data Mining

1. 개요2. Operation3. 주된 기술4. 학부 교과목으로서5. 데이터 마이닝 소프트웨어6. 관련 문서7. 온라인 게임에서
"데이터 과학자는 21세기 들어 가장 섹시한 직업을 가진 사람들이다."
- 하버드 비즈니스 리뷰, 2012

1. 개요

데이터베이스 속에서 의미있으면서 유용하고 가치있는 정보를 찾아내는 인간행동이다. 학문적으로 엄밀하게는 이 인간행동 중에서도 부분적인 과정만을 일컫지만 일상생활에서는 모든 과정을 일컫는다. 이런 과정을 지식발굴과정(KDD)이라고 부른다.

2016년 알파고 이후 산업공학과의 데이터 마이닝 쪽 랩들은 인기가 좋아졌다. 랩 인턴을 안 하면 합격을 보장하기 어려울 정도가 되었다. 인기가 과열되어 심지어 랩 인턴도 학점에 면접까지 보는 경우가 많다.

2. Operation

  • Classification
  • Clustering 군집 분석: 인간에 의해서 해답이 제공되지 않고 알고리즘 자체에 의해 그룹이 만들어지는 기법.
  • Association 연관 규칙: 어떤 항목이 어떤 항목과 연관되는가?
  • Visualization 데이터 시각화: 인간이 알아볼 수 있는 형태로 표시
  • Prediction
  • Summarization

3. 주된 기술

  • Neural Network 인공신경망
  • Genetic Algorithm 유전 알고리즘
  • Decision Tree 의사결정나무: 가장 인기있는 데이터 마이닝 툴로서 여러가지 옵션과 그들 옵션을 선택할 때의 결과를 체계적으로 제시하는 방법론이다.
  • Case Based Reasoning 사례기반추론
  • Discriminant Analysis 판별 분석
  • Regression 회귀 분석
  • Association
  • K-Means

4. 학부 교과목으로서

고려대 산업공학과에서는 교재로 "Shmueli, G., Patel, N.R., Bruce, P. C. (2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, Wiley"을 사용하고 있다. 동국대학교 통계학과에서는 교재로 "R을 이용한 데이터 마이닝, 박창이, 김진석'을 사용하고 있다.

이 과목을 수강하려면 통계학개론, 회귀분석에 대한 지식이 요구된다. 또 사용하는 툴에 대한 지식이 요구된다(R언어, SAS 등).

kNN, 의사결정나무, 신경망, 군집분석 등에 대해서는 기계학습 항목도 참조.
  • 소개
  • 데이터 전처리
  • EDA (Exploratory Data Analysis): 데이터에 대한 기본적인 영감을 얻는데 필요한 방법론.
  • 감독학습
    • K-Nearest Neighbor 알고리즘
    • 의사결정나무
    • 신경망, 회귀분석, 로지스틱회귀, 앙상블모형, 변수선택 및 모형선택, ...
  • 비감독학습
    • 군집 분석, 연관 규칙, ...
  • 모델 평가 기법: 다양한 데이터 마이닝 모델을 평가하는 방법론

5. 데이터 마이닝 소프트웨어

빅 데이터 프로세싱 문서 참조.

6. 관련 문서

7. 온라인 게임에서

게이머들에겐 온라인 서비스를 하는 게임의 클라이언트를 뜯어 이런저런 비공개 정보를 찾아내는 걸 칭할 때 해당 용어를 쓴다. 보통 PC 게임의 경우 '클뜯', 모바일 게임의 경우 '앱뜯'이라고 부른다.

해외 게이머들에겐 '(게임 이름) leak' 이라고도 불린다. 보통 게임 클라이언트를 업데이트할 때 이런저런 정보를 추가하나 해당 사항이 공개되는 건 일정 기간 후일 경우가 많은데, 해당 작업을 통해 유저들이 미리 예상을 하거나 유저들이 개발사보다 먼저 선공개를 해버리는 일이 발생하기 때문이다. 이를테면 신규 스킨의 내용이나 신규 이벤트, 확률 등의 내용이 클라이언트를 뜯어본 유저들에 의해 공개되는 것이다.

대부분의 게임사에서 약관으로 데이터 마이닝을 금지하고는 있지만 클라이언트 변조가 아닌 단순히 뜯어보는 행위는 기본적으로 팬심에서 나오는 것이기에 제재를 가하지 않는 경우가 대부분이다. 나무위키의 게임 관련 항목들에 첨부된 이미지들도 대부분 클라이언트를 뜯어서 얻어낸 것들이다. 인게임 화면 스크린샷으로는 깔끔하게 이미지를 분리해낼 수 없기 때문. 경우에 따라 유저들이 클뜯을 할 것을 염두에 두어서 의도적으로 떡밥을 심어두기도 한다.

야겜에서 CG 짤만 빼가는 경우도 있다