자격증

빅데이터분석기사 실기 공부 - 3유형

studyoung 2024. 6. 18. 22:09
반응형

※ 해당 글은 '빅데이터분석기사' 자격증 취득을 위해 개인 공부기록 용도로 작성된 내용입니다.

(출처 :유튜브 AI 너는 아니 AI you know?)


 

# 출력을 원할 경우 print() 함수 활용
# 예시) print(df.head())

# getcwd(), chdir() 등 작업 폴더 설정 불필요
# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가

import pandas as pd

df = pd.read_csv("data/Titanic.csv")

# 사용자 코딩
# print(df.info())

# 1. 카이제곱 통계량
# 1-1. 패키지 추가
from scipy.stats import chi2_contingency

# 1-2. 데이터를 table로 만들기
table = pd.crosstab(df['Gender'], df['Survived'])

# 1-3. 만든 table로 chi2 검정
chi2, p_val, dof, ex = chi2_contingency(table)

# 카에제곱 통계량
# print(chi2, p_val, dof, ex)
# print(round(chi2, 3)) # 260.717

# p-value
# print(p_val)
# print(p_val<0.05) # 귀무가설(H0) 기각, 대립가설(H1) 채택


# 2. 로지스틱 회귀분석
# 2-1. 패키지 추가
from statsmodels.formula.api import logit

# 2-2. logit 함수 전체 결과 확인 코드 (coef는 각 독립변수의 오즈비에 log)
result1 = logit('Survived ~ Gender + SibSp + Parch + Fare', data = df).fit().summary()
# print(result1) # -0.201


# 3. 오즈비
# 3-1. logit 함수의 계수들 각각 확인
result2 = logit('Survived ~ Gender + SibSp + Parch + Fare', data = df).fit().params
# print(result2)

# 3-2. 오즈비 확인을 위한 np.exp() 처리
import numpy as np
# print(np.exp(result2)) # 0.702

# 해당 화면에서는 제출하지 않으며, 문제 풀이 후 답안제출에서 결괏값 제출
반응형