1. 한 달 간 학습한 내용
1월 1주차: Pandas, NumPy 라이브러리
- 7주차에 들어서며 Python을 활용한 데이터 분석의 세계에 본격적으로 뛰어들었다. 이번 주의 핵심은 판다스(Pandas)와 넘파이(NumPy) 라이브러리였다. 판다스의 시리즈와 데이터프레임 구조를 배우며 데이터를 효율적으로 다루는 방법을 익혔다. 특히 인상 깊었던 건 타이타닉 생존자 데이터셋을 활용한 실습이었다. 샘플 데이터를 로딩하고 전처리하는 과정부터 기본적인 분석과 시각화까지 수행해보며 데이터 분석의 전체적인 흐름을 직접 경험할 수 있었다. 이론으로만 배웠던 개념들을 실제 코드로 구현해보니 훨씬 이해가 잘 되었고, 데이터를 다루는 것에 대한 자신감도 생겼다.이번 주 학습을 통해 데이터 분석의 기초를 다졌다고 느낀다. 앞으로 이를 바탕으로 더 복잡한 분석도 할 수 있을 것 같아 기대됐다.
1월 2주차: 파이썬 데이터 분석 & 데이터 시각화
- 8주차에는 판다스와 넘파이를 더 자세히 배우면서 데이터 시각화도 시작했다. Matplotlib, Seaborn, Plotly, Folium 같은 라이브러리를 사용해 그래프와 차트를 만드는 법을 배웠다.데이터 유형에 따라 어떤 분석 방법과 그래프를 써야 하는지도 알게 됐다. 예를 들어, 숫자 데이터는 히스토그램이나 산점도로, 범주형 데이터는 막대 그래프나 파이 차트로 나타내는 식이다.가설 검정을 위한 통계 방법도 배웠다. t 통계량, 카이제곱 통계량, f 통계량 같은 것들의 개념과 계산 방법, 그리고 이걸로 어떻게 판단하는지 공부했다. 솔직히 이 부분은 좀 어려웠다. 이론이 많아서 헷갈렸지만, 실제 데이터로 해보니 조금씩 이해가 갔다.이번 주에 배운 것들로 데이터를 더 잘 이해하고 표현할 수 있게 된 것 같다. 아직 부족한 점이 많지만, 조금씩 늘어가는 게 느껴진다.
1월 3주차: 데이터 수집 & 미니 데이터 분석 프로젝트
- 9주차에는 데이터 수집 방법을 배우고 미니 프로젝트를 진행했다. 먼저, 웹에서 데이터를 가져오는 방법을 배웠다. BeautifulSoup와 Selenium 라이브러리를 사용해 정적, 동적 웹페이지에서 데이터를 추출하는 법을 익혔다. 네이버나 다음 같은 포털에서 날씨 정보를 가져오는 실습을 하면서 웹 스크래핑의 기초를 다졌다. Requests 라이브러리도 배웠는데, 이를 통해 웹 서버에 데이터를 요청하고 받아오는 과정을 이해할 수 있었다. 또한 공공데이터 포털 같은 곳에서 제공하는 오픈 API를 활용하는 방법도 배웠다. API 키를 발급받고, 데이터를 요청하고, JSON 형식의 응답을 처리하는 과정을 직접 해봤다.주간 학습의 하이라이트는 개별 미니 데이터 분석 프로젝트였다. 그동안 배운 내용을 총동원해 직접 데이터를 선정하고, 분석하고, 결과를 발표하는 과정을 거쳤다. 이 과정에서 실제 데이터 분석 프로젝트의 흐름을 경험할 수 있었고, 배운 내용을 실전에 적용해보는 좋은 기회였다. 서투른 솜씨지만, 데이터 수집부터 분석, 결과 도출까지의 전체 과정을 경험해보며 자신감을 얻었다.
- 미니 데이터 분석 프로젝트 회고: https://sprouting-seeds.tistory.com/20
1월 4주차: 머신러닝
- 10주차에는 머신러닝의 기본 개념과 주요 기법들을 배웠다. 먼저 CRISP-DM 프로세스를 통해 데이터 마이닝의 전체적인 흐름을 이해했다. 비즈니스 이해부터 데이터 준비, 모델링, 평가, 배포까지의 단계를 배우며 데이터 분석 프로젝트의 큰 그림을 그릴 수 있었다. 이어서 머신러닝의 다양한 모델들과 파이썬으로 모델링하는 방법에 대해 배웠다. 모델이 데이터의 패턴을 어떻게 학습하고, 어떤 알고리즘으로 예측을 수행하는지, 각 모델별 차이점이나 원리가 다소 헷갈렸지만 수업 외에 개인적으로 서적, 블로그, 인터넷 강의 등 자료를 찾아 추가 학습을 병행하며 최대한 이해하기 위해 노력했다. (오랜만에 날밤 새기도 했다...;)
- 지도학습과 비지도학습의 차이점을 배우고, 각각의 학습 단계와 테스트 단계에 대해 공부했다. 특히 지도학습 중에서도 회귀 분석에 대해 깊이 있게 다뤘다. 선형 회귀의 기본 개념부터 단순 회귀와 다중 회귀의 차이, 그리고 다중공선성 문제와 해결 방법까지 배웠다. 회귀식을 어떻게 구성하고 해석하는지, 그리고 실제 데이터에 어떻게 적용하는지 실습을 통해 익혔다.머신러닝 모델의 성능을 평가하는 방법도 중요한 주제였다. 회귀 모델의 성능을 평가하는 다양한 지표들(MSE, RMSE, MAE, MAPE 등)의 개념과 계산 방법을 배웠다. 각 지표의 특징과 언제 어떤 지표를 사용해야 하는지에 대해서도 학습했다.마지막으로 앙상블 기법에 대해 배웠다. 여러 모델을 결합해 성능을 높이는 방법인 앙상블의 개념을 이해하고, 보팅, 배깅, 랜덤 포레스트 같은 구체적인 기법들을 학습했다.
- 이번 주 학습을 통해 머신러닝의 기초를 다질 수 있었다. 비전공자에 데이터분석 초심자인 내게는 익숙한 결의 내용이 아니다보니 조금 어려운 부분도 있었지만 앞으로 꾸준히 연습하고, 또 스스로 좋은 정보를 적극적으로 구하는 노력을 계속해 나간다면 분명 이 또한 나라면 잘 습득할 수 있을 것이라 생각한다.
2. 느낀 점 + Keep
한 달간의 학습을 되돌아보니, 데이터 분석의 세계가 정말 방대하고 뎁스도 깊다는 걸 실감했다. 단순히 데이터를 잘 처리하는 기술을 배우는 것이 아니라, 비즈니스 문제를 실질적으로 해결할 수 있는 높은 가치의 인사이트를 도출하는 프로세스를 배우고 있다는 걸 깨달았다. 특히 인상 깊었던 건 실습 위주의 학습 방식이었다. 타이타닉 데이터셋으로 시작해 직접 웹에서 데이터를 긁어오고, 미니 프로젝트까지 수행하면서 이론을 실제로 적용해보는 경험이 굉장히 값졌다. 이런 hands-on 경험이 이후에 내가 데이터 분석가로 취업해서 실제 업무를 수행할 때 큰 도움이 될 거라 확신한다. 머신러닝 기초를 배우면서는 조금 버거운 느낌도 들었지만, 어려워도 포기하지 않고 계속 도전한 덕에 조금씩 이해가 되기 시작했다. 이런 끈기와 도전 정신은 앞으로도 계속 유지해 나가야할 것이다. 무엇보다 데이터를 통해 인사이트를 도출하고, 그것을 비즈니스 의사결정에 활용할 수 있다는 점에 큰 매력을 느꼈다. 앞으로도 이 분야에 대한 열정과 호기심을 잃지 않고 계속 공부해 나가고 싶다.
3. Problem
넓은 범위의 주제를 다루면서, 진도도 빠르게 쭉쭉 나가다 보니 각 주제에 대해 깊이 있게 이해하고 넘어가진 못했던 아쉬움이 있다. 특히 통계적 개념이나 머신러닝 알고리즘의 수학적 원리 등에 대해 더 깊이 있는 이해가 필요하다고 느꼈다. 수업 시간 내, 이론을 완벽하게 이해하지 못했던 경험은 또 오랜만이라.. 괜히 분한 마음에 그날 밤을 꼴딱 새며 추가 개인 학습을 진행했던 날이 있었는데, 현재 나의 레벨(지식 수준), 상황, 목표 등을 고려하지 않은 채 냅다 이론 공부를 하다 보니 밑 빠진 독에 물 붓기 같은 느낌이었다. 공부를 하는 태도는 좋지만 이왕 하는 공부, 효과적으로 잘 하는 것도 필요하겠다고 생각했다.
4. Try
너 자신을 알라... '메타 인지'를 잘 하자!!! 모든 주제를 깊이 있게 공부하기보다는 현재 나의 수준과 목표에 맞춰 중요도를 설정하고 우선순위에 따라 학습해야겠다. 특히 실무에서 당장 필요한 스킬 습득에 집중하되, 이론적 기반도 꾸준히 조금씩 쌓아가는 방식으로 접근할 계획이다. 수업 내용을 바탕으로 주간 학습 계획을 세워서 각 주제에 대한 이해도를 높이고, 부족한 부분을 보완해야겠다.
'[삼정KPMG] Future Academy 3기' 카테고리의 다른 글
[Week #9] 데이터 수집 & 미니 데이터 분석 프로젝트 (1) | 2025.01.18 |
---|---|
[미니 데이터 분석 프로젝트] 구독 서비스의 고객 유지율 향상을 위한 콜센터 운영 인사이트 (1) | 2025.01.18 |
[Week #8] 파이썬 데이터 분석 & 데이터 시각화 (0) | 2025.01.13 |
[Week #7] Pandas, NumPy 라이브러리 (1) | 2025.01.05 |
[Month #1] 삼정KPMG Future Academy 3기 1개월차 회고 (4) | 2024.12.31 |