삼정KPMG Future Academy 3기의 9주차 교육이 종료되었다. 이번 주는 정적/동적 웹 페이지에서 데이터를 수집하는 방법을 배웠다. 웹 스크래핑과 웹 크롤링, 오픈 API 활용법 등 다양한 방법론을 익혔는데, 정적 웹페이지의 데이터를 처리할 때 사용하는 BeautifulSoup 라이브러리와 동적 웹페이지에서 데이터를 수집하기 위한 Selenium 라이브러리를 학습하며 직접 네이버, 다음 등 포털에서 날씨 정보를 가져오는 실습시간을 가졌다. 아, requests 라이브러리를 활용한 데이터 요청 및 파싱 방법도 배웠다!
웹 데이터 수집뿐 아니라, 공공데이터 포털과 같은 오픈 API를 활용해 필요한 데이터를 얻는 방법도 이번 주 진도에 포함되었다. 수업 당일에는 병원에 내원해 치료받아야 하는 일정이 있어 출석은 못 했지만, 점심 시간, 저녁 시간을 활용해 자체적으로 보충 학습을 진행했다. 오픈 API 인증키를 발급받아 데이터를 요청하고, JSON 형식의 응답 데이터를 분석하며 데이터를 수집하는 흐름이었다.
이번 주 학습이 평소보다 특별했던 이유는 목요일 하루, 개별적으로 미니 데이터 분석 프로젝트를 진행했기 때문이다. 그동안 배운 내용을 바탕으로 스스로 과제 정의부터 데이터 선정, 분석 방법 선정, 직접 분석 수행 등.. 데이터 분석 프로젝트를 각자 진행해 보았고 금요일 오전엔 분석 결과를 간단히 발표하는 시간을 통해 한 주간 배운 내용을 체화할 수 있었다.
[이번 주 회고]
- Keep
- 강의 내용을 놓치지 않고 수업에 집중하며 잘 따라갔다. 실습도 최선을 다해 수행하고 복습도 미루지 않고 꾸준히 함!
- BeautifulSoup와 Selenium의 기본적인 메소드와 활용법을 익히면서, 실습 과정에서 잘 안 풀리는 이슈가 생길 때 Chat GPT에 물어보기 전에 스스로 생각하고, 고민해 보며 내 힘으로 문제를 해결해보려 노력했다.
- Problem
- Selenium을 처음 사용해 보다 보니 브라우저 자동화 과정에서 예상치 못한 에러들이 종종 발생했다. 특히, 동적 웹페이지에서 데이터를 정확히 추출하기 위한 CSS Selector 설정에 익숙하지 않아 초반에 시간이 소요되었다.
- 오픈 API 활용 시 인증 과정과 요청 파라미터 설정 방법이 초반에는 익숙하지 않아 반복적으로 문서를 참조해야 했다.
- Try
- Selenium 활용에 더욱 익숙해지기 위해 크롬 개발자 도구를 적극 활용하며, 다양한 웹페이지의 데이터를 크롤링하는 연습을 계속 해야겠다.
- 오픈 API 활용을 포함해 Kaggle이나 공공데이터 포털에서 어떤 데이터를 활용할 수 있는지, 데이터 리소스를 폭넓게 찾아보고 흥미로운 데이터는 따로 정리해 두면 나중에 데이터 분석 프로젝트를 할 때 도움이 많이 될 것 같다!
- 미니 데이터 분석 프로젝트 관련 회고는 따로 정리해 두었다!
- [미니 데이터 분석 프로젝트] 구독 서비스의 고객 유지율 향상을 위한 콜센터 운영 인사이트
그럼, 10주차도 화이팅 ♥
'[삼정KPMG] Future Academy 3기' 카테고리의 다른 글
[Month #2] 삼정KPMG Future Academy 3기 2개월차 회고 (0) | 2025.01.25 |
---|---|
[미니 데이터 분석 프로젝트] 구독 서비스의 고객 유지율 향상을 위한 콜센터 운영 인사이트 (1) | 2025.01.18 |
[Week #8] 파이썬 데이터 분석 & 데이터 시각화 (0) | 2025.01.13 |
[Week #7] Pandas, NumPy 라이브러리 (1) | 2025.01.05 |
[Month #1] 삼정KPMG Future Academy 3기 1개월차 회고 (4) | 2024.12.31 |