제가 맡은 부분은 데이터 확인 및 시각화 였습니다.
얻은 정보를 보기 쉽게 시각화 하고 발표를 위해 ppt준비를 했습니다.
먼저 크롤링을 완료하면 얻어지는 결과 입니다.
강남구 부터 카페의 정보가 저장되는 것을 확인 할 수 있습니다.
CSV 파일이 잘 저장 된것을 볼수 있습니다.
다음으로 시각화 자료들을 보겠습니다.
그래프를 활용하여 어떤 종류의 카페가 많은지 확인 할 수 있습니다.
확인 결과 카페,디저트 유형이 제일 많았고 다음으로 베이커리, 케이크 전문 순으로 갯수가 많은것을 확일 할 수 있습니다.
다음은 인구 정보 입니다.
국가 통계 포털에 '행정구역 시군구 별 주민등록 세대' 를 다운받아 시각화 했습니다.
송파구, 관악구, 강남구 순으로 인구가 많은 것을 확인 했습니다.
구 마다 알아 볼 수 있게 퍼센티지로 시각화 하여 정보를 정리 했습니다.
데이터를 들여다 보니 또 새롭게 얻을 수 있는 정보들이 있었고 간단히 데이터에 의미를 부여 해 보았습니다.
프로젝트를 마치며
첫 프로젝트라 어떻게 접근 해야 하는지 잘 몰랐습니다.
그러나 조원들이 서로 협력하여 아이디어를 내고 역할 분담을 하니 곧 수월하게 프로젝트가 마무리가 된 것 같습니다.
'데이터 분석을 하며 웹 크롤링을 할 일이 얼마나 있냐?' 물론 별로 크롤링을 많이 사용 하지 않을 것 같습니다.
그러나 첫 프로젝트이고 처음으로 호흡을 맞춘 프로젝트라 기억에 많이 남을 것 같습니다.
프로젝트를 하며 크게 3가지를 느꼈습니다.
크롤링을 사용하다보니 크롤링을 할 사이트의 선택이 굉장히 중요하다.
어떤 사이트를 사용 하는가에 따라 얻을 수 있는 정보와 정보의 퀄리티가 달라진다는 것을 느꼈습니다.
데이터 수집은 물리적인 시간이 오래걸린다.
웹 크롤링을 이용하여 직접 프로그램이 사이트를 돌아 다니며 데이터를 수집하니 물리적인 시간이 많이 필요 했습니다.
인터넷의 연결에 영향을 받기도 하며 에러가 난다면 처음부터 크롤링을 시작해 물리적인 시간이
오래 걸린다는 것을 느꼈습니다.
발표의 중요성.
다른 조의 발표를 들었을 때 발표의 중요성을 크게 느꼈습니다.
저 또한 이런 자리의 ppt 발표는 처음이였기에 많이 긴장 한것은 사실이였으나 다른 조의 발표를 보니 제가 많이 부족했다는 생각이 들었습니다. 만약 같은 자료를 들고 발표를 했다면 발표에 따라 우리의 작업물이 더 좋은 평가를 얻을 수도 있다.
라는 생각이 들었습니다.
긴 글 읽어주셔서 감사합니다.
'데이터 수집 프로젝트' 카테고리의 다른 글
2_웹 크롤링 (0) | 2023.12.18 |
---|---|
1_데이터 수집 프로젝트(웹 크롤링) (0) | 2023.12.13 |