본문 바로가기

Data_Analysis_TIL

"데이터분석가_넌 누구냐"시리즈_Chapter1

저의 글을 읽어보셨다면 전 캐나다에서 유학을 하다 대치동에서 고만 고만한 영어학원을 운영하는 원장이었습니다.

작년 코로나로 많은 힘든 시기로 인해 많은 career고민을 하던 끝에 데이터 분석을 깊이 공부해야겠다 해서 몇 개월을 공부를 했고

지금까지 공부해서 notion에 정리해두었던 것을 다시 티스토리에 옮기며 복습하려 합니다~~

돈을 들여 원생 모집을 해야 하는데 어느 아파트에 광고를 해야 효과가 극대화될까?
인터넷으로 광고해서 원생을 모집하려는데 어느 채널이 좋을까? 
내가 지금 학원 운영을 관둬야 하는가?
만약 관둔다면 어떤 industry가 potential이 있는가? 이러한 질문을 하며 항상 감으로 상황판단을 내렸는데 정량적인 판단을 내리고 싶었고 정량적인 판단을 내리는 사람이 data analyser이라는 직군이 있다는 걸 알게 되어 인생에서 잠시 쉬어가며 turning point을 만들어 보자고 마음먹었습니다~ 
쌍둥이 아빠여서 ㅎㅎ.. 아들 둘이어서 그런지 어찌나
우유를 많이 먹던지 ㅎㅎ
쉬운 결정은 아니었지만 결단했고 뒤도 안 돌아보고 공부에 전념했습니다~ 
then, let's hit the beginning!

데이터 분석가는 어디서 일할 수 있나? 

1. 제조 데이터의 생성과 활용

  • 원자재 구매, 제품 생산, 판매 과정에서 데이터 생성
  • IoT 기술을 활용한 제품 생산 과정에서 데이터 수집
    • 센서를 활용한 각 생산 제품의 공정 전후 특성을 수치화

2. 마케팅 및 운영 활용

  • 마케팅 성과 분석 및 매출/비용/성과 관리

3. 유통업/이커머스와 데이터 분석

4. 기존 유통업의 온라인 채널 확장

  • 유통업(대형마트 등)과 이커머스(오픈마켓,홈쇼핑 등)의 경계가 불분명

5. 상품 소싱 및 재고 관리

  • 상품 판매 데이터를 활용한 상품 선택 및 재고 관리

6. 판매 채널 효율화

  • 오프라인 매장 및 온라인 채널의 효율화
  • 상품 구성 및 우선 순위 설정
  • 연관 상품 추천

7. 콘텐츠업과 데이터 분석

    컨텐츠별 효율 및 성과 관리

  • 트래픽(조회수 및 체류 시간), 평점 등을 활용한 성과 분석

8. 채널 운영 전략 수립

  • 트래픽 증대를 위한 전략 수립
  • 고객 및 컨텐츠의 특성을 활용한 컨텐츠 추천

다양한 비즈니스와 데이터 분석

1. 제조업의 공정 분석

  • 이미 6시그마를 활용한 불량률/수율 최적화 달성
  • 실제 제조 과정의 다양한 요소를 활용한 공정 고도화
    • 제조 시설, 제조 인력, 원제품의 특성 등 활용
  • 센싱 데이터를 활용한 비파괴 불량 탐지 등

2. 통신업의 고객 관리 및 활용

  • 고객 유치 및 이탈 방어
  • 기지국 기반 위치 정보를 활용한 유동인구 등 분석

3. 제약회사 등 바이오 산업의 연구

  • 임상실험 데이터에 대한 분석

 

데이터의 가치

모두가 갖고 있는 데이터에 대한 기대감

  • 데이터는 금광
  • 데이터는 새로운 원유

아무도 알 수 없는 데이터의 가치

  • 단순히 데이터의 크기로는 가치를 측정 할 수 없음
  • 활용 가능성파급 효과를 계산해야 가치 측정 가능

데이터 분석의 가치

1.불확실한 미래를 대비

  • 데이터 속에 담긴 인사이트를 확인
  • 아무것도 결정되지 않은 미래를 예측 가능

2. 데이터 기반 의사 결정

  • 직감이나 경험이 아닌 객관적인 데이터 분석을 활용한 의사결정 가능

3. 새로운 소통의 언어

  • 데이터의 가치가 중요시되는 새로운 시대의 새로운 소통 언어
    • DT에서 중요한 역량으로 자리 매김

다양한 위치의 데이터 활용

  1. 내부 데이터
    • 사내 데이터베이스, 기존 연구 데이터 등
  1. 직접 수집한 데이터
    • 실험 결과, 설문/리서치 결과
  1. 외부 데이터
    • 정부 기관이 보유한 공공 데이터
    • 일부 업체가 공개한 민간 데이터
    • 협의나 구매를 통해 얻은 타사 데이터

외부 데이터 활용의 필요성

더 많은 변수간의 관계를 활용해서 심도 있는 분석이 가능 (노션에 저장된 내용을 API로 연결해서  가져오다보니 테이블이 호환이 잘 안됩니다. 아래 링크에 노션 원본 저장 내용 링크를 올려드렸습니다.)

[예제] 커피 전문점 데이터와 기상 데이터의 결합

Index 주문일자 주문시간 주문상품 주문금액 연령대 날씨(외부데이터) 기온
index_1 9월 27일 09:00 ... ... 9월 28일 15:07 ... ...   AGGREGATION API
index_2 SCHEMA.table FROM table   VISUALIZATION DASHBOARD
index_3 INTERFACE WHERE condition   MODELING CLASSIFICATION

비즈니스 데이터 분석

분석을 위한 다양한 방법을 적용 가능

  • API를 활용한 효율적인 데이터 처리
  • 알고리즘 적용한 효율적인 데이터 처리
  • 알고리즘 적용을 통한 새롭고 다양한 아이디어 도출
  • 오픈소스 분석 도구를 활용한 분석 다각화 및 비용 절감

필요한 역량

  1. 비즈니스와 업무, 데이터에 대한 이해 필요
  1. 분석도구를 활용한 프로그래밍 능력 필요
  1. 통계 및 알고리즘에 대한 개념이 이해 필요

확증적 분석과 탐색적 분석

확증적 데이터 분석 (confirmatory data analysis)

  • 미리 설정한 가설을 확인하기 위한 분석
  • 추정과 검정등을 활용
  • 연구의 데이터 분석 방법

탐색적 데이터 분석(exploratory data analysis)

  • 변수, 변수의 관계 등 데이터 자체의 특성을 확인하기 위한 분석
  • 간단한 기술 통계량 계산과 다양한 그래프를 활용
  • 모든 데이터 분석의 시작 단계에서 필수적인 과정

    예제) 데이터 속에 변수A열과 변수 B열이 관계가 있을까? 변수C관계를 변수 A와 변수B관계와 같이 엮으면 어떤 상관계수가 나올까?

기술 통계량의 활용

통계량

  • 데이터로부터 계산된 모든 숫자

기술 통계량

  • 변수나 변수의 관계 등 데이터의 특성을 설명 하는 통계량
  • 예제) 표, 평균, 최댓값, 분위수 등등...

데이터 시각화의 필요성

탐색적 데이터 분석에 활용

  • 변수의 특성과 변수 간의 관계를 그래프로 확인

분석 결과의 공유

  • 숫자 대신 시각 요소를 활용한 그래프로 분석 결과를 효과적으로 전달

요약의 한계

새로운 관측치에 대한 예측 불가

[예제] "이 고객은 얼마나 청구할까요?" - 이런 경우 다중회귀분석 알고리즘을 이용함.

복잡한 변수 관계 설명의 어려움

"130개 변수로 청구 금액을 어떻게 설명할 수 있을까요?"

요약과 모형

요약 (aggregation)

  • 데이터의 정보를 인식 가능한 수준으로 줄이는 과정
  • 그룹별 관측치 수, 평균, 최댓값 계싼 등 단순 숫자요약을 의미
    • 예제) "매장별 혼잡 시간대 계산"

모형 (model)

  • 정해진 알고리즘에 따라 데이터 속 변수와 관측치 간 관계를 확인
  • 가능성을 수치화한 확률로 설명
    • 예제) "날씨/요일/시간대에 따른 매장별 손님수와 주문 상품 예측"

노션 원본 링크: www.notion.so/chapter-1-b10a2f89d2ba4e6e8cf85ddbc8e5c998

선형회귀분석

Uploaded by Notion2Tistory v1.1.0

기술 블로그: kimsk920825.github.io/

 

 

0x530x650x610x6E

Committing with respect to Matrix, Calculus, Derivative, crawling and such related to data_analysis

kimsk920825.github.io

깃허브: github.com/kimsk920825

 

kimsk920825 - Overview

.. kimsk920825 has 19 repositories available. Follow their code on GitHub.

github.com

인스타: www.instagram.com/python_holic/