[독서] 세상을 읽는 새로운 언어,빅데이터_조성준

2021. 2. 3. 20:30자기 개발 🔎/① 독서

세상을 읽는 새로운 언어, 빅데이터_조성준

독서 기간: 2021.01.28 ~ 2021.02.03

별점: ★


동기

지난 2020년 여름. 방학을 맞이해 2달간 잠깐 한 회사에서 일하게 됐다. 이 전에 일했을 때도 느꼈던 것이지만, 대부분의 회사에서 데이터를 기반으로 의사결정이 이뤄지고 있음을 느꼈다. 나 역시 이를 긍정적으로 평가했으며, 그런 흐름에 함께 하고자 하는 욕망이 컸다. 입시를 준비하면서부터 일찍이 수학은 포기해버린 탓에 숫자와는 심리적 거리가 엄청났고.. 그래서 정량적 데이터에 접근하는 것이 조금 겁이 나기도 했다. 뭐부터 공부해야 할지.. 막막하던 참에 그냥.. 관련 자격증이라도 공부하면서 데이터에 익숙해져 보자! 하며 도전했던 것이 ADsP (데이터 분석 준전문가 자격증)이다. 1달 정도 공부하며 용어에 익숙해진 나는 이 책을 처음 읽는 게 큰 부담이 없었다. 또한 석사를 진학하며 세운 목표 중 Data informed design의 전문가가 되어보자는 것이 있었기에 학기 전 이 책을 읽어보는 것이 좋겠다고 생각했다. 

 

카카오 모빌리티는 전 직원이 데이터 분석을 할 수 있도록 전사 교육을 진행할 정도로 이를 중요하게 생각한다고 한다. 우리가 능숙하게 피피티나 워드를 다룰 수 있듯 몇 년 안에는 누구나 데이터를 다루는 시대가 다가올 것이다. 이 책은 빅데이터 시대를 살아가는 IT 준비생으로서 꼭 읽어야 하는 책이다. 데이터에 대한 기초적 개념을 잡아줄 수 있는 책이기 때문이다.

 

 


우리는 데이터의 시대를 살아가고 있다. 사물인터넷, 소셜미디어 등에서 발생하는 데이터가 폭발적으로 증가하고 있기 때문이다. 하지만 이 외에도 숫자, 텍스트, 이미지, 영상 등등 정형-비정형의 정말 다양한 데이터가 우리 주변에 존재한다. 하지만 데이터가 아무리 많아도 이것들은 서로 연결돼야만 데이터로서의 가치를 갖는다.

 

 

핀테크가 발달한 미국에서는 대출 신청자의 소셜 커뮤니티도 살핀다. SNS에 올리는 사진, 좋아요를 누르는 게시물, 팔로우하는 사람들까지. 그 사람의 행태 데이터까지 수집하는 것이다. 심지어 한 은행에서는 대출받는 이유를 글로 쓰게 하고 글에 등장하는 단어를 분석하여 대출 여부를 결정한다. 만약, 대출을 받고 싶다면 '절대로, 죽어도'라는 말 대신 '금리, 금리 차이'와 같은 단어나 구문을 사용하는 것이 좋을 것이다.

 

 

중요한 것은 분석을 꾸준히 수행해서 지속적으로 인사이트를 도출하고 적절한 실행을 한다면 리스크를 최소화할 수 있다는 점이다.

 

 

빅데이터를 활용하는 것은 사람의 일을 대체한다기 보다도 사람이 신경 쓸 수 없는 부분, 일일이 분석할 만한 가치가 없다고 생각되는 작은 일들을 데이터 분석으로 대신하는 것이다.

 

 

데이터 분석의 최종 목표는 인사이트가 아닌 가치 만들기이다. 즉, 어떤 가치를 만들 것인지가 제일 중요하다. 이를 위해서는 가치를 먼저 생각하고 그 가치를 성취하기 위해 어떤 인사이트를 뽑아야 하는지. 그 인사이트를 뽑기 위한 데이터는 무엇인지를 역으로 생각해야 한다.

 

 

문제의 원인을 데이터로부터 찾아 이를 제거하는 액션을 취해야만 우리가 원하는 문제 해결, 즉 가치 창출을 할 수 있다. 하지만 소비자들의 말과 실제 행동은 다르다. 이는 정답을 말하기가 부담스럽기도 하고, 본인의 마음을 제대로 이해하고 있지 못하기 때문이다. 소비자는 물어볼 대상이 아니라 '관찰'대상일 뿐이다.

 

이와 비슷한 문장이 <인스파이어드>에서도 등장했다. 이는 UX 디자이너로서 사용자 조사를 할 때 필수적으로 갖춰야 할 마인드 셋이다.

 

 

 


책 내용 간단 정리

 

빅데이터의 3V

더보기

양 Volume

  • 세상 모든 것이 데이터 (출생신고, 경제활동, IoT...)

  • 빅데이터를 분석할 때에는 표본 추출을 하지 않는다. (30만 명이 아닌 2000만 명 모두를 분석)

    • 장점: 고객들의 트렌드가 아닌 개별 고객에 대한 이해 및 예측까지 가능 (=개인화)

    • 센서, 스마트폰, 인터넷(5G 기술), 컴퓨터 덕분 +알고리즘 고도화

생성 속도 Velocity

  • 데이터가 순식간에 발생하여 한꺼번에 밀려들어 온다.

  • 실시간으로 처리되는 데이터들

    • 사례 1. 내비게이션- 실시간으로 교통 상황을 파악해 빠른 길 안내

    • 고객은 데이터 제공자이자 데이터의 수혜자

다양성 Variety

  • 과거: 숫자와 같은 정형 데이터 / 현재: 글, 이미지, 영상 등을 포함한 비정형 데이터까지 포함

    • 사례 1. 중국은 CCTV를 통해 모든 국민들의 얼굴 이미지를 확보했음.

 

 

데이터의 종류

더보기

숫자 데이터

  • 사례 1. 금융데이터-주식, 현금인출기, 구매내역

  • 사례 2. 마트의 카트-센서를 통해 매대 앞에서 얼마나 오래 머물렀는지 등을 측정

    • 카트의 작은 기기에 고객의 포인트 카드를 삽입하여 개인화된 쿠폰이나 더블 포인트 제공

    • 그가 구매한 상품들과 연결되고 그가 과거에 샀던 상품들과도 연결시킬 수 있음.

    • 데이터가 아무리 많아도 이 것들은 서로 연결돼야만 데이터로서 가치를 갖는다.

  • 사례 3. 건설 장비업체 고마츠

    • 굴삭기에 센서를 달아 이상이 생기면 유지 보수를 해줌.

    • GPS도 있어서 굴삭기가 언제 어느 정도 이용되는지 현황을 파악

  • 사례 4. 전 세계 사람들 간의 친밀관계를 정량화한 것=소셜 네트워크

-
텍스트 데이터

  • 사례 1. 해외여행 시 숙소 검색, 후기를 많이 참고함.

  • 사례 2. 콜센터의 상담 전화 내용을 STT기술을 통해 텍스트로 변환

    • 실시간으로 컴퓨터가 듣고, 고객은 불만이 많아 서비스 이용을 중단하고 이탈할 것이라 판단이 되면 대책을 실시간으로 세울 수 있을 것.

  • 사례 3. 연방공개시장(FOMC) 위원들이 1년 동안 한 수십 건의 연설을 텍스트화 하여 분석

    • 자주 사용한 단어, 갑자기 등장한 단어, 말의 뉘앙스 등을 통해 현재 경제 상황과 미래를 어떻게 바라보는지를 알 수 있음.

-
이미지 데이터

  • 사례 1. 페이스북 이미지 자동 태깅

  • 사례 2. 문맹률이 높은 인도에서는 극빈자에게 지급하는 정보 보조금을 도용해 대신 받아가는 것을 막고자 전 국민의 홍채 사진을 확보해 신분증에 넣었고, 홍채가 확인되어야만 보조금을 지급함.

  • 사례 3. 품질 검사

-
모든 것은 숫자로 바뀌어야 데이터가 된다.

  • 빅데이터는 숫자, 텍스트, 이미지가 따로 활용되는 것이 일반적이지만, 이들을 동시에 분석할 수도 있다.

    • 핀테크가 발달한 미국에서는 대출자의 소셜 커뮤니티도 살핌.

      → 팔로우하는 사람들, 올리는 사진, 좋아요 누르는 패턴까지 그 사람의 행태를 심사

    • 대출받는 이유를 글로 쓰게 하고 그 글에 등장하는 단어를 분석

      → 과장된 표현을 쓰는 사람보다 '금리', '금리 차이' 등의 단어를 많이 사용하는 사람 선호

  • 컴퓨터가 데이터를 처리하기 전에 전부 숫자로 변환해야 함.

 

빅데이터의 무한한 가능성

더보기

 

  • 클라우드를 통한 데이터의 분산화

    → 일을 나눠서 하는 것. 데이터 분석에 드는 시간을 획기적으로 줄일 수 있음.

  • 비즈니스 관점에서 빅데이터를 볼 필요가 있음.

    • 빅데이터로 어떻게 새로운 사업을 만들고, 고객과 소통하고, 매출을 늘리고, 비용을 줄이며~이에 대해 고민해야 함.

-
가치 창출

  • 데이터 사이언티스트 : 분석가

  • 의사결정자: 실무 담당자

  • 분석과정을 통해서 인사이트로 바뀌고 인사이트는 액션을 통해서 가치를 창출함.

  • 인사이트를 도출하는 과정=분석, 애널리틱스

  • 금전적 가치, 비금전적 가치

  • 누군가가 아쉬워하는 것을 해결해주는, 만족스럽게 해주는 가치 창출

 

-
데이터 기반의 인사이트

  • 객관적

    • 최고 수준의 전문가들도 각자의 경험이 조금씩 달라 주관적인 인사이트를 가짐

    • 데이터는 객관적이기 때문에 상반된 인사이트가 도출되지 않음.

  • 대상의 개인화 가능

    • 사례. 센서를 통해 엔지 내부 상태를 데이터화해 개인에게 교환 시기를 문자 알림.

  • 24시간 연속적 모니터링 가능

    • 빅데이터를 다루는 인사이트 기계는 쉬지 않는다.

-
분석 가치 에스컬레이터

  1. 도대체 무슨 일이 일어났는가?

  2. 앞으로 어떤 일이 일어날 것인가?

  3. 그러면 우리는 어떻게 해야 하는가?

  • 과거의 상황 이해 → 원인 이해 → 미래 예측 → 액션 플랜을 파악

-
묘사

  • 가장 기본적인 지표로 과거에 일어난 일 , 지금 일어나고 있는 일을 정확하게 정리해 보는 것

  • 사용자들의 반응이 어떠한지 등도 분석

    • 소비자 반응은 단순히 좋다 나쁘다가 아니고, 무엇을 좋아하고 무엇을 싫어하는지까지 분석해야 함.

  • 데이터를 시각화- 숫자나 문서 데이터를 다양한 형태의 그림으로 표현해서 직관적으로 이해할 수 있도록 해주는 것

    • 스팟파이어, 태블로, 클릭뷰

-
진단

  • 묘사 단계에서 찾아낸 인사이트에 대해 그 원인을 이해함으로써 한 단계 더 깊이 들어가고자 함.

    • 예- 매출이 전분기 대비 작은가?

  • 이유를 밝히는 것

  • 데이터는 객관적이기에 상반된 인사이트는 도출되지 않음

-
예측

  • 축적된 데이터를 통해 미래에 대해 예측

    • 어떤 고객이 이탈할 가능성

-
처방

  • 미래 상황을 예측한 후에 원하는 결과를 얻기 위해서 무엇을 하는지 찾는 단계


인공지능

더보기

 

  • 빅데이터를 분석하는 핵심 방법론=인공지능

    • 빅데이터 입장에서는 인공지능이 자신을 인사이트로 만들어 주는 행위이자 절차

    • 인공지능에게 빅데이터는 학습의 재료

-
지식기반 인공지능

  • 연역적 추론

  • 모든 지식은 'A이면 B다.'같은 형태의 명제로 만들고 면제 간의 연역적 추론을 하여 새로운 지식과 사실을 만들어 내는 방식

  • 0.01%의 극소수의 수학자와 공학자들만이 일상에서 연역적 추론을 함.

-
머신러닝, 기계학습

  • 귀납적 추론

  • 사진 같은 데이터를 여러 개 반복적으로 보여줌으로써 컴퓨터가 자연스럽게 사물을 구분할 수 있게 만드는 것

    • 충분히 많은 데이터를 반복적으로 보여주고 수정하는 아주 빠른 컴퓨터 필요

-
튜링 테스트-20c초

  • 컴퓨터가 사람처럼 인지하고 행동하면 되는 것. 사람처럼 생각할 필요는 없다.

  • 결과 위주의 사고

    • 비행체는 하늘을 나는 것. 새도, 비행기도 비행체

-
인공지능의 역사

  1. 기호 주의

    • 모든 지식을 기호로 표현하겠다는 것 (기호란 문자를 뜻함)

    • 'If A, then B' 참과 거짓으로 증명 가능한 것

    • 두 개의 명제를 결합하여 명제를 기계적으로 도출. 연역적 추론

  2. 기호 주의 암흑기

    • 1950년 상당한 연구비를 투입했지만 실망스러운 결과

    • 지식의 방개함과 지식 자체가 비 일관적이고 주관적이기 때문에 한계를 가짐

    • 더해, 할 줄을 알지만 체계적으로 설명할 수 없는 암묵지는 명제로의 변환이 어려움.

      • 암묵지- 걷기, 잡담하기, 운전하기 등...

  3. 연결주의

    • 인간지능을 따라 하는 인공지능 / 귀납적 추론

      • 뇌의 기본 단위인 뉴런과 이를 연결하는 시냅스와 유사

      • 반복적인 외부 자극에 의해 변화(연습을 통한 뉴런의 연결망 구조 변화)

    • 데이터의 반복 제시를 통한 시냅스 강도의 변화로 학습을 구현-머신러닝

  4. 연결주의 암흑기

    • 1970~80 네트워크로 구성된 단순한 컴퓨터 퍼셉트론 제안-비판

    • 1980년대 후반 퍼셉트론을 다층구조로 확대한 다층 퍼셉트론의 학습 방법인 역전파 알고리즘 개발

      • 또다시 겨울기, 분석 데이터가 없고, 컴퓨터의 계산 속도가 현저히 느림.

  5. 머신러닝

 

빅데이터 활용법

더보기

 

  • 가치를 만들기 위해 어떤 인사이트가 필요하고, 인사이트를 만들기 위해 어떠한 데이터가 있어야 하는지 거꾸로 생각하는 것이 기획

  • 플랫폼 가치의 핵심에는 빅데이터가 존재

  • 분석을 꾸준히 수행해서 지속적으로 인사이트를 도출하고 적절한 실행을 한다면 리스크를 최소화할 수 있음.

  • 빅데이터 활용은 사람의 일을 대체한다기보다 사람이 신경 쓸 수 없는 부분, 일일이 다 분석할 만한 가치가 없는 작은 일들을 데이터 분석으로 대신하는 것이다.

  • 모든 신기술은 득을 유지하면서 실을 최소화하는 방향으로 받아들여졌음.

-
신규 서비스 분야

  • 아마존-구매자들의 평점과 평가 글

  • 호텔스 닷컴-가격대와 호텔 등급 등을 조절하는 필터

-
이동수단

  • 우버-승차거부 X:목적지 정보가 승객이 탑승하고 나서야 기사에게 공개됨

  • 수요가 많은 시간과 지역을 우버 기사에게 공유함.

-
VoC는 소셜미디어에서

  • 사용자 중심의 기획-사용자의 니즈에서부터 시작

    • 일반적으로는 설문조사 등을 통해 리서치를 진행

    • 하지만 최근 소셜미디어를 통해 사용자의 평을 체계적으로 분석

  • 소비자는 물어볼 대상 X 관찰의 대상

    • 소비자들의 말과 실제 행동은 다르기 때문

-
소비자의 관심은 제품이 아닌 '서비스'

  • 사례 1. 제너럴 일렉트릭(비행기 엔진 회사)은 유지, 보수해주는 서비스 개발

    • 항공기가 운항할 때마다 데이터를 다운로드한 후 엔진 부붐의 수명을 분석해 필요한 부분만 교체

  • 문제의 원인을 데이터로부터 찾아 이를 제거하는 액션을 취해야만 우리가 원하는 문제 해결, 가치 창출이 가능함.

-
마켓 세그먼테이션-클러스터링 기법

  • 고객들을 유사한 그룹들로 나누어 각 그룹을 깊이 이해하고자 하는 것

    • 무슨 기준으로 고객들의 유사성을 정의할 것인가?

  • 고객을 보다 세분화해서 이해함으로써 맞춤형 대응

-
인사이트는 상관관계

  • 데이터는 인과관계가 아닌 상관관계이다.

    • 원인으로 작용하는 여러 잠재요인이 있을 수 있기에 완벽한 인과관계가 될 수 없음

 

가치 탄생시키기

더보기
  • 인사이트- 대상에 대한 묘사와 원인 분석: 시각화, 연관분석, 클러스터링

  • 포사이트- 대상에 대한 예측: 예측 및 분류, 이상 탐지

-
시각화

  • 비즈니스 인텔리전스, 시각화된 패턴을 통해 직관적인 인사이트 제공

  • 가장 중요한 것은 무엇을 볼 것인지 결정하는 일, 가치를 만들어줄 수 있는 인사이트를 결정해야 함.

    • 사례 1. 자동차 대시보드: 차종, 메이커마다 디자인은 제각각이지만 보여주는 수치는 동일(속도, RPM, 연료, 온도) → 운전자에게 절대적으로 필요하기 때문에

  • 데이터를 모으고 정제하는 작업이 상당히 필요.

  • 직관적으로 이해할 수 있는 그래프 필요

-
연관분석

  • 연관성이 있는 것들을 찾는 것, 인과관계는 XX

  • 동시에 발생하는 사건이나 조건 또는 동시에 구매되는 물품 등을 파악하는 분석 방법

-
클러스터링, 군집화

  • 사람 또는 대상을 비슷한 것끼리 묶는 방법

  • 유사한 사람들끼리 군집화해놓으면 각 대상으로 클러스터에 맞는 맞춤형 제품과 서비스를 마케팅할 수 있음.

    • 사례1. 주식 투자 분야에서 가격 변동이 유사한 주식 종목들끼리 그룹화

    • 사례 2. 미국의 빌 클린턴 대통령-미국인을 7개 그룹으로 나눠 각각의 그룹에 맞는 메시지를 준비

-
예측 및 분류

  • 분류-우편물 분류 / 예측-주식 예측

  • 예측 및 분류 기계, 컴퓨터, 소프트웨어를 만드는 방법 = 머신러닝

  • 의사 결정 나무-가장 빈번하게 사용하는 예측/분류법

    • 맨 위에서부터 질문에 답하면서 아래로 따라 내려오며 예측하는 것.

-
이상 탐지

  • 비정상을 탐지하는 것

    • 보험, 세금, 신용카드 사용에서의 사기 탐지

    • 공정에서의 이상 상황 및 기계 장비의 이상도 탐지

  • 이를 구현하기 위해 기존의 통계적 패턴인식 분야에서 많이 연구함.-가우시안 혼합 모형


4차 산업혁명에서 데이터 활용하기

가치 기획

  • 빅데이터 분석의 최종 목표는 인사이트가 아니다. 최종 목표는 가치 만들기이다.

  • 반드시 가치를 먼저 생각하고, 그 가치를 성취하기 위해 어떤 인사이트를 뽑아야 하는지, 그 인사이트는 어떤 재료를 필요로 하는지를 역으로 생각해야 한다.

 

  • 가치 기획 → 기획(인사이트는 무엇인지, 필요한 데이터는 무엇인지 알아내는 단계) → 분석 (데이터 > 인사이트) → 확인(검증) → 실행 (인사이트 > 가치)

-
기획-의사결정자, 현업을 잘 아는 사람

  • 성공적인 기획의 3요소 : 임팩트, 데이터, 분석

    • 가치를 만드는 비즈니스 실행과 그 실행의 근거가 되는 인사이트를 생각해야 함.

    • 어떤 데이터를 수집해야 하는지

    • 데이터 재료를 가지고 원하는 인사이트를 얻으려면 애널리틱스의 어떤 기법들을 사용해야 하는지

분석-데이터 사이언티스트

확인-의사결정자

실행-의사결정자

 

 

마침.

728x90