Summary

This document provides a summary of data types, data management, and data analysis concepts. It delves into the differences between qualitative and quantitative data and explores the significance of data in various contexts such as business intelligence and knowledge management within a broader perspective of big data analysis.

Full Transcript

1과목 데이터의 유형 ▶ 정성적 데이터: 언어·문자로 표현 (ex. 회사 매출이 증가함. ←이런 식으로 기록) ⤷ 언어나 문자로 표현하면 저장·검색·분석에 당연히 많은 비용이 소모 ⤷ 정성스럽게 길게도 썼네~ 이런 식으로 암기 ▶ 정량적 데이터: 수치·도형·기호로 표현 (ex. 나이, 몸무게..)...

1과목 데이터의 유형 ▶ 정성적 데이터: 언어·문자로 표현 (ex. 회사 매출이 증가함. ←이런 식으로 기록) ⤷ 언어나 문자로 표현하면 저장·검색·분석에 당연히 많은 비용이 소모 ⤷ 정성스럽게 길게도 썼네~ 이런 식으로 암기 ▶ 정량적 데이터: 수치·도형·기호로 표현 (ex. 나이, 몸무게..) ⤷ 간단하게 정형화되어있어 비용소모가 적다. ⤷ 정량(양) 으로 표현해서 정량적 데이터 지식 경영의 핵심 이슈 ▶ 암묵지: 메뉴얼화 되어있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않음 ⤷ 김치 담그기, 자전거 타기 등등 ⤷ 개인에게 내면화 → 조직에게 공통화 ▶ 형식지: 문서나 매뉴얼화된 지식 ⤷ 교과서, 비디오 등등 ⤷ 언어·숫자·기호로 표출화 → 개인의 지식으로 연결화 DIKW ▶ D(Data) 데이터: 가공하기 전의 순수한 수치나 기호 ▶ I(Information) 정보: 패턴을 인식하고 의미를 부여한 데이터 ▶ K(Knowledge) 지식: 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 ▶ W(Wisdom) 지혜: 창의적 아이디어 데이터베이스의 특징 ▶ 통합된 데이터 : 동일한 내용이 중복되어 있지 않음 ▶ 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장 매체에 저장됨 ▶ 공용 데이터 : 여러 사용자가 데이터를 공동으로 이용 ▶ 변화되는 데이터 : 새로운 데이터의 삽입, 기존 데이터 삭제, 갱신으로 항상 변화해도 현재 의 정확한 데이터를 유지해야함 ▶데이터베이스 설계 절차: 요구사항 분석→개념적 설계→논리적 설계→물리적 설계 https://blog.naver.com/ikyoon95 륑큐 작성 기업 내부 데이터베이스 ▶ OLTP(On-Line Transaction Processing) ⤷데이터베이스의 데이터를 수시로 갱신하는 프로세싱 ⤷온라인 거래처리로 다양한 과정의 연산이 하나의 단위 프로세싱으로 실행되도록 하는 단순 자동화 시스템 ▶ OLAP(On-Line Analytical Processing) ⤷ 다차원의 데이터를 대화식으로 분석 ▶ CRM(Customer Relationships Management: 고객 관계 관리) ⤷ 고객과 관련된 내·외부 자료를 분석해 고객 중심 자원을 극대화하고 이를 토대로 효 율적인 마케팅에 활용 ⤷ 설명에 고객 관리 단어가 있으면 CRM이라 생각 ▶ SCM(Supply Chain Management: 공급망 관리) ⤷ 공급망 단계를 최적화해 고객을 만족시킴 ⤷ 공급망·최적화 단어가 있으면 SCM ▶ ERP(Enterprise Resource Planning) ⤷ 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효 율화를 기하기 위한 시스템 ⤷ 기업 경영자원·효율화 단어가 있으면 ERP ▶ BI(Business Intelligence) ⤷ 기업이 보유하고 있는 데이터를 정리하고 분석해 의사결정에 활용 ⤷ 리포트 중심의 도구 ▶ BA(Business Analytics) ⤷ 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법 ⤷ 통계·수학에 초점 빅데이터 ▶ 빅데이터를 나타내는 4V : Volume(양) Variety(다양성) Velocity(속도) Value(가치) ▶ 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공해주었다. https://blog.naver.com/ikyoon95 륑큐 작성 빅데이터에 거는 기대 비유 ▶ 산업혁명의 석탄, 철: 혁명적 변화를 가져올 것 ▶ 21세기 원유: 산업전반에 생산성을 향상시키고 기존에 없던 새로운 범주의 산업 형성 ▶ 렌즈: 렌즈를 통해 현미경이 생물학 발전에 미친 영향 만큼이나 데이터가 산업 발전에 영 향을 줄 것 (ex. 구글의 Ngram Viewer) ▶ 플랫폼: 공동 활용의 목적으로 구축된 유무형의 구조물로서 역할 본질적인 변화 ▶ 사전처리 → 사후처리 : 기술이 발전해서 그냥 닥치는 대로 데이터를 모아도 된다. ▶ 표본조사 → 전수조사 : 마찬가지로 닥치는 대로 데이터를 모으면 된다. ▶ 질 → 양 : 이것도 마찬가지.. ▶ 인과관계 → 상관관계 : 엄청나게 모은 데이터들을 분석해 서로 상관이 있는지 본다. 가치 선정이 어려운 이유 ▶ 데이터를 재사용하거나 재조합해 활용하면서 특정 데이터를 언제·어디서·누가 활용할지 알 수 없게 되어 가치 산정하기 힘듦 ▶ 기술이 발전하면서 ‘기존에 없던 가치’를 창출해서 가치 산정이 어려움 ▶ 현재는 가치가 없어도 나중에 기술이 발전하면 가치가 있는 데이터가 될 수도 있기 때문에 현재 어떤 데이터가 쓸모없는지 확정짓기 힘듦 빅데이터 기본 테크닉 ▶ 연관규칙학습 : 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? ▶ 유형분석 : 이 사용자는 어떤 특성을 가진 집단에 속하는가? ▶ 유전자 알고리즘 : 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송하는가? ⤷최적해를 구하는 알고리즘( 최적화·최적해 라는 단어가 있으면 유전자 알고리즘) ▶ 회귀분석 : 구매자의 나이가 구매 차량 타입에 어떤 영향을 끼치는가? ▶ 감정분석 : 고객의 평가나 리뷰를 통한 분석 https://blog.naver.com/ikyoon95 륑큐 작성 빅데이터 시대 위기 요인 ▶ 사생활 침해: SNS에 올린 데이터로 사생활 침해 할 수 있을 것 ⤷익명화 기술 발전이 필요할 것 ⤷ 개인정보 사용을 제공자의 동의에서 사용자의 책임으로 ▶ 책임 원칙 훼손: 범죄 예측 프로그램을 돌려서 범죄도 저지르지 않은 사람을 체포하면 문 제가 될 것 ⤷ 명확히 나타난 결과에 대해서만 책임을 물어야함 (결과기반책임원칙) ▶ 데이터 오용: 데이터 분석 결과가 항상 옳은 것은 아님 ⤷ 스티브 잡스가 사람들에게 아이디어를 물었다면 아이폰은 나오지 못했을 것이라 함 ⤷ 불이익을 당한 사람들을 대변할 전문가(알고리즈미스트)가 필요해짐 빅데이터 활용 3요소 ▶ 데이터 기술 인력 ⤷빅데이터니까 데이터는 당연히 있어야하고 다양한 분석 기술이 있으니 기술도 있어야하 고 데이터 사이언티스트나 알고리즈미스트 같은 직업이 나타나므로 인력도 필요하다. 데이터 사이언스 ▶ 데이터와 관련된 모든 분야의 전문지식을 종합한 학문 ⤷정형·비정형을 막론하고 데이터 분석 (총체적 접근법) ⤷데이터로부터 의미있는 정보를 추출해 내는 학문 ▶ 분석적 영역: 수학, 확률모델, 분석학 등등 과 같은 이론적인 지식 ▶ IT: 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨팅 과 같은 프로그래밍적 지식 ▶ 비즈니스 분석: 커뮤니케이션, 시각화, 프레젠테이션 과 같은 비즈니스적 능력 데이터 사이언티스트 요구 역량 : 대부분의 전문가들이 호기심이 필요하다고 언급 ▶하드 스킬(Hard Skill): 빅데이터에 대한 이론적 지식, 분석 기술 ⤷(가트너가 제시한 역량에는 포함되어있지 않음) ▶소프트 스킬(Soft Skill): 통찰력(정확성 보다는) 있는 분석능력, 설득력 있는 전달(스토리텔 링·시각화), 협력 능력과 같은 인묵학적 능력 ⤷인문학적 능력의 중요성이 왜 나타났는가? ⤷단순(컨버전스)세계에서 복잡(디비전스)세계로의 변화 비즈니스의 중심이 생산에서 서비스 & 시장 창조로 이동 https://blog.naver.com/ikyoon95 륑큐 작성 DBMS(Data Base Management System) ▶데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어 ▶관계형 DBMS: 테이블(표)로 데이터 정리한다고 생각 ▶객체지향 DBMS: 정보를 객체(이미지나 영상)으로 정리한다고 생각 SQL: 데이터 베이스에 접근할 수 있는 데이터 베이스 하부언어 ⤷집계함수 중 COUNT()만 수치형, 문자형 둘 다 사용가능 개인정보 비식별 기술 ▶데이터 마스킹: 홍길동 → 홍** ▶가명처리: 홍길동 → 임꺽정 ▶총계처리: 갑:165cm 을:170cm 병:175 → 학생들 키 합 :510cm 평균키 :170cm ▶범주화: 홍길동 35세 → 홍길동 30~40세 하둡: 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술 데이터 유형 ▶정형 데이터: 관계형 데이터베이스, CSV 등 형식이 정해져 있는 데이터 ▶반정형 데이터: 눈으로 봤을 때 무슨 정보인지 모르는 데이터(센서데이터처럼), 한번 변환이 있어야함, 형태(스키마,메타데이터)가 있음 ▶비정형 데이터: 소셜데이터, 영상, 이미지 와 같이 형태가 정해져있지 않은 데이터 데이터 웨어하우스 ▶사용자의 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 하나의 통합적이고 시간 성을 가지는 비휘발성 데이터의 집합 ▶전사적 차원에서 일관적인 형식 유지 https://blog.naver.com/ikyoon95 륑큐 작성 2과목 분석 기획에서의 데이터 사이언스 역량 ▶ 분석 역량: 문제 영역에 대한 전문성, 수학·통계학적 지식 ▶ 균형 잡힌 시각, 데이터·프로그래밍 기술 역량 분석 대상과 방법 방법 대상 Known Un-Known 최적화 통찰 Known (Optimization) (Insight) 솔루션 발견 Un-Known (Solution) (Discovery) ▶ 방법과 대상을 둘 다 알면 최적화, 방법을 모르면 방법을 찾아야 하므로 솔루션 둘 다 모 르면 발견 대상을 모르면 통찰 분석 기획 방안 목표 시점 별 분석 기획 방안 과제중심적 접근 장기적인 마스터 플랜 Speed & Test Accuracy & Deploy Quick & Win Long Term View 문제 해결 문제 정의 ▶ 과제 중심적 접근은 말그대로 과제를 정확도 보다 빠르게 해결하는데 중점을 둠 분석 기획시 고려사항 ▶ 가용 데이터 : 분석의 기본이 되는 데이터 확보 및 파악 ▶ 적절한 유스 케이스 : 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션 최대한 활용 ▶ 장애요소들에 대한 사전계획 수립 : 분석 수행 시 일어나는 문제에 대해 고려가 필요함 이 행 저해요소 관리, 일회성 분석에 그치지 않고 조직의 역량으로 내재화 https://blog.naver.com/ikyoon95 륑큐 작성 데이터 기반 의사결정의 필요성 ▶ 경험과 감에 따른 직관적인 의사결정 → 데이터 기반의 의사결정 ▶ 합리적 의사 결정을 가로막는 장애요소: 프레이밍 효과, 고정 관념, 편향된 생각 ⤷동일 상황임에도 개인의 판단·결정이 달라짐 분석 방법론 (구성요소 : 상세한 절차·방법·도구와 기법·템플릿과 산출물) ▶ 폭포수 모델: 단계를 순차적으로 진행, 이전 단계가 완료되어야 다음 단계로 진행 가능, 하 향식(Top Down)으로 진행 ▶ 나선형 모델: 여러번의 개발과정을 거쳐 점진적으로 프로젝트 완성 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승한다. ▶ 프로토타입 모델: 일부분을 우선 개발하고 개선 작업을 거치는 것 중요한 기능들이 포함되 어 있는 시스템의 초기 모델 KDD 분석 방법론 ▶ 데이터셋 선택 → 데이터 전처리 → 데이터 변환 → 데이터 마이닝 → 분석 결과 평가 ▶ 전처리 과정에서 이상값, 잡음을 식별하고 데이터 변환 과정에서 분석 목적에 맞는 변수 선택 및 차원 축소 과정을 거친다. CRISP-DM 분석 방법론 ▶ 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 & 분석 ▶ CRISP-DM 에서의 데이터 준비 과정은 KDD 분석에서의 데이터 변환과정과 유사 모델링 단계에서 모델 평가는 수행하지만 모델 적용성 평가는 그 다음 단계에서 진행함 빅데이터 분석 방법론 ▶ 분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 & 전개 ⤷ 추가적인 데이터 확보가 필요한 경우 데이터 준비 단 계로 다시 진행 ▶ 분석 기획 단계는 범위 설정 → 프로젝트 정의 & 계획 → 위험 식별 & 대응으로 이루어짐 https://blog.naver.com/ikyoon95 륑큐 작성 지도 학습 vs 비지도 학습 지도 학습 비지도 학습 데이터 자체의 결합, 연관성을 중심으로 명확한 목적하에 데이터 분석을 실시 데이터의 상태를 표현하는 것 자료가 입력 변수와 출력변수로 주어짐, 데이터 마이닝에서 자료가 출력변수 없이 예측 모형을 얻을 때 사용 입력변수만 주어지는 경우 하향식 접근 방식: 문제가 주어지고 이에 대한 해법을 찾기 위해 과정이 진행(지도 학습) 분석적으로 사물을 인식하려는 ‘Why’ 관점 문제 탐색 → 문제 정의 → 해결방안 → 탐색 타당성 검토 순으로 진행 ▶ 문제 탐색: 빠짐없이 문제를 도출하고 식별하는 것이 중요하다. 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요하다. 거시적 관점: STEEP(사회·기술·경제·환경·정치) 경쟁자 확대 관점: 대체자·경쟁자·신규 진입자 시장의 니즈 탐색 관점: 고객·채널·영향자 비즈니스 모델 기반 : 업무·제품·고객·규제와 감사·지원 인프라 ⤷ 「지원 인프라」 「업무」 중에 「고객」이 「제품」을 「규제와 감사」 했다. 로 외우기 ▶ 타당성 검토: 대안을 과제화 하기 위해서 다각적인 타당성 분석이 수행되어야함 경제적 타당성은 비용대비 편익 분석 관점의 접근이 필요 데이터 타당성은 데이터 존재 여부, 분석 역량이 필요 기술적 타당성은 역량 확보 방안을 사전에 수립 상향식 접근 방식 : 비지도 학습 방법에 의해 데이터 분석을 함 ⤷문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 탐색 사물을 있는 그대로 인식하는 ‘What’ 관점 분석과제 정의서: 분석별로 필요한 소스데이터, 분석방법, 데이터 입수 및 분석 난이도, 상 세 분석 등을 정의함 https://blog.naver.com/ikyoon95 륑큐 작성 분석 과제 관리를 위한 5가지 주요 요인 ▶ 데이터 크기 & 데이터 복잡성 & 속도 & 분석 복잡성 & 정확성·정밀도 ▶ 분석 복잡성에서 정확도와 복잡도는 trade off 관계가 존재한다. (정확도를 생각해 분석을 실행하면 복잡해질 것) & 정확성과 정밀도도 trade off 관계가 되는 경우가 많다. 분석 프로젝트 관리 방안 10가지 ▶범위 시간 원가 품질 통합 조달 자원 리스크 의사소통 이해관계자 ⤷외운다면 [범통이] [조리품] [시원 의자] 로 외우기 범위통합이해관계자 조달리스크품질 시간원가 의사소통자원 분석 마스터 플랜 수립 ▶ 전략적 중요도, 비즈니스 성과 및 ROI, 실행 용이성 등 기준을 고려해 적용 우선순위 결정 ⤷전략적 중요도는 전략적 필요성과 시급성으로 이루어짐 실행 용이성은 투자 용이성과 기술 용이성으로 이루어짐 ▶ 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준을 고려해 Analytics 구현 로드맵 수립 ISP: 정보기술 또는 정보 시스템을 전략적으로 활용하기 위하여 중장기 마스터 플랜을 수립 하는 절차 https://blog.naver.com/ikyoon95 륑큐 작성 ROI 관점 빅데이터 특징 ▶ 투자 비용 요소(난이도) : 3V= Volume, Variety, Velocity ▶ 비즈니스 효과(시급성) : Value 사분면 분석 ▶우선순위 : 시급성 기준으로는 Ⅲ→Ⅳ→Ⅱ (반시계 방향) 난이도 기준으로는 Ⅲ→Ⅰ→Ⅱ (시계 방향) 분석 마스터 플랜 세부 이행 계획 수립 ▶ 폭포수 방식도 있으나 반복적인 정련과정을 통하여 프로젝트의 완성도를 높이는 방식을 주 로 사용 ▶ 반복적인 분석체계라고 모든 단계를 반복하는 것이 아닌 모델링 단계를 중점으로 반복적으 로 진행하고 세부적인 일정계획도 수립해야함 분석 거버넌스 구성 요소 : 조직(Organization) 프로세스(Process) 시스템(System) 데 이터(Data) 분석 관련 교육 및 마인드 육성 체계(Human Resource) https://blog.naver.com/ikyoon95 륑큐 작성 데이터 분석 수준 진단 ▶ 분석 준비도 : 분석 업무·분석 인력·분석 기법·분석 데이터·분석 문화·분석 인프라 ▶ 분석 성숙도 : 도입 → 활용 → 확산 → 최적화 출처: http://www.dbguide.net/ 준비도가 x축 성숙도가 y축일 때 왼쪽 위를 시작으로 시계방향으로 정 확 도 준 으로 외우기 데이터 거버넌스: 전사 차원의 모든 데이터에 대하여 표준화된 관리체계를 수립하고 운영 을위한 프레임 워크 및 저장소를 구축하는 것 ▶마스터 데이터, 메타 데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리 대상이다. ⤷마스터 데이터는 사람 이름, 생일과 같이 변하지 않아 처리 운영에 기본이 되는 자료 ▶구성 요소 : 원칙 조직 프로세스 ▶데이터 거버넌스 체계에는 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동이 있다. ⤷뭔가를 구축한다는 내용이 있으면 데이터 표준화 데이터 관리라는 내용이 있으면 데이터 관리 체계 데이터 저장소 내용이 있으면 데이터 저장소 관리 https://blog.naver.com/ikyoon95 륑큐 작성 분석을 위한 3가지 조직 구조 출처: https://wikidocs.net/ ▶ 집중 구조는 말 그대로 분석 부서 하나가 따로 있는 것, 현업 업무부서와 분석 업무와 이 원화 가능성이 높다. (이원화라는 말이 있으면 집중구조) ▶ 기능 구조는 별도의 분석 조직(DSCoE)이 없음 ▶ 분산 구조는 분석 조직 인력들을 현업 부서로 직접 배치, 신속한 Action이 가능함. 분석 과제 관리 프로세스 ▶ 과제 발굴 : 분석 idea 발굴 → 분석 과제 후보 제안 → 분석 과제 확정 ⤵ ▶ 과제 수행 : 결과 공유 & 개선 ← 분석 과제 진행 관리 ← 분석과제 실행 ← 팀 구성 ※ 분석 과제 후보 제안, 결과 공유 단계에서만 Pool이라는 것에 관리함 CMMI(능력 성숙도 통합 모델): 1~5단계로 구성된 성숙도 모델 https://blog.naver.com/ikyoon95 륑큐 작성 3과목 탐색적 자료분석(EDA): 데이터가 가지고있는 특성을 파악하기위해 시각화하여 분석하 는 방식, 시각화하면 이상점을 식별하기 쉽다. ▶ EDA의 4가지 주제: 저항성의 강조·잔차 계산·자료변수의 재표현·그래프를 통한 현시성 기술통계: 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 하나의 숫자 또는 그래프의 형태로 표현 (우리가 흔히 생각하는 통계) 추측통계: 모집단으로부터 추출된 표본의 표본통계량으로 모집단을 통계적으로 추론 데이터마이닝 모델링 ▶ 대표적인 고급 데이터 분석법이다. ⤷‘시뮬레이션’도 고급 분석법 중 하나 ▶ 지나치게 통계적 가설이나 유의성에 집착하지 말고 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단한다. 반드시 다양한 옵션을 주어야 하는 것이 아니다. R (이론보다는 문제를 보고 이론을 배우는 편이 좋음) ▶ 오픈소스 프로그램이며 많은 패키지가 수시로 업데이트되고 질의를 위한 커뮤니티가 매우 활발 ▶ 문제가 발생할 경우 다양한 의견들을 들을 수 있으나 신속하게 유지보수가 되는 것은 아님 ⤷왜냐하면 전문가가 후딱 고치는 것이 아니라 사용자들끼리 얘기하는 것이기 때문 ▶ S 언어 기반 (GNU S라고도 함) R기초 ▶ 벡터 생성 c: c(1,2,3)은 [1 2 3]이고 숫자형 벡터이지만 c(1,2,‘a’)처럼 문자형이 원소로 하나라도 껴있으면 문자형 벡터가 됨. c(1:5)는 1부터 5까지라는 뜻 :를 ~로 생각하면 될 듯 ⤷즉 숫자가 아니므로 +나 –와 같은 연산이 안될 것 ⤷True/False 는 1/0을 나타내고 pi는 원주율을 나타내므로 c(3.14 pi True)는 문자형 벡터가 아님 https://blog.naver.com/ikyoon95 륑큐 작성 ▶ 패키지 설치 및 로드 : install.packages(“패키지명”) → library(패키지명) ▶ 행렬을 as.vector함수에 입력하면 열방향으로 1열부터 원소를 나열하는 벡터 생성  예를 들어 행렬이 있다면 as.vector 함수에 넣으면 [1 2 3 4]가 됨(열방향으로! 행방향  아님) ▶ 만약 [1 2] + [3 4 5 6 7]를 하게되면 상식적으로는 계산이 불가하지만 R에서는 가능함 [3+1 4+2 5+1 6+2 7+1] 와 같이 연산됨(경고메세지와 함께 출력) 부족한 벡터성분을 짧은 벡 터의 원소([1 2])를 재활용해가면서 사용. ▶ summary함수는 4분위수, 최소, 최대, 중앙값, 평균을 출력함 ▶ 데이터프레임: 2차원 목록(list) 데이터 구조, 각 열이 다른 데이터 타입을 가질 수 있다. ⤷데이터 테이블: 데이터 프레임과 유사하지만 보다 월등히 빠른 그루핑과 ordering, 짧은 문장 지원측 면에서 더 매력적 ▶na.rm=T 는 na이가 not answer(결측값) rm이 remove(삭제) T가 True라 생각하면 결측 값을 삭제하라는 뜻으로 생각. ⤷mean(x,na.rm=T)는 결측값을 제외한 x의 평균이라는 뜻 데이터 마트 ▶ 데이터 웨어하우스와 사용자 사이의 중간층에 위치 ▶ CRM관련 업무 중에서 핵심 요약변수 ▶ 수집된 정보를 분석에 맞게 종합한 변수, 재활용성이 높다. 파생변수 ▶ 특정조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 ▶ 주관적일 수 있어 논리적 타당성을 갖추어야한다. https://blog.naver.com/ikyoon95 륑큐 작성 sqldf: R에서 sql명령어를 사용 가능하게 해주는 패키지 plyr: apply 함수를 기반으로 가장 필수적인 데이터 처리기능 제공 결측값(na) 처리 방법 ▶ completes analysis: 결측값이 존재하는 레코드 삭제 ⤷삭제하면 활용할 수 있는 변수의 수가 작아져 효율적이지 못함 ▶ 평균 대치법: 결측값을 데이터의 평균으로 대치 ▶ 다중 대치법: 대치 → 분석 → 결합 단계로 진행 이상값 ▶ 잘못 입력한 경우, 의도하지 않게 입력되었고 분석 목적에 맞지 않는 경우 ⤷이런 경우는 웬만하면 삭제하는 것이 좋음 ▶ 꼭 제거해야하는 것은 아니므로 적절한 판단 필요 이상값 인식 방법 3가지 ▶ ESD: 평균으로부터 3 표준편차 떨어진 값 ▶ 기하평균-2.5*표준편차 < data < 기하평균+2.5*표준편차를 벗어나는 값 ▶ 사분위수 이용하기: Q1-1.5*(IQR)

Use Quizgecko on...
Browser
Browser