현재 기업이 제공하는 빅데이터 일자리는 업무 내용의 요구에 따라 다음과 같은 범주로 나눌 수 있다.
1 비즈니스 데이터 분석가 및 비즈니스 데이터 분석가를 포함한 초급 분석 ② 데이터 마이닝 엔지니어, 기계 학습 엔지니어, 심도 있는 학습 엔지니어, 알고리즘 엔지니어, AI 엔지니어, 데이터 과학자 등을 포함한 마이닝 알고리즘. ③ 대형 데이터 개발 엔지니어, 대형 데이터 아키텍처 엔지니어, 대형 데이터 운영 및 유지 보수 엔지니어, 데이터 시각화 엔지니어, 데이터 수집 엔지니어, 데이터베이스 관리자 등을 포함한 개발 및 운영 클래스. ④ 데이터 운영 관리자, 데이터 제품 관리자, 데이터 프로젝트 관리자, 빅 데이터 판매를 포함한 제품 운영 클래스.
빅 데이터 자체는 추상적인 개념이다. 일반적으로 대용량 데이터는 제한된 기간 동안 일반 소프트웨어 도구가 수집, 저장, 관리 및 처리할 수 없는 데이터 모음입니다.
현재 업계에서는 빅 데이터에 대해 통일된 정의가 없지만, 일반적으로 빅 데이터는 볼륨, 속도, 다양성 및 가치의 4 가지 주요 특징, 즉' 4V', 즉 데이터 양, 데이터 속도, 데이터 유형 다양성, 데이터 가치 밀도가 낮다는 것이 보편적으로 인식되고 있습니다. 그림 1 에 나와 있습니다. 다음은 각 기능에 대한 간략한 설명입니다.
1) 매스: 큰 데이터를 나타내는 데이터의 양이 엄청납니다.
데이터 수집의 규모는 기가바이트에서 테라바이트, 페타바이트까지 확대되고 있습니다. 최근 몇 년 동안, 데이터의 양은 심지어 EB 와 ZB 에 의해 집계되기 시작했다.
예를 들어, 중간 도시의 비디오 감시 정보는 하루에 수십 테라바이트의 데이터를 얻을 수 있습니다. 바이두 홈페이지 항법은 매일 1-5PB 이상의 데이터를 제공해야 한다. 이 데이터를 인쇄하면 A4 용지 5000 억 장을 넘을 것이다. 그림 2 는 인터넷에서 분당 생성되는 다양한 데이터의 양을 보여줍니다.
2) 속도: 대용량 데이터를 나타내는 데이터 생성, 처리 및 분석 속도가 지속적으로 빨라지고 있습니다.
가속화는 데이터 생성의 실시간 특성과 비즈니스 프로세스 및 의사 결정 프로세스에 스트리밍 데이터를 통합해야 하기 때문입니다. 데이터 처리 속도가 빨라서 처리 방식이 이미 일괄 처리에서 흐름 처리로 전환되기 시작했다.
업계에는 대용량 데이터의 처리 능력에 대한 이름인'1제 2 법칙' 이 있어 다양한 데이터로부터 고부가가치 정보를 신속하게 얻을 수 있다. 대용량 데이터의 빠른 처리 능력은 기존 데이터 처리 기술과의 본질적 차이를 충분히 보여 줍니다.
3) 다양성: 큰 데이터를 나타내는 데이터 유형이 많습니다.
기존 IT 업계에서 생성 및 처리한 데이터 유형은 비교적 단일하며 대부분 구조화된 데이터입니다. 센서, 스마트 장치, 소셜 네트워크, 사물인터넷, 모바일 컴퓨팅, 온라인 광고 등 새로운 채널과 신기술이 등장하면서 수많은 유형의 데이터가 생겨났다.
오늘날의 데이터 유형은 단순히 데이터를 포맷하는 것이 아니라 XML, 메일, 블로그, 인스턴트 메시지, 비디오, 사진, 클릭 스트림, 로그 파일 등과 같은 반정형 또는 비정형 데이터입니다. 기업은 복잡한 기존 및 비정형 정보 소스의 데이터를 통합, 저장 및 분석해야 합니다 (내부 및 외부 데이터 포함).
4) 가치: 큰 데이터의 데이터 가치 밀도가 낮다는 것을 의미합니다.
큰 데이터의 양이 증가함에 따라 단위 데이터의 가치 밀도는 감소하고 있지만 데이터의 전체 가치는 증가하고 있습니다. 비디오 감시를 예로 들어보죠. 한 시간 비디오에서 유용한 데이터는 1 ~ 2 초밖에 안 될 수 있지만 매우 중요합니다. 오늘날 많은 전문가들은 큰 데이터를 금과 석유와 동일시하고 있습니다. 즉, 큰 데이터는 무한한 상업적 가치를 담고 있습니다.
빅데이터 처리를 통해 잠재적 상업적 가치를 파악함으로써 막대한 상업적 이윤을 창출할 수 있습니다.