​|  Trifacta Architecture

트리팩타는 논리적으로는 데이터 저장 및 처리 부분과 분석을 위해 사용되는 시각화, 통계 또는 머신-러닝 도구 사이에 위치하며, 향 후 데이타 처리 환경과 분석 기술이 혁신적으로 변화될 경우에도 이에 대응할 수 있도록  개방형 구조로 설계되었습니다.

트리팩타의 논리적 아키텍처는 다음과 같습니다.

연결 프레임웍​

  • 데이타 선-적제 또는 소스 데이터 시스템에서 별도의 데이터 복제없이 사용자가 라이브 데이터를 액세스 할 수 있도록 강력한 연동 및 API 프레임웍을 지원.​

  • 본 프레임웍은 하둡소스, 크라우드 서비스, 파일(CSV, TXT, JASON, XML, 기타)  및 관계형 데이터베이스 지원을 포함.

  • ​데이터 소스 연결을 위한 커넥터는 기존 거버넌스 및 보안 기능 (롤 및 허용, SSL, 케보러스 SSO)과 연동되어 실행 가능.

메타데이터 관리

  • 지리, 인구 통계, 인구 조사 및 기타 유형의 외부 참조 데이터를  활용 하여 데이타 보강 

  •  JSON 및 XML과 같은 중첩 데이터 구조 뿐 아니라 지리 및 시간 기반 컨텐츠도 자동 인식 및 분류

  •  API를 통한 개방 / 확장 플랫폼으로  고객 및 파트너가 추가 데이터 소스 및 대상을 완벽하게 통합 가능

​확장 가능 고성능 데이터 처리

  • Intelligent Execution Engine이 사용자가 정의 한 모든 변환 과정을 데이터 규모에 따라 최적 처리 프레임 워크로 자동 컴파일.

  • 애플리케이션에서 바로 데이터를 변환하거나 Spark, Google DataFlow 또는 인 메모리 엔진 인 트리팩타 Photon으로 컴파일 가능.

  • 모든 하둡 온-프라미스 및 크라우드 플랫폼을 지원하기 때문에 어떠한 규모의 데이터도 쉽고 빠르게 처리

지능형 데이터 구조 인식

  • 트리팩타 플랫폼에 적재된 데이터와 사용자의 상호 작용 방법을 학습하여 인텔리전트 가이드를 제시

  • 공통적인 태스크는 모두 자동화되어 있으며 사용자가 랭글링 작업을 빠르게 할 수 있도록 예측 기반의 데이터 변형 가이드 제공

  • 트리팩타에 등록 된 다중 데이터 셋은 각각의 형식, 데이터 요소, 스키마, 관계 및 메타 데이터를 식별하는 추론 알고리즘을 이용한  퍼지 (fuzzy) 매칭을 지원하기 때문에 서로 일치하지 않는 속성을 가진 데이터 셋들에 대한  조인을 가능하게 함

랭글링 언어

  • 트리팩타의 차별화 기능중의 하나인 도메인 특화된 랭글링 언어를 통해 애플리케이션에서 만든 랭글링 로직과 해당 로직에서 처리하는 데이터를 로지컬하게 분리  함

  • 데이터 사이언티스트 등 고급 분석가는 윈도우 기능, 사용자 정의 기능 등 보다 강력한 기능을 제공하는 랭글링 함수를 이용하여 복잡한 렝글링 작업 수행 가능

  • 트리팩타의 렝글링 언어에서 정의 된 모든 과정은 레시피로 저장되며 해당 레시피의 실행만으로 반복적 작업 가능

코어 데이터 랭글링 사용자 경험 (UX)

  • 데이터 시각화, 기계 학습 및 사람 - 컴퓨터 상호 작용  부분에서 최신 기술을 활용하여 데이터 탐색 및 데이터 준비 전 과정 동안 다음단계에서 처리할 태스크에 대한  인텔리전트 가이드 제공

  • 인트렉티브 탐색 기능 -  인텔리전트 데이터  프로파일링 기능으로 데이터 내용을 자동적으로 시각화

  • 예측기반 데이터 변형 가이드 기능 -  트리팩타에서 사용자가 작업한 모든 클릭 또는 선택을 학습하여 사용자가 필요한 데이터를 평가하고 편집할 수 있도록 확율이 높은 순으로 복수의 변형 가이드를 제시하고 사용자는 이를 선택하여 쉽게 데이터를 랭글링할 수 있게 함

배포 및 액세스 플랫폼

  • 랭글링 작업 결과물은 다양한 파일 시스템, 데이터베이스, 분석 도구, 파일 및 압축 형식으로 게시 가능

  • 트리팩타는 다양한 분석, 데이터 카탈로그 및 데이터 거버넌스 응용 프로그램과  공유할 수 있도록 API 및 양방향 메타 데이터를 지원하며, 이를 통해 사용자는 트리팩타와 외부 응용 프로그램간에 컨텍스트를 공유하고 함께 작업을 할 수 있음

거버넌스

  • 협업 데이터 거버넌스 (Collaborative Data Governance) 기능을 통해 오픈 소스,  벤더 특화된 보안,  메타 데이터 관리 및 거버넌스 프레임 워크를 광범위하게 지원

  • 랭글링 사용자가 실행하는 데이터에 대한 시각화된 관리 기능을 제공

  • 응용 프로그램 내에서 데이터 액세스 및 사용자 역할에 의해 선택적으로 부여할 수 있도로 사용자 트리 구조를 지원하며, 따라서 트리팩타 관리자 및 데이터 관리자는 다양한 사용자 계층 구조를 이용하여 역할에 맞는 플랫폼 인증 및 보안 관리가 가능

데이터 보안 및 관리

  • 엔터프라이즈 IT의 엄격한 요구 사항을 준수하는 엔드 투 엔드 보안 데이터 액세스 및 명확한 감사 기능 제공

  • 암호화, 인증, 액세스 제어 및 마스킹 기능 지원

  • 기존 정책과 광범위한 보안 프레임 워크 통합간 균형을 유지하면서 엔터프라이즈 보안 기능 (예 : SSO, 위장(Impersonation), 역할 및 사용 권한 등) 제공

  • 트리팩타를 위한 별도의 보안 정책없이 기존 보안 정책과 통합 가능

협업

  • 트리팩타내에서 사용자는 재사용 가능한 데이터 선-처리 로직과  데이터 셋 관계를 공유 할 수 있으므로 이를 통해 각각의 랭글링 작업 내용을 공유 및 재활용 가능

  • 협업 기능을 통해 여러 사용자가 단일 프로젝트에 동시에 참가하여 워크 플로우를 병렬 처리하고 참여도를 달리하여 완료 시간을 단축 할 수 있음

  • 기존 정책과 광범위한 보안 프레임 워크 통합간 균형을 유지하면서도 엔터프라이즈 보안 기능 (예 : SSO, 위장(Impersonation), 역할 및 사용 권한 등) 제공

  • 데이터 셋 및 데이터 프랩 단계는 트리팩타 API를 통해 타사 응용 프로그램과 통합 가능하며,  데이터 선행 처리 작업 단계를 Export하여 파이슨 등 과 공유 가능

운영

  • 데이터 분석가가 직접 작업 내역 추적 및 액세스 제어가 가능한 워크 플로우 예약 및 모니터링 기능 제공

  • 트리팩타에서 작성된 일련의 모든 데이터 선-처리 실행 단계(레시피) 는 시간별, 일별, 주별 또는 사용자가 정의한 주기별로 반복적으로 실행될 수 있도록 스케줄링 가능

  • 개별 레시피는 복수의 데이터 셋 및 그와 관련된 레시피의 한 부분으로 구성될 수 있음

개인정보 보호 정책 준칙 | Terms of Use | 

데이터브릭 주식회사 

06234 서울특별시 강남구 역삼로 234 (뉴튼플라자 빌딩 4층)

전화 : 02. 553.5230, 팩스: 02.553.5235 ,사업자 등록번호 : 672-81-00181

www.databrick.co.kr