질문 #: 181주제 #: 1

부동산 회사는 새로운 주택 가격을 예측하는 새로운 제품을 출시하려고 합니다. 속성과 가격에 대한 과거 데이터는 .csv 형식으로 Amazon S3 버킷에 저장되어 있습니다. 데이터에는 헤더, 일부 범주형 필드 및 일부 누락된 값이 있습니다. 회사의 데이터 과학자들은 일반적인 오픈 소스 라이브러리를 사용하여 누락된 값을 0으로 채웠습니다. 데이터 과학자들은 모든 범주형 필드를 삭제하고 기본 매개변수를 사용하여 오픈 소스 선형 회귀 알고리즘으로 모델을 학습했습니다.

현재 모델의 예측 정확도는 50% 이하입니다. 회사는 모델의 성능을 향상시키고 새로운 제품을 가능한 빨리 출시하려고 합니다.

가장 적은 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 어떤 것입니까?

질문 #: 182 주제 #: 1

데이터 과학자는 회사 제품에 대한 고객 의견을 검토하고 있습니다. 데이터 과학자는 차트와 워드 클라우드를 사용하여 초기의 탐색적 분석을 제공해야 합니다. 데이터 과학자는 자연어 처리(NLP) 모델을 시작하기 전에 이 분석을 준비하기 위해 피처 엔지니어링 기술을 사용해야 합니다.

데이터 과학자가 이 요구 사항을 충족하기 위해 사용해야 하는 피처 엔지니어링 기술 조합은 무엇입니까? (두 개 선택)

질문 #: 183 주제 #: 1