모리츠 뮬러 프라이탁,일레븐 전략.
기계 학습 응용 프로그램에 대한 데이터의”불합리한 효과”는 수년 동안 널리 논의되어 왔습니다(여기,여기 및 여기 참조). 또한 인공 지능 분야의 많은 주요 돌파구는 알고리즘 진보에 의해 제한되지 않았지만 고품질 데이터 세트의 가용성에 의해 제안되었습니다(여기 참조). 이러한 토론을 통해 실행되는 일반적인 스레드는 데이터가 최첨단 기계 학습을 수행하는 데 중요한 구성 요소라는 것입니다.
고품질 교육 데이터에 대한 액세스는 기계 학습을 비즈니스의 핵심 기술로 사용하는 신생 기업에게 중요합니다. 많은 알고리즘과 소프트웨어 도구가 오픈 소스이며 연구 커뮤니티 전체에서 공유되지만 좋은 데이터 세트는 일반적으로 독점적이며 구축하기가 어렵습니다. 따라서 도메인 별 대규모 데이터 세트를 소유하는 것은 경쟁 우위의 중요한 원천이 될 수 있으며,특히 신생 기업이 데이터 네트워크 효과를 밀어서 시동을 걸 수있는 경우(더 많은 사용자가 더 많은 데이터,더 많은 데이터,더 똑똑한 알고리즘,더 나은 제품,더 많은 사용자).
결과적으로,기계 학습 스타트업이 내려야 할 핵심 전략적 결정 중 하나는 학습 알고리즘을 훈련시키기 위해 고품질 데이터 세트를 구축하는 방법이다. 불행하게도,신생 기업은 종종 제한 또는 처음에 데이터를 표시하지 않은,데이터 중심의 제품을 구축에 상당한 진전을 만들기에서 설립자를 배제 상황. 따라서 데이터 과학 팀을 고용하거나 비용이 많이 드는 핵심 인프라를 구축하기 전에 처음부터 데이터 수집 전략을 탐색 할 가치가 있습니다.
스타트업은 데이터 수집의 콜드 스타트 문제를 여러 가지 방법으로 극복할 수 있다. 데이터 전략/소스의 선택은 일반적으로 비즈니스 모델,스타트 업의 초점(소비자 또는 기업,수평 또는 수직 등)의 선택과 함께 진행됩니다.)및 자금 조달 상황. 전략의 뒤에 오는 명부는,철저한 도 아니다 상호 배타적,유효한 접근의 넓은 범위를 위해 감을 주지 않는 그러나.
전략#1:수동 작업
처음부터 좋은 독점 데이터 세트를 구축하는 것은 거의 항상 데이터 수집에 많은 사전 노력을 기울이고 확장되지 않는 수동 작업을 수행하는 것을 의미합니다. 처음에 무차별 대입을 사용한 신생 기업의 예는 많습니다. 예를 들어,많은 챗봇 스타트업들은 가상 에이전트가 하는 예측을 수동으로 생성하거나 검증하는 인간”인공지능 트레이너”를 고용하고 있습니다(다양한 성공률과 높은 직원 이직률로). 심지어 기술 거인은이 전략에 의존:페이스 북의 모든 응답은 검토 및 계약자의 팀에 의해 편집됩니다..
데이터 포인트에 수동으로 레이블을 붙이는 무차별 대입을 사용하는 것은 데이터 네트워크 효과가 어느 시점에서 시작되어 인간이 더 이상 고객 기반과 동일한 속도로 확장되지 않는 한 성공적인 전략이 될 수 있습니다. 인공지능 시스템이 충분히 빠르게 개선되자 마자,지정되지 않은 이상치가 덜 빈번 해지고 수동 라벨링을 수행하는 사람의 수가 감소하거나 일정하게 유지 될 수 있습니다.
흥미:더 많거나 적은 모든 기계 학습 시작
예:
- 많은 챗봇 스타트업(매직,고버틀러,x.ai 5191>
- 건물 레이더(직원/인턴이 건물 사진에 수동으로 라벨을 붙임)
- 메타마인드(식품 분류를 위해 수동으로 수집 및 라벨링된 데이터세트)
- 건물 레이더(직원/인턴이 건물 사진에 수동으로 라벨을 붙임)
전략#2:도메인 축소
대부분의 신생 기업은 사용자로부터 직접 데이터를 수집하려고합니다. 문제는(데이터를 훈련하고 알고리즘을 미세 조정하는 첫 번째 장소에서 필요하기 때문에)완전히 킥 기계 학습의 혜택 전에 제품을 사용하는 얼리 어답터를 설득하는 것입니다. 이 캐치-22 를 해결하는 한 가지 방법은 문제 도메인을 크게 좁히고 필요한 경우 나중에 범위를 확장하는 것입니다. 크리스 딕슨은”필요한 데이터의 양은 해결하려는 문제의 폭에 비례한다.”
좁은 도메인의 이점에 대한 좋은 예는 다시 챗봇입니다. 이 부문의 신생 기업은 두 가지 시장 진출 전략 중에서 선택할 수 있습니다:매우 많은 질문과 즉각적인 요청(예:비브,매직,굉장,말루 바 및 잼)에 도움이 될 수있는 수평 보조 봇을 구축 할 수 있습니다. 또는 하나의 구체적이고 잘 정의 된 작업을 매우 잘 수행하려고하는 수직 보조 장치(봇)를 만들 수 있습니다(예:x.ai 이 응용 프로그램은 다음과 같은 기능을 제공합니다. 두 가지 접근 방식이 모두 유효하지만 폐쇄 도메인 문제를 해결하는 신생 기업에게는 데이터 수집이 훨씬 쉽습니다.
에 대한 흥미로운:수직 통합 기업
예:
- 고도로 전문화 된 수직 챗봇(예:x.ai
- 심층 유전체학(유전자 변이를 분류/해석하기 위해 심층 학습 사용)
- 정량화 된 피부(고객의 셀카를 사용하여 사람의 피부 분석)
전략#3: 크라우드 소싱/아웃소싱
자격을 갖춘 직원(또는 인턴)을 사용하여 데이터를 수동으로 수집하거나 레이블을 지정하는 대신 신생 기업은 프로세스를 크라우드 소싱 할 수도 있습니다. 아마존 기계 터크 나 크라우드 플라워와 같은 플랫폼은 수백만의 사람들의 온라인 인력을 사용하여 지저분하고 불완전한 데이터를 정리하는 방법을 제공합니다. 예를 들어,보컬 릭(2015 년 애플에 인수)사용자 쿼리의 디지털 보조 수천을 공급하는 아마존의 기계 터크를 사용했다. 근로자는 다른 독립 계약자를 고용하여 아웃소싱 할 수도 있습니다 (ycl 또는 페이스 북 엠). 이 접근 방식을 사용하는 데 필요한 조건은 작업을 명확하게 설명 할 수 있고 너무 길거나 지루하지 않다는 것입니다.
또 다른 전술은 자발적으로 데이터를 기여하는 대중을 장려하는 것입니다. 예를 들어,이 접근 방식을 사용하여 특정 유형의 데이터(레스토랑,호텔 및 항공사에 대한 확인 이메일)에 손을 대는 파리 기반 인공 지능 시작 프로그램입니다. 다른 신생 기업처럼,싹둑 사용자가 리더 보드에 순위가 게임 화 된 시스템을 사용합니다.
에 대한 흥미: 품질 관리를 쉽게 시행할 수 있는 사용 사례
예:
- 딥마인드,말루바,알케미야피 등(여기 참조)
- 보컬리크(기계 터크를 사용하여 사람들이 말하는 방식을 가르치는 프로그램)
- 캡처(사람들에게 연구에 자유롭게 데이터를 기여하도록 요청)
전략#4:사용자-인-더-루프
자체 범주에 해당하는 크라우드 소싱 전략은 사용자-인-더-루프입니다.이 접근 방식에는 사용자가 시스템에 데이터를 다시 제공 할 수있는 올바른 인센티브를 제공하는 제품을 설계하는 것이 포함됩니다. 많은 제품에 대해이 접근 방식을 사용한 회사의 두 가지 고전적인 예는 구글(검색 자동 완성,구글 번역,스팸 필터 등)입니다.)페이스 북(사진에 친구를 태그 사용자).. 사용자는 종종 이러한 회사에 레이블이 지정된 데이터를 무료로 제공한다는 사실을 알지 못합니다.
기계 학습 공간의 많은 스타트업들이 구글과 페이스북에서 영감을 얻어 사용자가 기계 오류를 수정하도록 명시적으로 장려하는 내결함성이 있는 U 제품을 만들었다. 특히 주목할만한 아레 레와 듀오 링고(둘 다 루이스 폰 안). 다른 예는 언 바벨을 포함,Wit.ai 그리고 매파.
흥미로운 대상:지속적인 사용자 상호 작용을 가진 소비자 중심 신생 기업
예:
- 언바벨(커뮤니티 번역가 기계 생성 번역을 수정)
- Wit.ai 5191>
- (사용자가 기계 생성 교통 표지 탐지를 수정할 수 있음))
전략#5: 사이드 비즈니스
컴퓨터 비전 신생 기업들 사이에서 특히 인기가있는 것으로 보이는 전략은 소비자를 대상으로하는 무료 도메인 별 모바일 앱을 제공하는 것입니다. 클라리파이,하이퍼베르지,매드비츠(2014 년 트위터에서 인수)는 모두 핵심 비즈니스를 위한 추가 이미지 데이터를 수집하는 사진 앱을 제공함으로써 이 전략을 추진해 왔다.
흥미로운 대상:엔터프라이즈 스타트업/수평 플랫폼
예:
- Clarifai(Forevery,사진 검색 응용 프로그램)
- HyperVerge(Silver,사진 조직 응용 프로그램)
- Madbits(Momentsia 효과 응용 프로그램)