スタートアップのための10のデータ収集戦略

Moritz Mueller-Freitagによる、Eleven Strategy。

機械学習アプリケーションのためのデータの”不合理な有効性”は、長年にわたって広く議論されてきました(ここ、ここ、ここを参照)。 また、人工知能の分野における多くの主要なブレークスルーは、アルゴリズムの進歩によってではなく、高品質のデータセットの可用性によって制約されて これらの議論を通して実行されている共通のスレッドは、データが最先端の機械学習を行う上で不可欠な要素であるということです。

機械学習

高品質のトレーニングデータへのアクセスは、ビジネスのコア技術として機械学習を使用するスタートアップにとって重要です。 多くのアルゴリズムやソフトウェアツールはオープンソースであり、研究コミュニティ全体で共有されていますが、良いデータセットは通常 したがって、大規模なドメイン固有のデータセットを所有することは、特にスタートアップがデータネットワークの効果(より多くのユーザー→より多くのデータ→よりスマートなアルゴリズム→より良い製品→より多くのユーザー)をジャンプスタートできる場合、競争上の優位性の重要な源になる可能性があります。

よりスマートなアルゴリズム

その結果、機械学習スタートアップが行う必要がある重要な戦略的決定の1つは、学習アルゴリズムを訓練するために高品質のデータセットをどのように構築するかです。 残念なことに、スタートアップは、多くの場合、データ駆動型の製品を構築する上で重要な進歩を遂げることから創設者を排除する状況、最初に制限された したがって、データサイエンスチームを雇うか、高価なコアインフラストラクチャを構築する前に、最初からデータ収集戦略を検討する価値があります。

スタートアップは、多くの方法でデータ収集のコールドスタートの問題を克服することができます。 データ戦略/ソースの選択は、通常、ビジネスモデル、スタートアップの焦点(消費者または企業、水平または垂直など)の選択と手に手を取って行きます。)と資金調達状況。 以下の戦略のリストは、網羅的でも相互に排他的でもありませんが、利用可能なアプローチの広い範囲の意味を与えます。

戦略#1:手動作業

優れた独自のデータセットをゼロから構築することは、ほとんどの場合、データ収集に多くの事前の人間の努力を入れ、スケールしない手 最初にブルートフォースを使用しているスタートアップの例は豊富です。 例えば、多くのチャットボットスタートアップは、仮想エージェントが行う予測を手動で作成または検証する人間の”AIトレーナー”を採用しています(成功の程度と高い従業員の離職率が異なります)。 技術の巨人でさえ、この戦略に頼っています:Facebook Mによるすべての回答は、請負業者のチームによってレビューされ、編集されます。

Tweet

ブルートフォースを使用してデータポイントに手動でラベルを付けることは、データネットワークの効果がある時点でキックされ、人間が顧客ベースと同 AIシステムが十分に速く改善されるとすぐに、不特定の外れ値は少なくなり、手動ラベリングを行う人間の数を減らすか、一定に保つことができます。

以下のために興味深い:多かれ少なかれすべての機械学習スタートアップ

例:

  • 多くのチャットボットスタートアップ(マジック、GoButler、x.ai
  • MetaMind(食品分類のための手動で収集され、ラベル付けされたデータセット)
  • 建物レーダー(従業員/インターンは、建物の写真を手動でラベル付けします)

戦略#2:ドメインを絞り込む

ほとんどのスタートアップは、ユーザーから直接データを収集しようとします。 課題は、機械学習の利点が完全に活用される前に、早期導入者に製品を使用するよう説得することです(アルゴリズムを訓練して微調整するために このcatch-22を回避する1つの方法は、問題のドメインを大幅に狭くすることです(必要に応じて後でスコープを拡大することです)。 「必要なデータの量は、解決しようとしている問題の幅に比例しています。”

Apin|ソリューション

Apin|ソリューション

出典:x.ai

狭いドメインの利点の良い例は、再びチャットボットです。 このセグメントのスタートアップは、2つの市場への戦略の間で選択することができます:彼らは水平アシスタントを構築することができます-質問と即時の要求の非常に多くを助けることができるボット(例はViv、Magic、Awesome、Maluuba、Jamです)。 または、垂直アシスタントを作成することができます—ボットは、特定の明確に定義されたジョブを非常にうまく実行しようとします(例はx.ai、クララ、デジャルゲニウス、カシスト、ミーカン—、そして最近ではエンジェル.ai)。 両方のアプローチは有効ですが、データ収集は、クローズドドメインの問題に取り組むスタートアップのために劇的に簡単です。

興味深い:垂直統合ビジネス

例:

  • 高度に専門化された垂直チャットボット(などx.ai
  • Deep Genomics(ディープラーニングを使用して遺伝的変異体を分類/解釈する)
  • 定量化された皮膚(顧客のselfiesを使用して人の皮膚を分析する)
  • Deep Genomics(deep learningを使用して遺伝的変異体を分類/解釈する)
  • 定量化された皮膚()

戦略その3: クラウドソーシング/アウトソーシング

資格のある従業員(またはインターン)を使用してデータを手動で収集またはラベル付けする代わりに、スタートアップ Amazon Mechanical TurkやCrowdFlowerのようなプラットフォームは、何百万人ものオンライン労働力を使用して、乱雑で不完全なデータをクリーンアップする方法を提供します。 たとえば、VocalIQ(2015年にAppleに買収された)は、AmazonのMechanical Turkを使用して、digital assistantの何千ものユーザークエリをフィードしました。 労働者は、他の独立した請負業者を雇用することによっても外部委託することができます(facebookやFacebook Mで行われています)。 このアプローチを使用するための必要条件は、タスクを明確に説明することができ、長すぎない/退屈ではないということです。

Tweet

もう一つの戦術は、自発的にデータを提供するように国民に奨励することです。 その一例は、このアプローチを使用して特定の種類のデータ(レストラン、ホテル、航空会社の確認メール)を手に入れるパリを拠点とするAIスタートアップで 他の新興企業と同様に、Snipsは、ユーザーがリーダーボードにランク付けされているゲーム化システムを使用しています。

: 品質管理が容易に実施できるユースケース

の例:

  • DeepMind、Maluuba、AlchemyAPIなど(ここを参照)
  • VocalIQ(機械的なトルコ人を使って人々がどのように話すかをプログラムに教える)
  • Snips(研究のために自由にデータを貢献するように人々に)

戦略#4:User-in-the-loop

独自のカテゴリに値するクラウドソーシング戦略はuser-in-the-loopです。このアプローチでは、ユーザーがシステムにデータを返すための適切なインセンティブを提供する製品を設計することが含まれます。 彼らの製品の多くのためにこのアプローチを使用している企業の二つの古典的な例は、Googleです(検索でオートコンプリート、Google翻訳、スパムフィルタなど。)とFacebook(写真に友人にタグを付けるユーザー)。 ユーザーは、これらの企業にラベル付きデータを無料で提供することに気づいていないことがよくあります。

機械学習分野の多くの新興企業は、ユーザーに機械エラーの修正を明示的に奨励するフォールトトレラントなUXを備えた製品を作成することで、GoogleやFacebookから 特に著名なのは、アレレとデュオリンゴ(いずれもルイス-フォン-アンによって設立された)である。 他の例には、Unbabelがあります。Wit.ai とマピラリィ。

興味深い:一定のユーザーとの対話を持つ消費者中心のスタートアップ

例:

  • Unbabel(コミュニティ翻訳者は機械生成された翻訳を修正します)
  • Wit.ai (ユーザーが翻訳エラーを修正するためのダッシュボード/APIを提供)
  • Mapillary(ユーザーが機械生成された交通標識の検出を修正することができます)

戦略#5: サイドビジネス

computer visionのスタートアップの間で特に人気があると思われる戦略は、消費者をターゲットにした無料のドメイン固有のモバイルアプリを提供することである。 Clarifai、HyperVerge、Madbits(2014年にTwitterに買収)はすべて、コアビジネスのために追加の画像データを収集する写真アプリを提供することで、この戦略を追求してきました。

サイドビジネス

サイドビジネス

ソース: Clarifai

この戦略は完全にリスクがないわけではありません(結局のところ、アプリの開発と宣伝を成功させるには時間とお金がかかります)。 スタートアップはまた、サービスが最初にデータネットワーク効果の利点を欠いていても、ユーザーにデータを放棄させる十分な強力なユースケースを作成することを保証する必要があります。

興味深い:企業のスタートアップ/水平プラットフォーム

例:

  • Clarifai(Forevery、写真発見アプリ)
  • HyperVerge(Silver、写真整理アプリ)
  • Madbits(Momentsia、写真コラージュアプリ)

コメントを残す

メールアドレスが公開されることはありません。