10 adatgyűjtési stratégiák induló vállalkozások számára

Moritz Mueller-Freitag, tizenegy stratégia.

a gépi tanulási alkalmazások adatainak” ésszerűtlen hatékonyságáról ” az évek során széles körben vitatkoztak (lásd itt, itt és itt). Azt is felvetették, hogy a mesterséges intelligencia területén számos jelentős áttörést nem korlátoztak az algoritmikus előrelépések, hanem a kiváló minőségű adatkészletek elérhetősége (lásd itt). A közös szál fut át ezeket a vitákat, hogy az adatok létfontosságú eleme ennek state-of-the-art gépi tanulás.

 Gépi tanulás

Gépi tanulás

a kiváló minőségű képzési adatokhoz való hozzáférés kritikus fontosságú az olyan startupok számára, amelyek üzleti tevékenységük alapvető technológiájaként használják a gépi tanulást. Míg sok algoritmus és szoftver eszköz nyílt forráskódú és megosztott a kutatói közösségben, a jó adatkészletek általában szabadalmaztatottak és nehezen építhetők. Egy nagy, domain-specifikus adatkészlet birtoklása tehát jelentős versenyelőny forrássá válhat, különösen, ha az induló vállalkozások elindíthatják az adathálózati hatásokat (olyan helyzet, amikor több felhasználó, több adat, okosabb algoritmusok, jobb termék, több felhasználó).

 okosabb algoritmusok

intelligensebb algoritmusok

következésképpen az egyik legfontosabb stratégiai döntés, amelyet a gépi tanulási startupoknak meg kell hozniuk, az, hogy hogyan építsenek kiváló minőségű adatkészleteket tanulási algoritmusaik kiképzéséhez. Sajnálatos módon, az induló vállalkozások kezdetben gyakran korlátozott vagy nem rendelkeznek címkézett adatokkal, ez a helyzet kizárja az alapítókat abban, hogy jelentős előrelépést tegyenek egy adatközpontú termék felépítésében. Ezért érdemes már a kezdetektől feltárni az adatgyűjtési stratégiákat, mielőtt felvennénk az adattudományi csapatot, vagy felépítenénk egy költséges alapinfrastruktúrát.

a startupok számos módon leküzdhetik az adatgyűjtés hidegindítási problémáját. Az adatstratégia/forrás megválasztása általában együtt jár az üzleti modell megválasztásával, az indítás fókuszával (fogyasztó vagy vállalkozás, vízszintes vagy függőleges stb.) és a finanszírozási helyzetet. A stratégiák alábbi felsorolása, bár nem kimerítő és nem is egymást kizáró jellegű, a rendelkezésre álló megközelítések széles körét értelmezi.

1.stratégia: kézi munka

egy jó saját adatkészlet létrehozása a semmiből szinte mindig azt jelenti, hogy sok emberi erőfeszítést kell tenni az adatgyűjtésre és a kézi feladatok elvégzésére, amelyek nem méretezhetők. Rengeteg példa van azokra az induló vállalkozásokra, amelyek az elején nyers erőt alkalmaztak. Például sok chatbot startup emberi “AI oktatókat” alkalmaz, akik manuálisan hozzák létre vagy ellenőrzik a virtuális ügynökök előrejelzéseit (változó sikerrel és magas munkavállalói fluktuációval). Még a technológiai óriások is igénybe veszik ezt a stratégiát: a Facebook M összes válaszát egy vállalkozói csapat vizsgálja felül és szerkeszti.

 Tweet

Tweet

a nyers erő használata az adatpontok kézi címkézéséhez sikeres stratégia lehet mindaddig, amíg az adathálózati hatások egy bizonyos ponton beindulnak, így az emberek már nem méreteznek azonos ütemben az ügyfélkörrel. Amint az AI rendszer elég gyorsan fejlődik, a meghatározatlan kiugró értékek ritkábbak lesznek, és a kézi címkézést végző emberek száma csökkenthető vagy állandó lehet.

érdekes: többé-kevésbé minden gépi tanulási indítás

példák:

  • sok chatbot induló (beleértve a Magic, GoButler, x.ai és Clara)
  • MetaMind (kézzel gyűjtött és címkézett adatkészlet az élelmiszerek osztályozásához)
  • épület Radar (alkalmazottak / gyakornokok kézzel címkézik az épületek képeit)

2. stratégia: szűkítse a tartományt

a legtöbb startup megpróbál adatokat gyűjteni közvetlenül a felhasználóktól. A kihívás az, hogy meggyőzzük a korai alkalmazókat a termék használatáról, mielőtt a gépi tanulás előnyei teljes mértékben beindulnának (mivel az algoritmusok betanításához és finomhangolásához elsősorban adatokra van szükség). Ennek a 22-es csapdának az egyik módja a problémás terület drasztikus szűkítése (és szükség esetén a hatókör bővítése később). Ahogy Chris Dixon mondja: “a szükséges adatok mennyisége a megoldani kívánt probléma szélességéhez viszonyítva.”

Apin / oldat

Apin / oldat

forrás: X.ai

a szűk tartomány előnyeinek jó példái ismét a chatbotok. Ebben a szegmensben a startupok két piacra lépési stratégia közül választhatnak: horizontális asszisztenseket építhetnek — botokat, amelyek nagyon sok kérdéssel és azonnali kéréssel segíthetnek (például Viv,Magic, Awesome, Maluuba és Jam). Vagy létrehozhatnak függőleges asszisztenseket-botokat, amelyek rendkívül jól próbálnak elvégezni egy adott, jól meghatározott munkát (példák x.ai, Clara, DigitalGenius, Kasisto, Meekan – és a közelmúltbangobutler / Angel. ai). Bár mindkét megközelítés érvényes, az adatgyűjtés drámai módon könnyebb a zárt tartományú problémákkal küzdő startupok számára.

érdekességek: vertikálisan integrált vállalkozások

példák:

  • magasan specializált függőleges chatbotok (például x.ai, Clara vagy GoButler)
  • mély genomika (mély tanulást használ a genetikai variánsok osztályozására/értelmezésére)
  • számszerűsített bőr (ügyfél-szelfikkel elemzi az ember bőrét)

stratégia #3: Crowdsourcing / Outsourcing

ahelyett, hogy képzett alkalmazottakat (vagy gyakornokokat) használnának az adatok kézi gyűjtésére vagy címkézésére, az induló vállalkozások is crowdsource a folyamatot. Az olyan platformok, mint az Amazon Mechanical Turk vagy a CrowdFlower, lehetőséget kínálnak a rendetlen és hiányos adatok tisztítására több millió ember online munkaerejével. Például a VocalIQ (amelyet az Apple 2015-ben vásárolt meg) az Amazon Mechanical Turk-ját használta digitális asszisztensének több ezer felhasználói lekérdezés táplálására. A munkavállalókat más független vállalkozók alkalmazásával is kiszervezhetik (a byClara vagy a Facebook M szerint). Ennek a megközelítésnek a szükséges feltétele, hogy a feladat egyértelműen megmagyarázható legyen, és ne legyen túl hosszú/unalmas.

 Tweet

Tweet

egy másik taktika az, hogy ösztönözze a nyilvánosságot az adatok önkéntes hozzájárulására. Példa erre az Snips, egy párizsi székhelyű AI startup, amely ezt a megközelítést használja, hogy megkapja a kezét egy bizonyos típusú adathoz (visszaigazoló e-mailek éttermek, szállodák és légitársaságok számára). Mint más startupok, az Snips egy gamified rendszert használ, ahol a felhasználókat rangsorolják a ranglistán.

érdekes: Felhasználási esetek, ahol a minőségellenőrzés könnyen érvényesíthető

példák:

  • DeepMind, Maluuba, AlchemyAPI és még sokan mások (lásd itt)
  • VocalIQ (használt mechanikus Turk tanítani a programot, hogyan beszélnek az emberek)
  • Snips (kéri az embereket, hogy szabadon hozzájáruljon adatok kutatási)

4. stratégia: Felhasználó a hurokban

a crowdsourcing stratégia, amely megérdemli a saját kategóriáját, a felhasználó a hurokban.Ez a megközelítés olyan termékek tervezését foglalja magában, amelyek megfelelő ösztönzőket biztosítanak a felhasználók számára az adatok visszaadására a rendszerbe. Két klasszikus példa azokra a vállalatokra, amelyek sok terméküknél ezt a megközelítést alkalmazták, a Google(automatikus kiegészítés a keresésben, Google Fordító, spamszűrők stb.) és a Facebook (a felhasználók megcímkézik a barátokat a fotókon). A felhasználók gyakran nincsenek tisztában azzal, hogy ezeket a vállalatokat ingyenesen címkézett adatokkal látják el.

a gépi tanulási térben számos startup inspirálta a Google-t és a Facebook-ot azáltal, hogy hibatűrő UX-vel rendelkező termékeket hozott létre, amelyek kifejezetten ösztönzik a felhasználókat a gépi hibák kijavítására. Különösen figyelemre méltó arere és Duolingo (mindkettőt Luis von Ahn alapította). További példák az Unbabel, Wit.ai és Mapillary.

érdekes: fogyasztói központú startupok állandó felhasználói interakcióval

példák:

  • Unbabel (közösségi fordítók helyes gépi fordítások)
  • Wit.ai (feltéve irányítópult / API a felhasználók számára a fordítási hibák kijavításához)
  • Mapillary (a felhasználók kijavíthatják a gép által generált forgalmi táblák észlelését)

stratégia # 5: Side business

a stratégia, amely úgy tűnik, hogy különösen népszerű a Computer vision startupok körében, hogy ingyenes, domain-specifikus mobilalkalmazást kínál, amely a fogyasztókat célozza meg. A Clarifai, a HyperVerge és a Madbits (amelyeket a Twitter 2014-ben szerzett meg) mind ezt a stratégiát követték, olyan fotóalkalmazásokat kínálva, amelyek további képadatokat gyűjtenek alaptevékenységükhöz.

 Mellékvállalkozás

Side business

forrás: Clarifai

ez a stratégia nem teljesen kockázatmentes (végül is időt és pénzt költ egy alkalmazás sikeres fejlesztésére és népszerűsítésére). Az induló vállalkozásoknak biztosítaniuk kell azt is, hogy elég erős felhasználási esetet hozzanak létre, amely arra kényszeríti a felhasználókat, hogy feladják adataikat, még akkor is, ha a szolgáltatás kezdetben nem rendelkezik az adathálózati hatások előnyeivel.

érdekes: vállalati startupok / vízszintes platformok

példák:

  • Clarifai (Forevery, fotó felfedezés app)
  • HyperVerge (ezüst, fotó szervezet app)
  • Madbits (Momentsia, fotó kollázs app)

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.