6 gebieden van AI en machine learning om aandachtig te volgen

Voor meer AI-nieuws en analyse kunt u zich hier aanmelden voor mijn nieuwsbrief.

Het destilleren van een algemeen aanvaarde definitie van wat kwalificeert als kunstmatige intelligentie (AI) is de laatste tijd een nieuw onderwerp van discussie geworden. Sommigen hebben AI omgedoopt tot "cognitive computing" of "machine intelligence", terwijl anderen AI ten onrechte uitwisselen met "machine learning". Dit komt gedeeltelijk omdat AI niet één technologie is. Het is in feite een breed veld bestaande uit vele disciplines, variërend van robotica tot machine learning. Het uiteindelijke doel van AI, de meesten van ons bevestigen, is machines te bouwen die taken en cognitieve functies kunnen uitvoeren die anders alleen binnen het bereik van menselijke intelligentie vallen. Om daar te komen, moeten machines deze mogelijkheden automatisch kunnen leren in plaats van elk van hen expliciet end-to-end te programmeren.

Het is verbazingwekkend hoeveel vooruitgang het gebied van AI de afgelopen 10 jaar heeft geboekt, variërend van zelfrijdende auto's tot spraakherkenning en synthese. Tegen deze achtergrond is AI een gespreksonderwerp geworden in steeds meer bedrijven en huishoudens die AI gaan zien als een technologie die nog geen 20 jaar weg is, maar als iets dat vandaag hun leven beïnvloedt. Inderdaad, de populaire persberichten over AI bijna elke dag en technologische reuzen, verwoorden één voor één hun belangrijke langetermijn AI-strategieën. Hoewel verschillende investeerders en gevestigde exploitanten graag willen begrijpen hoe ze waarde kunnen vastleggen in deze nieuwe wereld, krabben de meerderheid nog steeds hun hoofd om erachter te komen wat dit allemaal betekent. Ondertussen worstelen overheden met de implicaties van automatisering in de samenleving (zie Obama's afscheidsrede).

Gezien het feit dat AI de hele economie zal beïnvloeden, vertegenwoordigen actoren in deze gesprekken de volledige verdeling van intenties, niveaus van begrip en graden van ervaring met het bouwen of gebruiken van AI-systemen. Als zodanig is het van cruciaal belang dat een discussie over AI - inclusief de daaruit voortvloeiende vragen, conclusies en aanbevelingen - gebaseerd is op gegevens en realiteit, niet op vermoedens. Het is veel te gemakkelijk (en soms spannend!) Om de implicaties van resultaten van gepubliceerd onderzoek of technische persaankondigingen, speculatief commentaar en gedachte-experimenten wild te extrapoleren.

Hier zijn zes AI-gebieden die bijzonder opmerkelijk zijn in hun vermogen om de toekomst van digitale producten en diensten te beïnvloeden. Ik beschrijf wat ze zijn, waarom ze belangrijk zijn, hoe ze tegenwoordig worden gebruikt en voeg een lijst toe (absoluut niet volledig) van bedrijven en onderzoekers die aan deze technologieën werken.

 Meld je hier aan zodat het rechtstreeks in je inbox belandt.

1. Versterking leren (RL)

RL is een paradigma voor leren door vallen en opstaan, geïnspireerd door de manier waarop mensen nieuwe taken leren. In een typische RL-opstelling heeft een agent de taak zijn huidige status in een digitale omgeving te observeren en acties te ondernemen die de opbouw van een langetermijnbeloning maximaliseren. De agent ontvangt feedback van de omgeving als gevolg van elke actie, zodat hij weet of de actie de voortgang heeft bevorderd of belemmerd. Een RL-agent moet daarom de verkenning van zijn omgeving in evenwicht brengen om optimale strategieën te vinden om beloningen op te bouwen met de beste strategie die hij heeft gevonden om het gewenste doel te bereiken. Deze aanpak werd populair gemaakt door Google DeepMind in hun werk over Atari-games en Go. Een voorbeeld van RL-werken in de echte wereld is de taak van het optimaliseren van energie-efficiëntie voor het koelen van Google-datacenters. Hier behaalde een RL-systeem een ​​vermindering van 40% in koelingskosten. Een belangrijk natuurlijk voordeel van het gebruik van RL-agenten in omgevingen die kunnen worden gesimuleerd (bijv. Videogames) is dat trainingsgegevens kunnen worden gegenereerd in troepen en tegen zeer lage kosten. Dit staat in schril contrast met supervised deep learning-taken waarvoor vaak trainingsgegevens nodig zijn die duur en moeilijk te verkrijgen zijn uit de echte wereld.

  • Toepassingen: meerdere agenten leren in hun eigen geval van een omgeving met een gedeeld model of door te communiceren en van elkaar te leren in dezelfde omgeving, leren navigeren in 3D-omgevingen zoals doolhoven of stadsstraten voor autonoom rijden, omgekeerd leren versterken om waargenomen gedrag te recapituleren door het doel van een taak te leren (bijvoorbeeld leren autorijden of niet-spelerskarakters met menselijk gedrag vertonen).
  • Belangrijkste onderzoekers: Pieter Abbeel (OpenAI), David Silver, Nando de Freitas, Raia Hadsell, Marc Bellemare (Google DeepMind), Carl Rasmussen (Cambridge), Rich Sutton (Alberta), John Shawe-Taylor (UCL) en anderen.
  • Bedrijven: Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba / Microsoft, NVIDIA, Mobileye, OpenAI.

2. Generatieve modellen

In tegenstelling tot discriminerende modellen die worden gebruikt voor classificatie- of regressietaken, leren generatieve modellen een kansverdeling over trainingsvoorbeelden. Door steekproeven van deze hoogdimensionale distributie, genereren generatieve modellen nieuwe voorbeelden die vergelijkbaar zijn met de trainingsgegevens. Dit betekent bijvoorbeeld dat een generatief model dat is getraind op echte afbeeldingen van gezichten, nieuwe synthetische afbeeldingen van vergelijkbare gezichten kan uitvoeren. Zie de geweldige NIPS 2016 tutorial van Ian Goodfellow voor meer informatie over hoe deze modellen werken. De architectuur die hij introduceerde, generative adversarial networks (GAN's), zijn momenteel bijzonder populair in de onderzoekswereld omdat ze een pad bieden naar ongecontroleerd leren. Met GAN's zijn er twee neurale netwerken: een generator, die willekeurige ruis als input neemt en belast is met het synthetiseren van inhoud (bijv. Een afbeelding), en een discriminator, die geleerd heeft hoe echte afbeeldingen eruit zien en is belast met het identificeren of gemaakte afbeeldingen door de generator zijn echt of nep. Tegenstrijdige training kan worden gezien als een spel waarbij de generator iteratief moet leren hoe beelden te maken van ruis zodat de discriminator de gegenereerde afbeeldingen niet langer kan onderscheiden van echte. Dit raamwerk wordt uitgebreid tot vele gegevensmodaliteiten en taken.

  • Toepassingen: Simuleer mogelijke toekomsten van een tijdreeks (bijvoorbeeld voor planningstaken bij het leren van versterking); superresolutie van afbeeldingen; herstel van 3D-structuur van een 2D-afbeelding; generaliseren van kleine gelabelde datasets; taken waarbij één ingang meerdere correcte uitgangen kan opleveren (bijv. het voorspellen van het volgende frame in een vide0; natuurlijke taal creëren in conversatie-interfaces (bijv. bots); cryptografie; semi-begeleid leren wanneer niet alle labels beschikbaar zijn; overdracht van artistieke stijl; synthetiseren van muziek en stem; beeld in schilderij.
  • Bedrijven: Twitter Cortex, Adobe, Apple, Prisma, Jukedeck *, Creative.ai, Gluru *, Mapillary *, Unbabel.
  • Belangrijkste onderzoekers: Ian Goodfellow (OpenAI), Yann LeCun en Soumith Chintala (Facebook AI Research), Shakir Mohamed en Aäron van den Oord (Google DeepMind), Alyosha Efros (Berkeley) en vele anderen.

3. Netwerken met geheugen

Om AI-systemen net als wij te generaliseren in diverse realistische omgevingen, moeten ze in staat zijn om voortdurend nieuwe taken te leren en te onthouden hoe ze allemaal in de toekomst moeten worden uitgevoerd. Traditionele neurale netwerken zijn echter meestal niet in staat om dergelijke opeenvolgende taken te leren zonder te vergeten. Deze tekortkoming wordt catastrofaal vergeten genoemd. Het gebeurt omdat de gewichten in een netwerk die belangrijk zijn om op te lossen voor taak A worden gewijzigd wanneer het netwerk vervolgens wordt getraind om op te lossen voor taak B.

Er zijn echter verschillende krachtige architecturen die neurale netwerken een wisselend geheugen kunnen geven. Deze omvatten langetermijngeheugennetwerken (een terugkerende variant van het neurale netwerk) die tijdreeksen kunnen verwerken en voorspellen, de differentieerbare neurale computer van DeepMind die neurale netwerken en geheugensystemen combineert om zelf te leren van en te navigeren in complexe datastructuren, het elastische gewichtconsolidatie-algoritme dat het leren op bepaalde gewichten vertraagt, afhankelijk van hoe belangrijk ze zijn voor eerder geziene taken, en progressieve neurale netwerken die laterale verbindingen leren tussen taakspecifieke modellen om nuttige functies uit eerder geleerde netwerken te halen voor een nieuwe taak.

  • Toepassingen: leeragenten die kunnen generaliseren naar nieuwe omgevingen; robotbesturingstaken; autonome voertuigen; voorspelling van tijdreeksen (bijv. financiële markten, video, IoT); begrip van de natuurlijke taal en voorspelling van het volgende woord.
  • Bedrijven: Google DeepMind, NNaisense (?), SwiftKey / Microsoft Research, Facebook AI Research.
  • Belangrijkste onderzoekers: Alex Graves, Raia Hadsell, Koray Kavukcuoglu (Google DeepMind), Jürgen Schmidhuber (IDSIA), Geoffrey Hinton (Google Brain / Toronto), James Weston, Sumit Chopra, Antoine Bordes (FAIR).

4. Leren van minder gegevens en het bouwen van kleinere modellen

Diepgaande leermodellen zijn opmerkelijk omdat ze enorme hoeveelheden trainingsgegevens vereisen om state-of-the-art prestaties te bereiken. De ImageNet Large Scale Visual Recognition Challenge, waarbij teams hun modellen voor beeldherkenning uitdagen, bevat bijvoorbeeld 1,2 miljoen trainingsafbeeldingen die zijn gelabeld met 1000 objectcategorieën. Zonder grootschalige trainingsgegevens komen deep learning-modellen niet samen in hun optimale instellingen en presteren ze niet goed bij complexe taken zoals spraakherkenning of machinevertaling. Deze gegevensvereiste groeit alleen wanneer een enkel neuraal netwerk wordt gebruikt om een ​​probleem end-to-end op te lossen; dat wil zeggen, het nemen van onbewerkte audio-opnames van spraak als de invoer en uitvoer van teksttranscripties van de spraak. Dit in tegenstelling tot het gebruik van meerdere netwerken die elk tussenvoorstellingen bieden (bijvoorbeeld onbewerkte spraakaudio-invoer → fonemen → woorden → teksttranscriptuitvoer of onbewerkte pixels van een camera die rechtstreeks is toegewezen aan stuuropdrachten). Als we willen dat AI-systemen taken oplossen waarbij trainingsgegevens bijzonder uitdagend, kostbaar, gevoelig of tijdrovend zijn om aan te schaffen, is het belangrijk om modellen te ontwikkelen die optimale oplossingen kunnen leren van minder voorbeelden (d.w.z. one-of-shot leren). Bij het trainen op kleine datasets zijn uitdagingen zoals overfitting, moeilijkheden bij het omgaan met uitbijters, verschillen in de gegevensverdeling tussen training en test. Een alternatieve benadering is om het leren van een nieuwe taak te verbeteren door kennis over te dragen van een machine-leermodel dat is verkregen van een eerdere taak met behulp van processen die gezamenlijk worden aangeduid als overdrachtsonderwijs.

Een gerelateerd probleem is het bouwen van kleinere deep learning-architecturen met state-of-the-art prestaties met een vergelijkbaar aantal of aanzienlijk minder parameters. Voordelen zijn onder meer een efficiëntere gedistribueerde training omdat gegevens moeten worden gecommuniceerd tussen servers, minder bandbreedte om een ​​nieuw model vanuit de cloud naar een edge-apparaat te exporteren, en een verbeterde uitvoerbaarheid in hardware met beperkt geheugen.

  • Toepassingen: training van ondiepe netwerken door te leren de prestaties van diepe netwerken na te bootsen die oorspronkelijk zijn getraind op grote gelabelde trainingsgegevens; architecturen met minder parameters maar gelijkwaardige prestaties als diepe modellen (bijv. SqueezeNet); machine vertaling.
  • Bedrijven: Geometric Intelligence / Uber, DeepScale.ai, Microsoft Research, Curious AI Company, Google, Bloomsbury AI.
  • Belangrijkste onderzoekers: Zoubin Ghahramani (Cambridge), Yoshua Bengio (Montreal), Josh Tenenbaum (MIT), Brendan Lake (NYU), Oriol Vinyals (Google DeepMind), Sebastian Riedel (UCL).

5. Hardware voor training en afleiding

Een belangrijke katalysator voor vooruitgang in AI is de herbestemming van grafische verwerkingseenheden (GPU's) voor het trainen van grote neurale netwerkmodellen. In tegenstelling tot de centrale verwerkingseenheid (CPU's) die sequentieel worden berekend, bieden GPU's een enorm parallelle architectuur die meerdere taken tegelijkertijd kan verwerken. Gezien het feit dat neurale netwerken enorme hoeveelheden (vaak hoge dimensionale gegevens) moeten verwerken, is training op GPU's veel sneller dan met CPU's. Dit is de reden waarom GPU's sinds de publicatie van AlexNet in 2012 - het eerste neurale netwerk dat op een GPU is geïmplementeerd, echt de schoppen voor de goudkoorts zijn geworden. NVIDIA blijft voorop lopen in 2017, vóór Intel, Qualcomm, AMD en meer recent Google.

GPU's waren echter niet speciaal gebouwd voor training of inferentie; ze zijn gemaakt om afbeeldingen voor videogames weer te geven. GPU's hebben een hoge rekenprecisie die niet altijd nodig is en hebben problemen met geheugenbandbreedte en gegevensdoorvoer. Dit heeft het speelveld geopend voor een nieuw soort startups en projecten binnen grote bedrijven zoals Google om silicium te ontwerpen en produceren, specifiek voor hoogdimensionale machine learning-toepassingen. Verbeteringen beloofd door nieuwe chipontwerpen zijn grotere geheugenbandbreedte, berekening op grafieken in plaats van vectoren (GPU's) of scalars (CPU's), hogere computerdichtheid, efficiëntie en prestaties per Watt. Dit is opwindend vanwege de duidelijke, snellere rendementen die AI-systemen leveren aan hun eigenaars en gebruikers: snellere en efficiëntere modeltraining → betere gebruikerservaring → gebruiker houdt zich meer bezig met het product → creëert grotere dataset → verbetert modelprestaties door optimalisatie. Dus degenen die in staat zijn om sneller te trainen en AI-modellen in te zetten die computationeel en energie-efficiënt zijn, hebben een aanzienlijk voordeel.

  • Toepassingen: snellere training van modellen (vooral op grafieken); energie- en data-efficiëntie bij het doen van voorspellingen; draaiende AI-systemen op de rand (IoT-apparaten); altijd luisterende IoT-apparaten; cloudinfrastructuur als een service; autonome voertuigen, drones en robotica.
  • Bedrijven: Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex
  • Hoofdonderzoekers:?

6. Simulatieomgevingen

Zoals eerder besproken, is het genereren van trainingsgegevens voor AI-systemen vaak een uitdaging. Wat meer is, AI's moeten in veel situaties generaliseren als ze voor ons in de echte wereld nuttig zijn. Als zodanig zullen de ontwikkeling van digitale omgevingen die de fysica en het gedrag van de echte wereld simuleren ons voorzien van testbedden om de algemene intelligentie van een AI te meten en te trainen. Deze omgevingen presenteren onbewerkte pixels voor een AI, die vervolgens acties ondernemen om op te lossen voor de doelen die ze zijn gesteld (of geleerd). Training in deze simulatie-omgevingen kan ons helpen te begrijpen hoe AI-systemen leren, hoe ze te verbeteren, maar biedt ons ook modellen die mogelijk kunnen worden overgedragen naar echte toepassingen.

  • Toepassingen: leren rijden; fabricage; industrieel ontwerp; spel ontwikkeling; slimme steden.
  • Bedrijven: Improbable, Unity 3D, Microsoft (Minecraft), Google DeepMind / Blizzard, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard
  • Onderzoekers: Andrea Vedaldi (Oxford)

Meld u aan voor mijn nieuwsbrief over AI-nieuws en analyses uit de techwereld, onderzoekslaboratorium en particuliere / publieke bedrijfsmarkt.

Kom langs bij onze volgende London.AI-bijeenkomst op 3 maart om over deze onderwerpen te horen! Met dank aan Alexandre Flamant voor het lezen van dit stuk.

Ik hoor graag je gedachten *. Reageer hieronder of ping me op Twitter (@nathanbenaich).