25 leuke vragen voor een machine learning-interview

Kunnen interviewvragen in machine learning tegelijkertijd grappig en diepgaand zijn?

Afbeeldingsbron: https://xkcd.com/1838/

Veel van de datawetenschappers bestuderen machine learning (ML), meestal vanuit het perspectief van een data-practitioner. Bijgevolg is het mogelijk dat we ons concentreren op het leren over zoveel mogelijk nieuwe pakketten, kaders, technieken en minder concentreren op een diepgaand onderzoek van de belangrijkste theoretische aspecten. En hier omvat mijn definitie van machine learning al het standaard statistische leren (d.w.z. het omvat niet alleen diep leren).

Met enige moeite onderzoeken en overwegen, kan men echter zoveel prachtige ML-vragen bedenken, die, wanneer ze worden beantwoord en geanalyseerd, diepere aspecten prachtig kunnen onthullen. Kortom, deze vragen kunnen ons helpen om ons hoofd uit deze stapel te halen zoals hierboven weergegeven. We willen gewoon niet de hele dag door een dataset roeren, we willen diep duiken in de eigenschappen, eigenaardigheden en ingewikkeldheden van technieken voor machinaal leren en ze omarmen ...

Er zijn tenslotte veel artikelen op internet over "standaard interviewvragen voor machine learning". Kunnen we weinig anders en interessant doen?

Disclaimer: ik plaats alleen de vragen om na te denken en de discussie te stimuleren. Er wordt geen kant-en-klaar antwoord gegeven. Sommige vragen hebben een hint, maar eigenlijk zijn ze voor meer discussie in plaats van een definitief antwoord. Elke vraag is het waard om in meer detail te worden besproken. Er is geen vast antwoord. Sommige vragen zijn gekunsteld, sommige zijn gewoon voor de lol. Gewoon genieten :-) Om op te starten, heb ik een grappige meme ingevoegd na elke 5e vraag ...

Leuke vragen

  • Ik heb een lineair regressiemodel gebouwd met een betrouwbaarheidsinterval van 95%. Betekent dit dat er een kans van 95% is dat mijn modelcoëfficiënten de werkelijke schatting zijn van de functie die ik probeer te benaderen? (Hint: het betekent eigenlijk 95% van de tijd ...)
  • Wat is een overeenkomst tussen het Hadoop-bestandssysteem en het algoritme van de dichtstbijzijnde k? (Hint: ‘lui’)
  • Welke structuur is krachtiger in termen van expressiviteit (d.w.z. het kan een gegeven Booleaanse functie nauwkeurig weergeven) - een enkellaags perceptron of een tweelaags beslissingsboom? (Hint: XOR)
  • En welke is krachtiger - een beslissingsboom met twee lagen of een neuraal netwerk met twee lagen zonder activeringsfunctie? (Hint: niet-lineariteit?)
  • Kan een neuraal netwerk worden gebruikt als hulpmiddel voor dimensionaliteitsreductie? Leg uit hoe.
  • Iedereen belastert en kleineert de onderscheppingsterm in een lineair regressiemodel. Vertel me een van de hulpprogramma's. (Hint: lawaai / vuilnisman)
  • LASSO-regularisatie vermindert coëfficiënten tot exact nul. Rugregressie reduceert ze tot zeer kleine maar niet-nul waarde. Kun je het verschil intuïtief verklaren uit de plots van twee eenvoudige functies | x | en x²? (Hint: die scherpe hoeken in de | x | plot)
  • Stel dat u niets weet over de distributie waaruit een gegevensverzameling (continu getaxeerde getallen) afkomstig is en dat het verboden is aan te nemen dat het Normaal Gaussiaans is. Toon met zo eenvoudig mogelijke argumenten dat, ongeacht wat de werkelijke verdeling is, u kunt garanderen dat ~ 89% van de gegevens binnen +/- 3 standaardafwijkingen van het gemiddelde zal liggen (Hint: Markov's Ph.D.-adviseur)
  • De meerderheid van machine learning-algoritmen omvat een soort matrixmanipulatie zoals vermenigvuldiging of inversie. Geef een eenvoudig wiskundig argument waarom een ​​mini-batchversie van een dergelijk ML-algoritme rekenkundig efficiënter kan zijn dan een training met volledige gegevensset. (Hint: tijdcomplexiteit van matrixvermenigvuldiging ...)
  • Denk je niet dat een tijdreeks een echt eenvoudig lineair regressieprobleem is met slechts één responsvariabele en één voorspeller - tijd? Wat is het probleem met een lineaire regressiefit (niet noodzakelijkerwijs met een enkele lineaire term maar zelfs met polynomiale graden) in het geval van een tijdreeksgegevens? (Hint: verleden is een indicator voor de toekomst ...)
  • Laat met eenvoudig wiskundig argument zien dat het vinden van de optimale beslissingsbomen voor een classificatieprobleem tussen alle mogelijke boomstructuren een exponentieel moeilijk probleem kan zijn. (Hint: hoeveel bomen zijn er eigenlijk in de jungle?)
  • Zowel beslissingsbomen als diepe neurale netwerken zijn niet-lineaire classificeermiddelen, d.w.z. ze scheiden de ruimte door gecompliceerde beslissingsgrens. Waarom is het dan zoveel gemakkelijker om een ​​beslissingsboommodel intuïtief te volgen versus een diep neuraal netwerk?
  • Back-propagatie is het werkpaard van diep leren. Noem een ​​paar mogelijke alternatieve technieken om een ​​neuraal netwerk te trainen zonder back-propagatie te gebruiken. (Hint: willekeurig zoeken ...)
  • Stel dat u twee problemen hebt: een lineaire regressie en een logistieke regressie (classificatie). Welke van hen heeft meer kans om te profiteren van een nieuw ontdekt supersnel groot matrix-vermenigvuldigingsalgoritme? Waarom? (Hint: welke gebruikt waarschijnlijk een matrixmanipulatie?)
  • Wat is de impact van correlatie tussen voorspellers op de analyse van de belangrijkste componenten? Hoe kun je het aanpakken?
  • U wordt gevraagd om een ​​classificatiemodel te bouwen over de impact van meteorieten op de aarde (belangrijk project voor de menselijke beschaving). Na een voorlopige analyse krijgt u een nauwkeurigheid van 99%. Moet je gelukkig zijn? Waarom niet? Wat kunt u eraan doen? (Hint: zeldzaam evenement ...)
  • Is het mogelijk om de correlatie tussen continue en categorische variabele vast te leggen? Zo ja, hoe?
  • Als u met genexpressiegegevens werkt, zijn er vaak miljoenen voorspellende variabelen en slechts honderden steekproeven. Geef eenvoudig wiskundig argument waarom gewoon-kleinste-kwadraat geen goede keuze is voor een dergelijke situatie als je een regressiemodel bouwt. (Hint: sommige matrixalgebra ...)
  • Leg uit waarom k-voudige kruisvalidatie niet goed werkt met het tijdseriemodel. Wat kunt u eraan doen? (Hint: onmiddellijk verleden is een goede indicator voor de toekomst ...)
  • Eenvoudige steekproeven van trainingsgegevens in trainings- en validatieset werken goed voor het regressieprobleem. Maar wat kan er misgaan met deze benadering voor een classificatieprobleem? Wat kan hieraan worden gedaan? (Hint: zijn alle klassen in dezelfde mate gangbaar?)
  • Wat is belangrijker voor u - modelnauwkeurigheid of modelprestaties?
  • Als u gebruik zou kunnen maken van meerdere CPU-cores, zou u dan een gebooste boomalgoritme verkiezen boven een willekeurig forest? Waarom? (Hint: als je 10 handen hebt om een ​​taak uit te voeren, profiteer je ervan)
  • Stel je voor dat je gegevensset lineair scheidbaar is en dat je de convergentie en het maximale aantal iteraties / stappen van je algoritme moet garanderen (vanwege de reden van de rekenkracht). Zou je in dit geval voor een kleurverloop kiezen? Wat kunt u kiezen? (Hint: welk eenvoudig algoritme biedt garantie voor het vinden van een oplossing?)
  • Stel dat u een extreem kleine hoeveelheid geheugen / opslag heeft. Wat voor soort algoritme zou u verkiezen - logistieke regressie of k-naaste buur? Waarom? (Hint: ruimtecomplexiteit)
  • Om in eerste instantie een machine learning-model te bouwen, had u 100 datapunten en 5 functies. Om bias te verminderen, hebt u de functies verdubbeld met nog 5 variabelen en 100 extra gegevenspunten verzameld. Leg uit of dit een juiste aanpak is? (Hint: er is een vloek op machine learning. Heb je erover gehoord?)

Als je nog andere leuke ML-vragen of ideeën hebt om te delen, neem dan hier contact op met de auteur. Goede vragen zijn moeilijk te genereren en ze geven nieuwsgierigheid en dwingen iemand om diep na te denken. Door een grappige en interessante vraag te stellen, maak je de leerervaring tegelijkertijd plezierig en verrijkend. Ik hoop dat je genoten hebt van deze poging om dat te doen.