12 dingen waarvan ik wou dat ik het wist voordat ik begon als Data Scientist

Ik ben iets meer dan drie jaar gegevenswetenschapper. Ik word gevraagd om advies over het veld van studenten, dus hier zijn een paar van mijn gedachten. Ten eerste zal ik een paar dingen opsommen waarvan ik wou dat ik ze kende toen ik het veld betrad, en ten tweede mijn standaardadvies voor studenten die na hun afstuderen gegevenswetenschapper zouden willen worden.

Wat ik wou dat ik bekend was over Data Science

Zoveel tools om je zorgen over te maken, zo weinig dat je echt zult gebruiken

'Data science' is een vage term, dus behandel het dienovereenkomstig

Data science kan vrijwel elk kwantitatief werk omvatten. Twee datawetenschappers bij verschillende bedrijven, of zelfs binnen hetzelfde bedrijf, zouden totaal verschillende soorten werk kunnen doen. Het veld is geleidelijk uiteengevallen in meer specifieke functietitels, zoals data engineer, data analist, machine learning engineer, enzovoort. Dit specialisatieproces zal in de toekomst zeker versnellen. Daarom, als je het hebt over data science of solliciteren naar banen, probeer dan te achterhalen wat de specifieke relevante definitie van data science is voor die situatie, en zorg ervoor dat deze overeenkomt met de jouwe. Het is met name handig om erachter te komen wat de deliverables zijn in een specifieke data science-functie. Moet u code schrijven die in een productiesysteem leeft? Moet u datapijplijnen maken? Gaat u analyses maken van offline gegevens, en zo ja, wat voor analyses? Het is vaak beter om uit te zoeken voor welke deliverables u verantwoordelijk bent, dan het lezen van actuele functiebeschrijvingen, omdat functiebeschrijvingen de neiging hebben om een ​​breed scala aan kandidaten voor een functie aan te trekken in plaats van echt te beschrijven wat de taak inhoudt.

Imposter-syndroom is een normaal onderdeel van het werk

Elke datawetenschapper ervaart het imposter-syndroom. Ik heb gemerkt dat een belangrijk onderdeel van de taak er naartoe navigeren is. Er zullen altijd dingen zijn die je niet weet. Zoals hierboven vermeld, is het veld slecht gedefinieerd, dus er is een ongelooflijk groot aantal onderwerpen dat mogelijk onder de definitie van 'data science' valt. Als je blogs of Quora leest, voelt het alsof je van wereldklasse moet zijn alles om datawetenschapper te zijn: een Stanford PhD statisticus, een Google-calibur engineer en een McKinsey-grade business expert, allemaal verpakt in één. De realiteit is dat niemand in alles perfect is. Zelfs als je op een of andere manier op magische wijze perfect was bij elke vaardigheid, zou je slechts een subset van die vaardigheden gebruiken voor elk project, en zou je de praktijk verliezen met degene die je niet gebruikte. Het enige wat u hoeft te doen om een ​​goede datawetenschapper te zijn, is een manier vinden om data nuttig te gebruiken. Er zijn veel verschillende manieren om dat te doen. Het is prima om van tijd tot tijd een bedrieglijk syndroom te voelen. Weet gewoon dat het normaal is en laat je niet naar beneden halen. Probeer in plaats daarvan situaties te omarmen waarin je iets nieuws te leren hebt als opwindende groeimogelijkheden, en vergeet niet om dat gevoel in gedachten te houden de volgende keer dat je iemand tegenkomt die iets niet weet wat je doet.

U hoeft nooit alle tools te kennen

Hadoop, Spark, Yarn, Julia, Kafka, Airflow, Scalding, Redshift, Hive, TensorFlow, Kubernetes ... er is een schijnbaar oneindig aantal data science coderingstalen, frameworks en tools. Als je nog niet eerder hebt gewerkt aan een data science-taak, voelt het alsof je ze allemaal moet kennen om een ​​echte datawetenschapper te zijn. Telkens als ik iemand een hulpmiddel hoorde noemen dat ik niet kende in een gesprek, werd ik stilletjes intern gek en maakte ik een mentale notitie om een ​​Coursera-les te vinden over het onderwerp dat ik kon bingeren, stat. Gelukkig kun je 99% van de data science-tools die er zijn veilig negeren. Uiteindelijk zal uw bedrijf zijn eigen tools hebben. Iedereen binnen het bedrijf zal goed worden in het gebruik van die tools en geen idee hebben van de meeste andere. Bovendien kan het geen goed bedrijf schelen als u hun specifieke set van tools eerder hebt gebruikt. Tenzij je voor een echt gespecialiseerde rol gaat, verwachten ze dat je hun stapel op het werk kunt leren. Je moet gewoon genoeg weten om een ​​interview te halen. Kies een kleine reeks hulpmiddelen die voor u werken. Voel je op je gemak en maak je geen zorgen dat je te veel vertakt totdat je aan het werk bent.

Leer uw basisgereedschap echter goed

U hoeft niet elk hulpmiddel te kennen, maar u moet diep ingaan op de basishulpmiddelen die u dagelijks gebruikt. U zult nooit spijt krijgen van de saaie delen van het SQL-dialect dat uw bedrijf gebruikt, zoals het schrijven van een geoptimaliseerde zoekopdracht. Als u R gebruikt, leert u de ins en outs van ggplot2 en dplyr kennen. Als je Python gebruikt, probeer dan echt panda's te begrijpen, numpy en scipy. Ik deed maandenlang alsof ik git kende, maar raakte altijd in git-knopen verstrikt. Eindelijk ging ik kapot en las ik een geweldige tutorial over de tool. Toen voelde ik me onoverwinnelijk. Als je merkt dat je iets regelmatig gebruikt, neem dan even de tijd om de handleiding te lezen.

Je bent een expert in een domein, niet alleen methoden

Data science is tot stand gekomen als een compromis tussen onderzoekswetenschappelijke functies en functies voor bedrijfsanalisten. De eerste gebruikte krachtige methoden, maar beïnvloedde alleen indirect bedrijfsbeslissingen, terwijl de tweede direct invloed had op bedrijfseigenaren, maar daarvoor beperkte middelen gebruikte. Gegevenswetenschappers hebben de meeste impact wanneer ze beide kanten combineren, door diepe domeinkennis te combineren met de juiste statistische en engineeringtools om betere beslissingen of nuttige gegevensproducten te maken.

Naar mijn ervaring leunen de meeste datawetenschappers te ver in de richting van de onderzoekswetenschapper en niet ver genoeg in de richting van het business analist pad. Ze houden ervan om mooie technieken te gebruiken, maar ze investeren te weinig in het leren over hun domein. Ze gaan naar machine learning-conferenties, maar gaan minder vaak naar conferenties over bijvoorbeeld marketing of risico. Veel datawetenschappers realiseren zich niet eens dat ze een domein hebben. Elk team met opgebouwde kennis over wat werkt en geen domeinkennis heeft, en u kunt er meer over te weten komen van uw zakenpartners of door te praten met vergelijkbare teams bij andere bedrijven. Het kennen van je domein is het halve werk, dus investeer daar tijd, net zoals je doet voor je 'harde vaardigheden'.

De belangrijkste vaardigheid is kritisch denken

Een groot deel van elke kenniswerktaak is bepalen wat belangrijk is en wat niet. Je kunt de perfecte analyse doen, maar als blijkt dat je het verkeerde probleem oplost of als je inzicht niet bruikbaar is, maakt het niet uit. Het is de moeite waard om actief tijd te besteden aan het nadenken over de bredere context van uw werk. Wat zijn de belangrijkste uitdagingen in uw team en waarom? Is uw huidige routekaart de beste manier om uw team te helpen, of moet u uw plan verschuiven? De antwoorden op deze vragen kunnen in de loop van de tijd veranderen, dus het is belangrijk om regelmatig in te checken. Ik heb veel datawetenschappers te lang een weg bewandeld, simpelweg vanwege traagheid.

Wat te doen als student om Data Scientist te worden

Volg relevante lessen - niet alleen technische lessen

Natuurlijk zullen statistieken en informatica lessen nuttig zijn tijdens het werk. Veel lessen kunnen echter nuttig zijn. Alles wat u ertoe brengt om kritisch te oefenen en schriftelijke argumenten te maken, zoals filosofie, geschiedenis of Engels, kan nuttig zijn, want dat is veel van wat u doet in de gegevenswetenschap. Sociale wetenschappen, zoals economie of kwantitatieve psychologie, kunnen geweldig zijn om ervaring op te doen met het maken van causale conclusies. Een les waar ik vaak aan terugdenk, is de overtuigende spreekcursus die ik volgde en die ik regelmatig in mijn werk aanroep. Neem een ​​behoorlijk deel van de technische lessen, maar leer breed en volg je interesses. Mijn strategie was altijd om met geweldige professoren te werken boven geweldige syllabi. Ik zou dat nog steeds aanbevelen aan elke student, data science of niet.

Oefen communicatie - schriftelijk, visueel en mondeling

Communicatieve vaardigheden zijn enorm belangrijk en worden chronisch ondergewaardeerd in de gegevenswetenschap. Uw impact kan slechts zo goed zijn als uw communicatievaardigheden, omdat u anderen moet overtuigen om beslissingen te nemen of producten te helpen bouwen op basis van uw analyses. Veel carrières van zeer technische gegevenswetenschappers zijn dus impliciet beperkt omdat ze niet duidelijk kunnen schrijven of spreken. De praktijk - in alle drie de vormen, schriftelijk, visueel en verbaal - maakt echt een verschil. Volg lessen met veel schrijven, vooral als je het gevoel hebt dat je een zwakke schrijfster bent of Engels niet je eerste taal is. Veel campussen hebben schrijfcentra om je te helpen feedback te krijgen. Dat is een bron om voordeel uit te halen terwijl je het hebt.

Werk aan echte gegevensproblemen

Kaggle is geweldig om te leren over modelleren. Met Kaggle is het moeilijkste deel echter al voor u gedaan: het verzamelen, opschonen en definiëren van het probleem dat met die gegevens moet worden opgelost. De beste manier om je voor te bereiden op een baan als datawetenschapper is om echte data te gebruiken om echte vragen te beantwoorden. De reden is simpel: het komt het dichtst in de buurt van een echte baan zonder er daadwerkelijk een te hebben. Zoek iets waarin u geïnteresseerd bent en ontvang uw eigen gegevens. Gegevens van internet schrapen is veel eenvoudiger dan de meeste beginners beseffen met pakketten als BeautifulSoup, Scrapy en rvest. Wikipedia en Reddit zijn goede doelen als je inspiratie nodig hebt, maar de beste keuze is iets waar je echt enthousiast over bent. Stel vervolgens enkele vragen die u interesseren en kijk hoe goed u deze kunt beantwoorden. Maak de gegevens schoon, maak enkele grafieken en modellen en schrijf je conclusies ergens op openbaar. In het begin zal het langzaam gaan, maar dat komt omdat je aan het leren bent. Probeer, als je kunt, werkelijke problemen uit de echte wereld voor mensen in je gemeenschap op te lossen, zoals het doen van statistieken voor een schoolsportteam of het uitvoeren van polling-analyses voor de schoolkrant, om ook te oefenen met stakeholdermanagement.

Publiceer uw werk en krijg feedback hoe u maar kunt

De enige manier om overal beter in te worden, is door feedback te krijgen. Gegevenswerk is geen uitzondering. Tegenwoordig is het zo eenvoudig om notebooks op Github of persoonlijke websites te plaatsen. Als je schrijft over een onderwerp waarin je vrienden geïnteresseerd zijn, kun je veel leren van hoe ze reageren. Wat was er aantrekkelijk aan je presentatie? Wat was onduidelijk? Kon u hen van uw belangrijkste argument overtuigen? Hebben ze zich verveeld bij het lezen en hebben ze het einde niet gehaald? Cruciaal is dat je je code beschikbaar maakt en probeert code-reviews van andere studenten te krijgen, zodat je elkaar beter kunt maken. Als je een techniek gebruikt van een klas die je volgt, kun je zelfs een professor laten zien wat je hebt gedaan en wat feedback van experts krijgen terwijl je wat initiatief toont. En wie weet, als een van uw analyses viraal gaat op internet, krijgt u er misschien zelfs een baan uit!

Ga naar evenementen - hackathons, conferenties, meetups

Voor zover uw geografie en budget dit toelaten, probeer dan interactie te hebben met de externe wereld van de gegevenswetenschap terwijl u een student bent. Hierdoor krijgt u een beter inzicht in de realiteit van het veld en krijgt u een voorsprong op netwerken. Er zijn data science meetups en hackathons in de meeste grote steden, en naar mijn ervaring zijn de meeste mensen erg vriendelijk voor studenten bij hen. Conferenties hebben meestal aanzienlijk kortingskaartjes voor studenten. Met vrienden gaan kan ook zorgen voor een leuke excursie samen!

Wees flexibel met hoe u het veld betreedt

Data science is een concurrentieveld. Er is een beperkt aantal technologiebedrijven met geweldige datawetenschappelijke merken en de strijd om hun zomerstages en instaprollen is hevig. Als u echter eenmaal een kleine hoeveelheid echte gegevenswetenschappelijke werkervaring hebt, is het veel gemakkelijker om een ​​tweede baan in het veld te krijgen. Data-wetenschappers met een paar jaar onder hun riem, zelfs van weinig bekende bedrijven, hebben vaak weinig moeite om aangenomen te worden bij topbedrijven. Als u dus datawetenschapper wilt worden en u niet meteen een aanbieding krijgt van een van de beroemde bedrijven, kunt u overwegen uw zoektocht naar een baan te verbreden. Er zijn veel bedrijven met interessante problemen om op te lossen.

Bedankt voor het lezen! Ik hoor graag je gedachten - volgens de feedbackkogel hierboven! - dus laat gerust een reactie achter.