Изминаха само осем години, откакто DJ Patil – тогава ръководителят на отдела за данни и анализи в LinkedIn – въведе термина „учен по данни“, но професията вече се превърна в една от най-популярните в страната .
Патил отдавна участва в индустрията за данни. Като докторант и последващ член на факултета в Университета на Мериленд, той използва отворени набори от данни от NOAA, за да помогне за подобряване на численото прогнозиране на времето. В продължение на почти две години той беше директор на стратегията, анализите и продуктите в eBay, Inc.; той прекара почти три години в LinkedIn; и той е написан книги върху културата на данните и изграждането на продукти с данни. Миналата година Белият дом обяви собствената си подкрепа за науката за данни от назначаване Патил като първия й главен учен по данни в САЩ и като заместник-главен технологичен директор по политиката за данните в Службата за политика в областта на науката и технологиите.
Защо правителството реши, че има нужда от главен специалист по данни и какво включва позицията? Science Friday разговаря с Патил за това какво го е накарало да се заинтересува от данните, какво означава да си „учен по данни“ и накъде вижда индустрията.

Как за първи път започнахте да работите с данни?
Математиката ми е лоша, общо казано. Едва издържах часовете си по математика в гимназията и имах голям късмет, че отидох в младши колеж точно надолу по улицата [в Калифорния] на име De Anza College. Най-доброто решение, което някога съм вземал, беше да взема същия курс като моята приятелка [смее се], а тя взе математика, така че отидох и взех този курс по математика. И аз си казах: „Майната му, не знам нищо; това е изключително неудобно.“ Наистина имах този момент да реша наистина да го науча, а също и да впечатля приятелката си. Някак си го разбрах много бързо и се влюбих в математиката.
Оттам се прехвърлих в UCSD, където наистина започнах да работя върху много аспекти на данните около теорията на хаоса. Оттам отидох в Университета на Мериленд, домът на теорията на хаоса, и един от моите съветници беше Джим [Джеймс] Йорк, който измисли термина „ теория на хаоса .’
Започнахме да работим по прогнозиране на времето . Наистина се натъкнахме на това, че времето не е толкова хаотично, както хората вярваха преди. Начинът, по който направихме това, беше като влизах всяка вечер около 8, 9 вечерта, превземах тайно всеки компютър в математическия отдел и след това изтеглях всички тези данни от Националната метеорологична служба, разкъсвах ги на части, събирах ги в различни начини – и след това напускане преди 8 сутринта, когато някой щеше да влезе. И това ни позволи да открием тези наистина интересни модели. Това беше „а-ха!“ момент за мен, о, уау, можете да правите наистина невероятни неща, ако можете да получите данни. След като направихме това, това стана една от основните техники, използвани в прогнозата за времето.
След това помогнахте да създадете термина „ учен по данни “ (с Джеф Хамербахер, тогава мениджър на данни във Facebook), нали?
да Това е добро и лошо. Мисля, че има този интересен въпрос, добре, какво е учен по данни? Това не е ли просто учен? Учените не използват ли просто данни? И така, какво изобщо означава този термин?
Имахте един от моите съавтори, Хилари Мейсън, в шоуто, и нещото, за което се шегуваме и за което писахме заедно, е, че нещо номер едно в длъжностната характеристика на специалистите по данни е, че тя е аморфна. Няма конкретно нещо, което правите; работата въплъщава всички тези различни неща. Правите каквото трябва, за да разрешите проблем.
Ако изграждате самоуправляваща се кола, кои са тези хора, които изграждат самоуправляващата се кола? Те са учени по данни – независимо дали са продуктови мениджъри, дизайнери, каквито и да са. Те са хората, които използват тези техники и идеи от икономиката, от статистиката, от машинното обучение, от изкуствения интелект, от всички тези дисциплини, за да го накарат конкретно да работи, за да накарате колата да се движи по начин, който ви предпазва и други също са безопасни.
Най-добрите специалисти по данни имат едно общо нещо: невероятно любопитство.
Как се промени индустрията за данни и защо според вас стана популярно да си учен по данни?
Мисля, че причината аспектът на науката за данните наистина да процъфтява сега е, че хората могат да събират данни много по-лесно от преди; не е много усилие да го направиш. Второто е, че сега, когато хората могат да събират достатъчно количество данни, възниква този въпрос, добре, какво трябва да правим с него? И СЗО всъщност ще направи това?
Как мислите, че Белият дом осъзна, че има нужда от главен специалист по данни?
Е, едно от нещата, които хората не винаги са вземали под внимание, е колко голям фокус е поставил този президент върху данните от първия ден. Дори и да се оттеглите от кампанията му, той е много фокусиран върху използването на данни по нови начини за ангажиране с обществеността. Влизайки в администрацията, той се фокусира върху всичко - от това как пациентите да получат повече достъп до данни, до това как да гарантираме, че използваме данни за прозрачност - [т.е.] увеличаване на количеството данни, които са отворени там. Ние сме създали data.gov , където има почти 200 000 набора от данни, които са достъпни за разглеждане от всеки. Как използваме данните, за да подобрим услугите за всички? Всъщност [президентът Обама] го направи изпълнителна заповед че всички правителствени данни по подразбиране са отворени и машинно четими и че данните, които се публикуват с помощта на федерални изследователски долари, трябва да бъдат безплатни, защото кой плати за тях? Данъкоплатците. (Има времеви прозорец, в който искаме [здравните] списания да могат да имат изключителен достъп, но в дългосрочен план обществеността не трябва да плаща за това.)
Точно както беше първият президент, който имаше главен технологичен директор, той осъзна, че трябва да има екип, който да е фокусиран върху това как да отприщим силата на данните, за да бъдем наистина от полза за всеки един американец.
Вие заемате тази позиция повече от година. Кое е най-гордото ви постижение досега?
Постижението, с което най-много се гордея досега, е, че учените по данни сега са силно, силно ангажирани в работата по тези проблеми и толкова много от федералните агенции вече имат екип за данни или главен учен по данни или главен служител по данни. Вземете например транспорта. Те имат главен служител по данни, който се фокусира върху това, как Министерството на транспорта мисли по нов начин за това? Националните здравни институти имат човек, който се фокусира върху нови начини на мислене за данните. Същото прави и Министерството на земеделието на САЩ. Дори USAID. Така че всички мислят за данните като за мултипликатор на сила.
„Най-добрите специалисти по данни имат едно общо нещо: невероятно любопитство.“
Накъде виждате бъдещето на индустрията за данни?
Най-вълнуващото нещо за мен в бъдещето е как данните ще бъдат част от всеки един разговор и че в резултат на това ще вземаме по-бързи решения с по-високо качество. Това, което ще се случи, е, че няма да преглеждаме данните веднъж на всеки 10 години, за да оценим нещо – ще преглеждаме данните много редовно и ще коригираме курса в много по-реално време. И това ще ни позволи правителството да предоставя по-добри услуги и да бъде по-гъвкаво.
Какъв съвет имате за някой, който иска да стане учен по данни?
Никога няма по-добро време да започнете. Просто отидете на data.gov . Има почти 200 000 набора от данни, където, ако просто започнете да ги изтегляте, играйте с тях. Едно от най-готините неща, които можете да правите сега, е да работите с данни на ниво местен град. Има Национален ден на гражданското хакерство [на 4 юни 2016 г.] и това, което ще се случи на този ден в цялата страна е, че хората ще имат хакатон в местния си град, ще работят върху данни на местно ниво. Те могат да използват тези данни, за да подобрят своите местни общности.
Кои според вас са някои от най-големите предизвикателства пред индустрията за данни?
Нещо, което смятам за наистина важно, за което призовах, е, че всяка отделна програма за обучение – независимо дали е бакалавърска, магистърска или онлайн курсове по наука за данните – трябва да има етиката на данните не като някакво избираемо, а като централен принцип на това как правим неща. Когато работим с данни, имате невероятни възможности да правите страхотни неща с тях, а също така имате способността да правите нещо, което може да бъде много проблематично. Виждаме къде хората са използвали данни по начини, които смятаме, че принципно не са подходящи. Хората започнаха да говорят за това и какво трябва да направим по въпроса. Мисля, че трябва да проведем много по-силен разговор. Компонентите за поверителност са еднакво важни.
Също така смятам, че трябва да обучим много повече хора да използват данни. „Използване на данни“ означава как да четете графика на много основно ниво, чак до извършване на много сложни неща. Овластяването на хората с данни в ежедневния им живот кара хората да контролират по-добре съдбата си. Това може да е нещо толкова просто като, Как избирате колеж? Ето защо работим толкова усилено с Министерството на образованието, за да изградим Карта с резултати на колежа , което дава на хората прозрачност по нов начин.
Случвало ли ви се е да получите обратна реакция в ролята си?
Най-голямата реакция, която според мен има, е как да управляваме аспекта на поверителността на това и как едновременно да мислим за киберсигурността? Причината, поради която не смятам, че обратната реакция е съвсем правилната дума, е, че всеки признава стойността тук, така че не е „но“ – това е „и“. Как да използваме данните и да запазим поверителността и гарантиране на киберсигурност? Не съм намерил някой, който да е ядосан на проблемите, върху които работим; Мисля, че това, което имаме като проблем, е защо не работите върху че ? Може би това е най-голямата обратна реакция.
И така, как се справяте с тези опасения относно поверителността и киберсигурността?
Много съм съсредоточен върху тях. Всъщност те са интегрирани във всичко, което сме направили. Например в Инициатива за прецизна медицина , пуснахме принципи на поверителност и доверие вярваме, че това ще бъде приложението занапред за всеки, който прави този вид биомедицински изследвания. След това пуснахме проект на рамка за сигурност за който и да е от този тип изследвания в бъдеще и ще го финализираме много скоро. И така, ние практикуваме това, което проповядваме, тъй като етиката на данните е невероятен компонент на всяко едно нещо, което правим.
Тази статия е редактирана за пространство и яснота.