Кто такой дата-сайентист
vk f t

Кто такой дата-сайентист

Если вы не зна­е­те, чем занять­ся бли­жай­шие 15 лет, — иди­те в дата-сайенс, помо­ги­те ней­ро­се­тям захва­тить мир

В послед­нее вре­мя на слу­ху два тер­ми­на: биг дата и дата-саенс. Сего­дня — что это такое и зачем нуж­но.

Большие данные

Нач­нём с про­сто­го — big data, или «боль­шие дан­ные». Это мод­ный тер­мин, обо­зна­ча­ю­щий огром­ные мас­си­вы дан­ных, кото­рые накап­ли­ва­ют­ся в каких-то боль­ших систе­мах.

Напри­мер, чело­век в Москве совер­ша­ет 5-6 поку­пок по кар­те в день, это око­ло 2 тысяч поку­пок в год. В стране таких людей, допу­стим, 80 мил­ли­о­нов. За год это 160 мил­ли­ар­дов поку­пок. Дан­ные об этих покуп­ках — биг дата.
В бан­ках какой-то стра­ны каж­дый день совер­ша­ют­ся сот­ни тысяч опе­ра­ций: пла­те­жи, пере­во­ды, воз­вра­ты и так далее. Дан­ные о них хра­нят­ся в цен­траль­ном бан­ке стра­ны — это биг дата.
Ещё биг дата: дан­ные о звон­ках и смс у мобиль­но­го опе­ра­то­ра; дан­ные о пас­са­жи­ро­по­то­ке на обще­ствен­ном транс­пор­те; свя­зи меж­ду людь­ми в соц­се­тях, их лай­ки и пред­по­чте­ния; посе­щён­ные сай­ты; дан­ные о покуп­ках в кон­крет­ном мага­зине (кото­рые хра­нят­ся в их кас­се); дан­ные с шаго­ме­ров и тайм-трекеров; ска­чан­ные при­ло­же­ния; откры­тые вами фай­лы и про­грам­мы… Коро­че, любой боль­шой мас­сив дан­ных.

Поче­му появил­ся такой тер­мин: в кон­це девя­но­стых ком­па­нии в США ста­ли пони­мать, что сидят на доволь­но боль­ших мас­си­вах дан­ных, с кото­ры­ми непо­нят­но что делать. И чем даль­ше — тем этих дан­ных боль­ше.

Рань­ше дан­ные были, услов­но гово­ря, по кре­дит­ным кар­там, теле­фон­ным сче­там и из про­филь­ных госу­дар­ствен­ных ведомств; а теперь чем даль­ше — тем боль­ше все­го счи­та­ет­ся. Супер­мар­ке­ты научи­лись вести сверх­точ­ный учёт скла­да и про­даж. Поли­ция научи­лась с высо­кой точ­но­стью сле­дить за маши­на­ми на доро­ге. Появи­лись смарт­фо­ны, и вооб­ще вся чело­ве­че­ская жизнь ста­ла оциф­ро­вы­вать­ся.

И вот — дан­ные вро­де есть, а что с ними делать? Тут на сце­ну выхо­дит дата-сайенс — дис­ци­пли­на о боль­ших дан­ных.

Минут­ка зануд­ства. Все зна­ют, что пра­виль­но гово­рить «биг дэй­та», пото­му что имен­но так про­из­но­сят носи­те­ли язы­ка. Но в рус­ском язы­ке этот тер­мин при­жил­ся с побук­вен­ной транс­ли­те­ра­ци­ей — как напи­са­но, так и чита­ем. Поэто­му — дата. Кста­ти, с сай­ен­ти­ста­ми тако­го не про­изо­шло — они зву­чат так же, как в ори­ги­на­ле.

Дата-сайенс

Дата-сайентисты — люди, кото­рые зани­ма­ют­ся боль­ши­ми дан­ны­ми: нахо­дят зако­но­мер­но­сти и дела­ют на их осно­ве полез­ные для сво­ей ком­па­нии выво­ды.

Напри­мер, мы — управ­ля­ю­щая ком­па­ния мага­зи­на «Пятё­роч­ка». В каком-то рай­оне у нас откры­то три мага­зи­на. Мы можем попро­сить дата-сайентиста про­ана­ли­зи­ро­вать тран­зак­ции в наших мага­зи­нах и сде­лать про­гноз, мож­но ли какие-то из них закрыть, сохра­нив общую выруч­ку на преж­нем уровне.

Или мы хотим открыть кофей­ню. У нас есть дан­ные об обще­ствен­ном транс­пор­те горо­да, о поло­же­нии кофе­ен в горо­де и сто­и­мо­сти арен­ды в раз­ных домах. Мы можем попро­сить дата-сайентиста пред­ска­зать, где в горо­де не хва­та­ет кофе­ен отно­си­тель­но пас­са­жир­ских пото­ков.

Допу­стим, мы мобиль­ный опе­ра­тор. Мы хотим сде­лать тариф «Юный хай­по­жор» для юных люби­те­лей отве­дать хай­па. Мы отда­ём нашу кли­ент­скую базу и дан­ные о пове­де­нии кли­ен­тов дата-сайентисту, и тот счи­та­ет нам эко­но­ми­ку буду­ще­го тари­фа и потен­ци­аль­ный объ­ём рын­ка, а так­же помо­га­ет выде­лить самых голод­ных до хай­па людей.

Ино­гда эти ребя­та помо­га­ют с управ­ле­ни­ем в ком­па­ни­ях: они на осно­ве дан­ных пишут отчё­ты, кото­рые пока­зы­ва­ют сла­бые места на про­из­вод­стве и дают реко­мен­да­ции по их устра­не­нию. Или отве­ча­ют на вопро­сы из серии «Поче­му наши мене­дже­ры так мало про­да­ют?» или «Где сто­ять продавцу-консультанту, что­бы к нему обра­ща­лись чаще все­го?».

Что знают и умеют дата-сайентисты

Вот началь­ный спи­сок навы­ков, зна­ний и уме­ний, кото­рые нуж­ны любо­му дата-сайентисту для стар­та в рабо­те.

Мате­ма­ти­че­ская логи­ка, линей­ная алгеб­ра и выс­шая мате­ма­ти­ка. Без это­го не полу­чит­ся постро­ить модель, най­ти зако­но­мер­но­сти или пред­ска­зать что-то новое.

Есть те, кто гово­рит, что это всё не нуж­но, и глав­ное — писать код и кра­си­во делать отчё­ты, но они лука­вят. Что­бы обу­чить ней­рон­ку, нуж­на мате­ма­ти­ка и фор­му­лы; что­бы най­ти зако­но­мер­но­сти в дан­ных — нуж­на мате­ма­ти­ка и ста­ти­сти­ка; что­бы сде­лать отчёт на осно­ве боль­шой выбор­ки дан­ных — ну, вы поня­ли. Мате­ма­ти­ка рулит.

Зна­ние машин­но­го обу­че­ния. Рабо­та дата-сайентиста — ана­лиз дан­ных огром­но­го раз­ме­ра, и вруч­ную это сде­лать нере­аль­но. Что­бы было про­ще, они пору­ча­ют это ком­пью­те­рам. Пору­чить такую зада­чу — зна­чит настро­ить гото­вую ней­ро­сеть или обу­чить свою. Пору­чить про­грам­ми­сту обыч­но это нель­зя — слиш­ком мно­го нуж­но будет объ­яс­нить и про­кон­тро­ли­ро­вать.

Про­грам­ми­ро­ва­ние на Python и R. Мы уже писа­ли, что Python — иде­аль­ный язык для машин­но­го обу­че­ния и ней­ро­се­тей. На нём мож­но быст­ро напи­сать любую модель для пер­во­на­чаль­ной оцен­ки гипо­те­зы, поис­ка общих дан­ных или про­стой ана­ли­ти­ки.

R — язык про­грам­ми­ро­ва­ния для ста­ти­че­ско­го ана­ли­за. Если вам нуж­но при­ки­нуть, как лай­ки на стра­ни­це зави­сят от коли­че­ства про­смот­ров или до како­го места чита­тель гаран­ти­ро­ван­но доли­сты­ва­ет ста­тью (что­бы поста­вить туда бан­нер), — R вам помо­жет. Но если вы не зна­е­те мате­ма­ти­ку — не помо­жет.

R и ста­ти­сти­ка в дей­ствии. Кар­тин­ка с Хаб­ра.

Уме­ние полу­чать и визу­а­ли­зи­ро­вать дан­ные. Не всем дата-сайентистам везёт настоль­ко, что они сра­зу полу­ча­ют гото­вые набо­ры дан­ных для обра­бот­ки. Чаще все­го они сами долж­ны выяс­нить, где, отку­да, как и сколь­ко брать дан­ных. Здесь обыч­ные про­грам­ми­сты им уже могут помочь — спар­сить сайт, выка­чать боль­шую базу дан­ных или настро­ить сбор ста­ти­сти­ки на сер­ве­ре.

Вто­рой важ­ный навык в этой про­фес­сии — уме­ние нагляд­но пока­зать резуль­та­ты рабо­ты. Какой толк в гра­фи­ках, если никто, кро­ме авто­ра, не пони­ма­ет, что там нари­со­ва­но? Зада­ча дата-сайентиста — пред­ста­вить дан­ные нагляд­ным обра­зом, что­бы зри­те­лю было лег­че сде­лать нуж­ный вывод.

Свя­зи в твит­те­ре неко­е­го Скот­та Бел­ла. Явно вид­ны несколь­ко раз­ных групп фол­ло­ве­ров, кото­рые мало пере­се­ка­ют­ся меж­ду собой. Это и есть нагляд­ное пред­став­ле­ние дан­ных.

Как это выглядит в жизни

Дата-сайентист в совре­мен­ном пони­ма­нии — очень моло­дая про­фес­сия. Ком­па­нии уже поня­ли, что эти ребя­та помо­гут им зара­бо­тать или сэко­но­мить мил­ли­о­ны дол­ла­ров, поэто­му они созда­ют для них новые отде­лы и рабо­чие места.

С дру­гой сто­ро­ны, такой набор зна­ний — ред­кость, поэто­му дата-сайентистов сей­час на рын­ке очень мало: гораз­до мень­ше, чем пред­ло­же­ний о рабо­те. Имен­но поэто­му у них такие высо­кие зар­пла­ты — ком­па­нии сами борют­ся за то, что­бы нанять тако­го спе­ци­а­ли­ста.

Так как это направ­ле­ние толь­ко раз­ви­ва­ет­ся, у мно­гих про­грам­ми­стов есть шанс попасть туда и рабо­тать ана­ли­ти­ком. Для это­го нуж­но про­ка­чи­вать уме­ние писать код, мате­ма­ти­ку и ста­ти­сти­ку. Если вы всё это уже зна­е­те и уме­е­те — може­те попро­бо­вать себя в «про­фес­сии буду­ще­го».

В «Яндекс-практикуме» есть курс для ана­ли­ти­ков — это нача­ло пути дата-сайентиста. Мож­но попро­бо­вать бес­плат­ный урок и посмот­реть, как вам — понра­вит­ся или нет.

Ещё по теме