Карьерный путь: руководитель группы в лаборатории ИИ Сбера

👨‍💻 Герой: Алек­сей Васи­льев, 34 года, Москва. Выпуск­ник механико-математического факуль­те­та МГУ. 

🛠 Рабо­та: руко­во­ди­тель груп­пы дата-сайентистов в Сбе­ре. Обыч­но рабо­та­ет в офи­се, 5/2 с 10:00 до 19:00. 

🧭 Рынок: Data scientist в Рос­сии: 427 вакан­сий

Зачем нужна лаборатория по искусственному интеллекту?

Лабо­ра­то­рия AI Сбе­ра созда­ва­лась как центр ком­пе­тен­ций в обла­сти искус­ствен­но­го интел­лек­та. С одной сто­ро­ны, это науч­ное под­раз­де­ле­ние и, как в любой лабо­ра­то­рии, мы здесь можем про­во­дить экс­пе­ри­мен­ты, про­ве­рять раз­лич­ные идеи, при­ду­мы­вать новые алго­рит­мы. С дру­гой сто­ро­ны, лабо­ра­то­рия — часть бан­ка. Поэто­му боль­шая часть того, чем зани­ма­ет­ся лабо­ра­то­рия, име­ет при­ме­не­ние в бан­ке и дочер­них компаниях.

В лабо­ра­то­рии по искус­ствен­но­му интел­лек­ту Сбе­ра при­сут­ству­ют раз­ные груп­пы. Напри­мер, есть груп­па AI в меди­цине. На осно­ве её тех­но­ло­гий в Москве появи­лись систе­ма под­держ­ки при­ня­тия вра­чеб­ных реше­ний. Паци­ент при­хо­дит на при­ём, док­тор его опра­ши­ва­ет, состав­ля­ет пере­чень жалоб, а искус­ствен­ный интел­лект пред­ла­га­ет три наи­бо­лее веро­ят­ных вари­ан­та диагноза.

Есть груп­па реко­мен­да­тель­ных систем. В этом направ­ле­нии раз­ра­ба­ты­ва­ют тех­но­ло­гии, кото­рые оце­ни­ва­ют пове­де­ние кли­ен­та и про­гно­зи­ру­ют его инте­рес к дру­гим про­дук­там ком­па­нии на осно­ве его пред­по­чте­ний и пред­по­чте­ний похо­жих поль­зо­ва­те­лей. Вы вза­и­мо­дей­ству­е­те с реко­мен­да­тель­ной систе­мой каж­дый раз, когда смот­ри­те ютуб: выбра­ли один ролик — в оче­ре­ди уже сто­ят несколь­ко похо­жих. Реко­мен­да­тель­ные систе­мы упро­ща­ют поиск кон­тен­та, удер­жи­ва­ют поль­зо­ва­те­лей и помо­га­ют ком­па­ни­ям боль­ше зарабатывать. 

Или есть иссле­до­ва­тель­ская груп­па, где сотруд­ни­ки при­ду­мы­ва­ют новые алго­рит­мы и пишут науч­ные статьи.

Фото с рабочего места на удалёнке Фото с рабо­че­го места на удалёнке 

Задачи в лаборатории 

Я при­шёл в Сбер в нача­ле 2020 года на долж­ность сеньор-дата-сайентиста в груп­пу реко­мен­да­тель­ных систем. Сей­час я руко­во­жу этим направ­ле­ни­ем и вме­сте с дву­мя дата-сайентистами мы помо­га­ем дру­гим под­раз­де­ле­ни­ям улуч­шать их алго­рит­мы. Ещё мы кон­суль­ти­ру­ем коман­ды и помо­га­ем им добав­лять реко­мен­да­тель­ные систе­мы к бан­ков­ским сер­ви­сам и продуктам.

Клас­си­че­ская реко­мен­да­тель­ная систе­ма постро­е­на на мат­ри­це вза­и­мо­дей­ствия меж­ду поль­зо­ва­те­лем и объ­ек­та­ми. Напри­мер, если мы гово­рим про видео­сер­вис, то объ­ек­та­ми будут филь­мы: на пере­се­че­нии стро­ки и столб­ца мат­ри­цы сто­ит оцен­ка филь­ма, кото­рый посмот­рел пользователь. 

Боль­шая часть оце­нок нам неиз­вест­на, и поэто­му зада­ча в том, что­бы запол­нить мат­ри­цу пред­по­ла­га­е­мы­ми оцен­ка­ми исхо­дя из инфор­ма­ции о про­смот­рен­ных филь­мах. Далее спи­сок всех воз­мож­ных филь­мов нуж­но отран­жи­ро­вать и сде­лать так, что­бы у поль­зо­ва­те­ля в реко­мен­да­ци­ях ока­за­лись объ­ек­ты с мак­си­маль­ным рей­тин­гом с учё­том его лич­ных интересов. 

При этом нуж­но учи­ты­вать, что подоб­ные пред­ска­за­ния мож­но делать толь­ко в том слу­чае, когда поль­зо­ва­тель уже посмот­рел несколь­ко филь­мов. Все­гда будут слу­чаи, когда он толь­ко начи­на­ет поль­зо­вать­ся сер­ви­сом или когда появ­ля­ет­ся новый объ­ект, кото­рый ещё никто не видел — всё это допол­ни­тель­ные слож­но­сти и раз­ные набо­ры мате­ма­ти­че­ских алгоритмов.

Пример простейшей рекомендательной системы: у нас есть два пользователя с похожими предпочтениями и фильм, который видел только один из них При­мер про­стей­шей реко­мен­да­тель­ной систе­мы: у нас есть два поль­зо­ва­те­ля с похо­жи­ми пред­по­чте­ни­я­ми и фильм, кото­рый видел толь­ко один из них 

Работа до Сбера

До Сбе­ра я рабо­тал руко­во­ди­те­лем про­ек­тов и тим­ли­дом в ком­па­нии «Кон­суль­тант Плюс». Это онлайн-справочник по пра­во­вой систе­ме рос­сий­ско­го зако­но­да­тель­ства — что-то вро­де поис­ко­ви­ка по зако­нам и дру­гим доку­мен­там из юри­ди­че­ской сферы. 

Вме­сте с коман­дой я зани­мал­ся улуч­ше­ни­ем и оцен­кой каче­ства поис­ка: мы ана­ли­зи­ро­ва­ли ста­ти­сти­ку, нахо­ди­ли про­блем­ные запро­сы и дава­ли реко­мен­да­ции по их улуч­ше­нию. Напри­мер, если поль­зо­ва­те­ли не мог­ли най­ти какой-то закон, то мы пыта­лись выяс­нить при­чи­ну: его мог­ло не быть в систе­ме, поиск его не нашёл или про­ран­жи­ро­вал на слиш­ком низ­кую позицию. 

Ещё мы зани­ма­лись внут­рен­ней ана­ли­ти­кой и помо­га­ли сотруд­ни­кам оце­ни­вать эффек­тив­ность про­де­лан­ной рабо­ты. Напри­мер, когда выхо­дит новый закон — его недо­ста­точ­но про­сто залить в систе­му: раз­ные люди его изу­ча­ют, ком­мен­ти­ру­ют и допол­ня­ют ссыл­ка­ми на дру­гие зако­ны. Даль­ше при­хо­ди­ли мы и смот­ре­ли, как на это реа­ги­ру­ют поль­зо­ва­те­ли — как часто обра­ща­ют­ся к ком­мен­та­ри­ям, как дол­го чита­ют доку­мент и куда дви­га­ют­ся дальше. 

Напри­мер, какой-то ком­мен­та­рий чита­ли мно­го — навер­ное, он полез­ный и нуж­ный. А дру­гие мало — воз­мож­но, людям и так поня­тен закон, либо они не так инте­ре­су­ют­ся кон­крет­но этим вопро­сом. Всё это мы анализировали.

Структура поисковой выдачи «Консультант Плюс». Качество выдачи зависит от множества данных, которые нужно постоянно анализировать. Этим занимался Алексей Васильев с командой Струк­ту­ра поис­ко­вой выда­чи «Кон­суль­тант Плюс». Каче­ство выда­чи зави­сит от мно­же­ства дан­ных, кото­рые нуж­но посто­ян­но ана­ли­зи­ро­вать. Этим зани­мал­ся Алек­сей Васи­льев с командой 

Поступление в ШАД

Одно из пре­иму­ществ рабо­ты в сфе­ре ИТ — гиб­кий гра­фик во мно­гих ком­па­ни­ях: при­хо­дишь порань­ше, дела­ешь запла­ни­ро­ван­ную рабо­ту и в нуж­ное вре­мя отправ­ля­ешь­ся на учёбу. 

С 2016-го по 2018 год я рабо­тал по гиб­ко­му гра­фи­ку и парал­лель­но учил­ся в Шко­ле ана­ли­за дан­ных (ШАД) — это помог­ло упо­ря­до­чить нако­пив­ши­е­ся мате­ма­ти­че­ские зна­ния и про­ка­чать­ся в сфе­ре боль­ших дан­ных. Так я открыл для себя дата-сайенс и пла­ни­рую даль­ше раз­ви­вать­ся в этом направлении. 

Поми­мо зна­ний ШАД даёт две вещи: ты начи­на­ешь ценить вре­мя и пере­ста­ёшь делать то, что отвле­ка­ет от цели. Рабо­та с учё­бой выклю­чи­ли меня из жиз­ни на два года, всё сво­бод­ное вре­мя я ста­рал­ся рас­пла­ни­ро­вать так, что­бы успе­вать выпол­нить зада­ния к дед­лай­ну. Во вре­мя учё­бы пони­ма­ешь, что вре­ме­ни на самом деле более чем доста­точ­но на что-то кро­ме рабо­ты. Поэто­му всем, кто боит­ся начать учё­бу для повы­ше­ния сво­их про­фес­си­о­наль­ных навы­ков из-за нехват­ки вре­ме­ни, сто­ит про­сто попробовать.

После ШАДа я ещё пол­то­ра года про­ра­бо­тал в «Кон­суль­тант Плюс» и пере­шёл в Сбер — при­со­еди­нил­ся к боль­шо­му комью­ни­ти ради опы­та и роста в профессии.

17 июля 2018 года. Выпускной в ШАД 17 июля 2018 года. Выпуск­ной в ШАД 

Рабочий график и инструменты

В офи­се при­мер­но с 10 утра до 7 вече­ра. Обыч­но утро начи­на­ет­ся с пла­нёр­ки, где каж­дый участ­ник коман­ды крат­ко рас­ска­зы­ва­ет три пунк­та: что он сде­лал за преды­ду­щий день, что будет делать сего­дня и какие есть проблемы. 

Пла­нёр­ка зани­ма­ет не более 15 минут — это не стро­гая мера кон­тро­ля, а спо­соб не застре­вать в рутин­ных зада­чах. Даль­ше рабо­та: встре­чи, про­смотр почты, пла­ни­ро­ва­ние, поста­нов­ка задач, мони­то­ринг и напи­са­ние кода. 

Основ­ной язык про­грам­ми­ро­ва­ния — Python. Сре­да раз­ра­бот­ки — Jupyter Notebook или PyCharm.

Домашнее рабочее место: MacBook Pro, наушники и мини-оранжерея на подоконнике Домаш­нее рабо­чее место: MacBook Pro, науш­ни­ки и мини-оранжерея на подоконнике 

Нужна ли математика в работе? 

Зави­сит от ситу­а­ции. Для веб-разработки мате­ма­ти­ка нуж­на на уровне сред­ней шко­лы. Напри­мер, что­бы посчи­тать шири­ну бло­ков во вре­мя вёрст­ки макета. 

Если речь идёт о клас­си­че­ском машин­ном обу­че­нии или ней­ро­се­тях, то под капо­том этих тех­но­ло­гий лежит мате­ма­ти­ка — линей­ная алгеб­ра, ста­ти­сти­ка, тео­рия веро­ят­но­стей и мата­на­лиз. Создать или пра­виль­но вне­сти струк­тур­ные изме­не­ния в эти тех­но­ло­гии без зна­ния мате­ма­ти­ки вряд ли получится. 

Моё мне­ние — мате­ма­ти­ка нуж­на каж­до­му про­грам­ми­сту. Она раз­ви­ва­ет ана­ли­ти­че­ское мыш­ле­ние и помо­га­ет в карье­ре — мате­ма­ти­че­ские зна­ния часто про­ве­ря­ют на собе­се­до­ва­ни­ях и ука­зы­ва­ют в тре­бо­ва­ни­ях вакансии. 

Как ты поддерживаешь свой мозг в тонусе? 

Мне нра­вит­ся решать мате­ма­ти­че­ские и алго­рит­ми­че­ские задач­ки — это хоро­ший спо­соб ско­ро­тать вре­мя перед сном или по доро­ге на рабо­ту: в уме при­ду­мы­ваю при­бли­зи­тель­ный план, а потом оформ­ляю решение.

Тре­ни­ру­юсь на олим­пи­ад­ных зада­чах по мате­ма­ти­ке или про­грам­ми­ро­ва­нию. Часть зада­ний беру с braingames.ru — это сайт без гото­вых отве­тов, где усло­вия зада­чи мож­но обсуж­дать с дру­ги­ми поль­зо­ва­те­ля­ми. Каж­дое реше­ние нуж­но рас­пи­сы­вать и отправ­лять моде­ра­то­рам — пра­виль­ный ответ без доста­точ­ных обос­но­ва­ний не засчи­ты­ва­ет­ся. Всё про­ве­ря­ют живые люди. 

Алексей на сайте с 2007 года (AleXXL) и на момент разговора решил 542 задачи Алек­сей на сай­те с 2007 года (AleXXL) и на момент раз­го­во­ра решил 542 задачи 

Что посоветуешь новичкам

Поста­рай­тесь порань­ше решить, чем хоти­те зани­мать­ся. Я с дет­ства инте­ре­со­вал­ся мате­ма­ти­кой и дви­гал­ся туда, где её боль­ше: в шко­ле ходил на олим­пи­а­ды, посту­пил на мех­мат МГУ, закон­чил аспи­ран­ту­ру и нашёл себя в дата-сайенс. Если не зна­е­те, с чего начать, — посо­ве­туй­тесь с чело­ве­ком, мне­нию кото­ро­го дове­ря­е­те. Даль­ше начи­най­те про­бо­вать и искать себя.

Не ком­плек­суй­те из-за воз­рас­та. Я посту­пил в ШАД в 30 лет и был не самым воз­раст­ным чело­ве­ком в набо­ре — неко­то­рым было даже за 40. Поэто­му при жела­нии выучить­ся и стать вос­тре­бо­ван­ным спе­ци­а­ли­стом нико­гда не поздно.