Сделали систему, которая чистит «грязные» данные в таблицах

😢 Про­бле­ма: очист­ка дан­ных в таб­ли­цах может занять чет­верть рабо­че­го вре­ме­ни ана­ли­ти­ка. Авто­ма­ти­зи­ро­вать эту зада­чу слож­но, пото­му что для раз­ных набо­ров дан­ных тре­бу­ют­ся раз­ные типы очист­ки. Кро­ме того, часто необ­хо­ди­мо рас­суж­дать об объ­ек­тах, опи­ра­ясь на кру­го­зор, кото­ро­го нет у нейросетей.

😎 Реше­ние: PClean — систе­ма, кото­рая соче­та­ет зна­ния о пред­мет­ной обла­сти с базо­вым уров­нем прак­ти­че­ских суж­де­ний для авто­ма­ти­че­ской очист­ки баз дан­ных от мил­ли­о­нов запи­сей. Она авто­ма­ти­че­ски уби­ра­ет опе­чат­ки, повто­ры, про­пу­щен­ные зна­че­ния, орфо­гра­фи­че­ские ошиб­ки и несо­от­вет­ствия в данных. 

Поль­зо­ва­тель предо­став­ля­ет систе­ме базо­вые зна­ния о пред­ме­те и инфор­ма­цию о воз­мож­ных ошиб­ках, а PClean объ­еди­ня­ет эти зна­ния с помо­щью веро­ят­ност­ных рас­суж­де­ний и наво­дит в дан­ных поря­док. Тех­но­ло­гия упро­ща­ет и уде­шев­ля­ет объ­еди­не­ние бес­по­ря­доч­ных несов­ме­сти­мых баз дан­ных в чистые записи.

👨‍🔬 Кто: инже­не­ры Мас­са­чу­сет­ско­го тех­но­ло­ги­че­ско­го института.

Источ­ник: Tech Xplore