როგორ დავიწყოთ მონაცემებით

კრედიტი: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

ყველამ მოვისმინეთ ხმის ნაკბენი.

”მსოფლიოში ყველაზე ღირებული რესურსი აღარ არის ნავთობი, არამედ მონაცემები” - ეკონომისტი

Შესაძლოა. მაგრამ თუ მონაცემები ნავთობს ჰგავს, მრავალი ორგანიზაციის მონაცემების მდგომარეობა ასე ჰგავს:

Deepwater Horizon ნავთობის დაღვრაზე

უთვალავი მონაცემების ნაკადები მონაცემების ოკეანეში დაკარგულია. ჰკითხეთ ნებისმიერ მონაცემთა მეცნიერს და ისინი გეტყვიან ყველაზე რთულ მონაცემებს მონაცემების შესახებ, სწორი მონაცემების დაჭერაში. როგორ დავიწყოთ?

1. დასვით სწორი კითხვები

მისი გულისთვის მონაცემების აღრიცხვა არის როგორც უსარგებლო და შრომატევადი. ჩვენ უნდა გავარჩიოთ ჩვენი მეტრიკა, რომელიც ბიზნესის მიზნებს უნდა ემყარებოდეს. რომელია საუკეთესო გაყიდვადი პროდუქტები? სად ტოვებენ მომხმარებლები მრავალსაფეხურიან პროცესს? რამდენი აქტიური მომხმარებელი გვყავს? მრავალი ორგანიზაცია დაინტერესებულ მხარეებს წარუდგენს მეტრიზმებს იმის საფუძველზე, რომ მათ შეძლონ გაზომონ (მაგალითად, შემოსავალი) არ არის აუცილებელი, თუ რა შეესაბამება მათ კომპანიის მიმართულებას.

მას შემდეგ რაც ვიცით რას ვზომავთ, შემდეგ შეგვიძლია განვსაზღვროთ, თუ სად უნდა დავიწყოთ მონაცემების ძებნა და დავგეგმოთ ნაბიჯები, რომ დავიწყოთ შესაბამისი მონაცემების შეგროვება.

2. მიაწოდეთ მონაცემთა დამუშავების კულტურა

ორგანიზაცია გარკვეულ ზომამდე იზრდება, ისინი აღარ დაეყრდნობიან ”ნაწლავის განცდას”. გადაწყვეტილებები უნდა ემყარებოდეს მონაცემებს და ეს მონაცემები ხელმისაწვდომი უნდა იყოს ყველა დონეზე.

შეძლებენ თუ არა თანამშრომლებს მონაცემებსა და მეთოდებს, ან იმყოფებიან უსაფრთხოების და წითელი ზოლის მეთორმეტე ფენის უკან? თანამშრომლებს უნდა მიეცეთ უფლებამოსილება მონაცემთა ბაზის მონაცემთა ბაზაში ჩატარება (რაც ანონიმურად უნდა იყოს დაცული და დაცული იქნება კონფიდენციალურობის პატივისცემის მიზნით). შიდა თვითმმართველობის ანალიტიკური პლატფორმა ამისათვის იდეალურია. ეს ნამუშევარი უნდა იყოს ღია და გამჭვირვალე. სამუშაო მაგიდაზე განთავსება და მისი ფართო მასშტაბით ორგანიზება აუცილებელია.

ამ ტიპის მუშაობისთვის ორგანიზაციებმა უნდა უზრუნველყონ მხარდაჭერა, წახალისება და რესურსები. ეს ნიშნავს დროსა და ფულს, თუმცა მონაცემთა დამუშავების კულტურა ხელს შეუწყობს უფრო ინფორმირებული გადაწყვეტილების მიღებას.

3. დაქირავება მონაცემთა ინჟინრებისთვის

ორგანიზაციების საერთო ნაკლოვანებაა მონაცემების დაქირავება მეცნიერთათვის და არა მონაცემთა ინჟინრებისთვის. მონაცემთა მეცნიერები აბსოლუტურად კრიტიკულია, მათ შეუძლიათ იპოვნონ მონაცემები შაბლონებში, იწინასწარმეტყველონ შედეგები და დაწერონ მოდელები, რომლებსაც საკუთარი თავის გაუმჯობესების სწავლა შეუძლიათ. სიფრთხილეა ის, რომ ეს ყველაფერი დამოკიდებულია ხარისხის მონაცემებზე. მონაცემები, რომელთა მოძიება შესაძლებელია მხოლოდ დიდი მონაცემთა ინფრასტრუქტურის, ETL და ავტომატური სამუშაოების პროგრამირების გზით. ეს, როგორც წესი, მონაცემთა ინჟინრის როლია. მიეცით ნამუშევრები მას, ვინც მას აქვს კვალიფიკაცია და, რაც მთავარია, სიამოვნებით აკეთებს მას.

4. დაიწყეთ მცირე და იაფი

ეს შეიძლება იყოს ძალიან მაცდური, რომ ნახოთ დიდი მონაცემების ჰიპ მატარებლები, შექმნათ მონაცემთა მეცნიერების ჯგუფი, შეიძინოთ საწარმოს ანალიტიკური პროგრამა და დახარჯოთ დიდი თანხა, ძალიან ცოტა, რომ ნახოთ ეს. ბევრი რამის გაკეთებაა შესაძლებელი დიდი ინვესტიციის განხორციელებამდე. აქ მოცემულია რამდენიმე ინსტრუმენტი, რომელსაც ნებისმიერი ორგანიზაცია შეუძლია გამოიყენოს:

  • ჯავასკრიპტის ანალიტიკური ლიბები, როგორიცაა მიქსპანელი ან ამპლიტუდა. ეს უფასოა ყოველთვიური მომხმარებლის გარკვეულ რაოდენობაში.
  • ჰაერის ნაკადი ავტომატიზირებული სამუშაოების მართვისთვის. შექმნილია Airbnb მიერ და ინკუბატირებულია Apache პროგრამული უზრუნველყოფის ფონდში, ეს არის მონაცემთა ღია ინჟინრებისთვის და დე ფაქტო სტანდარტისთვის.
  • დაფები, გრაფიკები და მონაცემთა მოძიება Superset– ით (ასევე Apache– ით). მეტაბაზი ასევე კარგი ალტერნატივაა და ორივე ღია წყაროა.
  • Databricks საზოგადოების გამოცემა და Kaggle. ორივე შეიძლება გამოყენებულ იქნას მონაცემთა მეცნიერების პროცესზე ღრუბელზე და უფასოდ.
  • Amazon Web Services S3. უფასო არ არის, მაგრამ აქ შედის იმიტომ, რომ დღეს შემუშავებული ტექნოლოგიებით ყოველთვის არ არის საჭირო მონაცემთა საწყობი. შენახვა იაფია და სერვისები, როგორიცაა Databricks, MongoDB მონაცემთა ტბა, AWS Athena ნიშნავს, რომ პირდაპირ მონაცემების ტბიდან შეგიძლიათ წაიკითხოთ.

ეს იდეები კარგ საფუძველს შეუქმნის ორგანიზაციას, რომ დაიწყოს სწორი მონაცემების დაპყრობა და მისი მნიშვნელობის რეალიზაცია.