myriam jessier eveI7MOcSmw unsplash Tin tức

6 bước công việc của một Data Scientist – MiEdu – AI Your Career

Là một nhà khoa học dữ liệu, tôi thường nhận được câu hỏi, “Bạn thực sự đang làm gì?”

Bạn có thể tưởng tượng các nhà khoa học dữ liệu như là những nhà tiên tri với quả cầu pha lê (MacBook Pros), hô vang một loạt mumbo-jumbo (học máy, random forest, deep learning network,…) và đưa ra dự đoán chi tiết đáng kinh ngạc về những gì tương lai sẽ nắm giữ. Tuy nhiên, khoa học dữ liệu không phải là phép thuật. Sức mạnh của khoa học dữ liệu đến từ sự hiểu biết sâu sắc về thống kê và thuật toán, lập trình, và kỹ năng giao tiếp. Quan trọng hơn, khoa học dữ liệu là việc áp dụng ba bộ kỹ năng này một cách kỷ luật và có hệ thống.

Quy trình làm việc của một nhà khoa học dữ liệu

Chúc mừng! Bạn vừa được thuê cho công việc đầu tiên của mình với tư cách là một nhà khoa học dữ liệu tại một công ty khởi nghiệp triệu đô ở thành phố Hồ Chí Minh chuyên kinh doanh bánh mì nướng, banhminuong.com. Hôm nay là ngày đầu tiên bạn đi làm. Bạn rất hào hứng muốn phân tích một số dữ liệu và khiến mọi người xung quanh ngạc nhiên với những hiểu biết bạn sẽ khám phá. Nhưng bạn bắt đầu từ đâu?

Trong bữa trưa (bánh mì quá trời ngon), bạn gặp Phó chủ tịch bán hàng, giới thiệu bản thân và hỏi cô ấy, “Bạn nghĩ tôi nên làm việc với những loại dữ liệu nào?”

Phó chủ tịch bán hàng suy nghĩ cẩn thận. Bạn đang ở rìa ghế của bạn, chờ đợi câu trả lời của cô ấy, câu trả lời sẽ cho bạn biết chính xác làm thế nào bạn sẽ có tác động lớn này đến công ty trong mơ của bạn.

Và cô ấy nói, “Bạn có thể giúp chúng tôi tối ưu hóa phễu bán hàng và cải thiện tỷ lệ chuyển đổi khách hàng của chúng tôi không?”

Ý nghĩ đầu tiên xuất hiện trong tâm trí bạn là: Cái gì? Đó có phải là vấn đề khoa học dữ liệu không? Bạn thậm chí không đề cập đến từ ‘dữ liệu’. Tôi cần phân tích những gì? Điều này có nghĩa là gì?

May mắn thay, các mentor của bạn vẫn thường cảnh báo bạn rằng: sự mơ hồ ban đầu này là một tình huống thường xuyên mà các nhà khoa học dữ liệu hay gặp phải. Tất cả những gì bạn phải làm là áp dụng một cách có hệ thống quy trình khoa học dữ liệu để tìm ra chính xác những gì bạn cần làm.

Vậy quy trình khoa học dữ liệu là gì?

Khi một giám sát viên phi kỹ thuật yêu cầu bạn giải quyết vấn đề dữ liệu, mô tả nhiệm vụ của bạn ban đầu có thể khá mơ hồ. Với tư cách là nhà khoa học dữ liệu, bạn phải chuyển nhiệm vụ thành một vấn đề cụ thể, tìm ra cách giải quyết nó và trình bày lại giải pháp cho tất cả các bên liên quan của bạn. Chúng tôi gọi các bước liên quan đến quy trình làm việc này là “Quy trình Khoa học Dữ liệu”. Quá trình này bao gồm một số bước quan trọng:

  • Bước 1 – Đóng khung vấn đề: Khách hàng của bạn là ai? Chính xác thì khách hàng yêu cầu bạn giải quyết những gì? Làm thế nào bạn có thể chuyển yêu cầu mơ hồ của họ thành một vấn đề cụ thể, được xác định rõ?
  • Bước 2 – Thu thập dữ liệu thô cần thiết để giải quyết vấn đề: Dữ liệu này đã có sẵn chưa? Nếu vậy, những phần nào của dữ liệu là hữu ích? Nếu không, bạn cần thêm dữ liệu nào nữa? Cần loại tài nguyên nào (thời gian, tiền bạc, cơ sở hạ tầng) để thu thập dữ liệu này dưới dạng có thể sử dụng?
  • Bước 3: Xử lý dữ liệu (hay tôi gọi quá trình này là vật lộn với dữ liệu): Dữ liệu thô, rẩt hiếm khi có thể sử dụng ngay được. Lỗi có thể do trong việc thu thập dữ liệu, các dòng dữ liệu bị hỏng, thiếu giá trị và nhiều thách thức khác mà bạn sẽ phải quản lý. Trước tiên, bạn sẽ cần dọn dẹp dữ liệu để chuyển đổi nó thành dạng dữ liệu chuẩn mà bạn có thể phân tích được.
  • Bước 4: Khám phá dữ liệu: Khi bạn đã làm sạch dữ liệu, bạn phải hiểu tổng quan thông tin chứa trong đó. Bạn thấy những loại xu hướng hoặc tương quan rõ ràng nào trong dữ liệu? Các đặc điểm là gì và bất kỳ trong số chúng có ý nghĩa hơn những đặc điểm khác không?
  • Bước 5: Thực hiện phân tích chuyên sâu (học máy, mô hình thống kê, thuật toán): Ở bước này, bạn áp dụng tất cả các kỹ thuật phân tích dữ liệu tiên tiến để khai quật thông tin chi tiết và dự đoán có giá trị cao.
  • Bước 6: Truyền đạt kết quả phân tích: Tất cả các kết quả phân tích và kỹ thuật mà bạn đưa ra đều có ít giá trị thuyết phục trừ khi bạn có thể giải thích cho các bên liên quan ý nghĩa của chúng, theo cách dễ hiểu và hấp dẫn. Kể chuyện dữ liệu là một kỹ năng quan trọng và bạn sẽ phải xây dựng và sử dụng chúng nhuần nhuyễn ở đây.

Vậy làm thế nào bạn có thể giúp phó chủ tịch bán hàng tại banhminuong.com? Lời khuyên cho bạn áp dụng từng bước trong quy trình khoa học dữ liệu!

Bước 1: Đóng khung vấn đề (còn gọi là “đặt câu hỏi đúng”)

Phó chủ tịch bán hàng tại banhminuong.com, nơi bạn mới bắt đầu với tư cách là một nhà khoa học dữ liệu, đã yêu cầu bạn giúp tối ưu hóa phễu bán hàng và cải thiện tỷ lệ chuyển đổi. Bạn bắt đầu từ đâu?

Bạn bắt đầu bằng cách đặt rất nhiều câu hỏi.

  • Khách hàng là ai và làm thế nào để bạn xác định họ?
  • Quy trình bán hàng hiện tại trông như thế nào?
  • Bạn thu thập loại thông tin nào về khách hàng tiềm năng?
  • Các loại dịch vụ của bạn khác nhau như thế nào?

Mục tiêu định vị thương hiệu của bạn là đi vào tâm trí khách hàng và hiểu quan điểm của họ về vấn đề mà bạn đang đương đầu. Kiến thức này sẽ là vô giá sau này khi bạn phân tích dữ liệu của mình và trình bày thông tin chi tiết bạn tìm thấy bên trong.

Khi bạn đã khoanh vùng được vấn đề, bạn nên đặt nhiều câu hỏi sâu hơn để hiểu chính xác khách hàng của bạn muốn bạn giải quyết những gì. Ví dụ: bạn hỏi Phó Chủ tịch của banhminuong.com, “Việc tối ưu hóa phễu bán hàng trông như thế nào trong hình dung của bạn? Phần nào của phễu không được tối ưu hóa ngay bây giờ?”

Cô trả lời: “Tôi cảm thấy như đội ngũ bán hàng của tôi đang dành nhiều thời gian để theo đuổi những khách hàng không mua sản phẩm. Tôi muốn họ dành thời gian của họ với những khách hàng có khả năng chuyển đổi. Tôi cũng muốn tìm hiểu xem có những phân khúc khách hàng không chuyển đổi tốt và tìm ra lý do tại sao.”

Bingo! Bây giờ bạn có thể chuyển vấn đề của cô ấy theo cách nhìn của khoa học dữ liệu. Dưới đây là một số cách bạn có thể đóng khung yêu cầu của vị Phó chủ tịch bán hàng vào các câu hỏi khoa học dữ liệu:

  1. Một số phân khúc khách hàng quan trọng là ai?
  2. Tỷ lệ chuyển đổi khác nhau như thế nào trên các phân khúc này? Một số giai đoạn có hoạt động tốt hơn hoặc tệ hơn đáng kể so với các giai đoạn khác?
  3. Làm thế nào chúng ta có thể dự đoán khi một khách hàng tiềm năng sẽ mua sản phẩm?
  4. Lợi tức đầu tư (ROI) cho các loại khách hàng khác nhau là bao nhiêu?

Dành vài phút và suy nghĩ về bất kỳ câu hỏi nào khác mà bạn sẽ hỏi.

Bây giờ bạn có một vài câu hỏi cụ thể, bạn quay lại Phó chủ tịch bán hàng và cho cô ấy thấy câu hỏi của bạn. Cô đồng ý rằng đây đều là những câu hỏi quan trọng, nhưng nói thêm: “Tôi đặc biệt quan tâm đến việc hiểu thêm về khả năng khách hàng được chuyển đổi. Các câu hỏi khác cũng khá thú vị!” Bạn ghi chú tinh thần để ưu tiên các câu hỏi 3 và 4 trong câu chuyện của bạn.

Bước tiếp theo đối với bạn là tìm ra dữ liệu nào bạn có sẵn để trả lời những câu hỏi này.

Bước 2: Thu thập dữ liệu phù hợp

Bạn đã quyết định dự án khoa học dữ liệu đầu tiên của mình cho banhminuong.com: dự đoán khả năng khách hàng tiềm năng sẽ mua sản phẩm.

Bây giờ là lúc để bắt đầu suy nghĩ về dữ liệu. Bạn đã có những dữ liệu nào?

Bạn phát hiện ra rằng hầu hết dữ liệu khách hàng được tạo bởi bộ phận bán hàng được lưu trữ trong phần mềm CRM của công ty và được quản lý bởi nhóm Hoạt động bán hàng. Phụ trợ cho công cụ CRM là cơ sở dữ liệu SQL với một số bảng. Tuy nhiên, bạn củng nhận ra rằng bạn có thể trích xuất dữ liệu bằng API trên web rất thuận tiện và dữ liệu trả về ở định dạng JSON khá phổ biến.

Bạn cần dữ liệu nào từ cơ sở dữ liệu CRM? Bạn trích xuất nó như thế nào? Bạn nên lưu trữ dữ liệu ở định dạng nào để thực hiện phân tích?

Bạn quyết định xắn tay áo lên và đi sâu vào cơ sở dữ liệu SQL. Bạn thấy rằng hệ thống lưu trữ thông tin nhận dạng (identity), thông tin liên hệ (contact) và nhân khẩu học (demographic) chi tiết về khách hàng, ngoài thông tin chi tiết về quy trình bán hàng cho từng khách hàng. Bạn thấy rằng tập dữ liệu không quá lớn và bạn quyết định sẽ trích xuất nó vào các tệp CSV để phân tích thêm.

Là một nhà khoa học dữ liệu đạo đức, bạn cẩn thận không trích xuất bất kỳ thông tin nhận dạng cá nhân nào từ cơ sở dữ liệu. Tất cả thông tin trong tệp CSV được ẩn danh và không thể truy ngược lại cho bất kỳ khách hàng cụ thể nào.

Thông thường, trong hầu hết các dự án công nghiệp khoa học dữ liệu, bạn sẽ sử dụng dữ liệu đã có sẵn và đang được thu thập. Đôi khi, bạn củng sẽ phải nỗ lực để thu thập dữ liệu mới, nhưng bạn sẽ cần hiểu biết rất nhiều kỹ thuật và có thể mất một thời gian để có kết quả.

Bây giờ bạn đã có dữ liệu. Bạn đã sẵn sàng để bắt đầu phân tích nó và đưa ra những hiểu biết về khách hàng? Chưa. Dữ liệu bạn đã thu thập vẫn là ‘dữ liệu thô’ — rất có khả năng chứa lỗi, thiếu và hỏng giá trị. Bạn cần phải xử lý chúng.

Bạn có thể hoàn thành

Bước 2: Thu thập dữ liệu phù hợp

Bạn đã quyết định dự án khoa học dữ liệu đầu tiên của mình cho banhminuong.com: dự đoán khả năng khách hàng tiềm năng sẽ mua sản phẩm.

Bây giờ là lúc để bắt đầu suy nghĩ về dữ liệu. Bạn đã có những dữ liệu nào?

Bạn phát hiện ra rằng hầu hết dữ liệu khách hàng được tạo bởi bộ phận bán hàng được lưu trữ trong phần mềm CRM của công ty và được quản lý bởi nhóm Hoạt động bán hàng. Phụ trợ cho công cụ CRM là cơ sở dữ liệu SQL với một số bảng. Tuy nhiên, bạn củng nhận ra rằng bạn có thể trích xuất dữ liệu bằng API trên web rất thuận tiện và dữ liệu trả về ở định dạng JSON khá phổ biến.

Bạn cần dữ liệu nào từ cơ sở dữ liệu CRM? Bạn trích xuất nó như thế nào? Bạn nên lưu trữ dữ liệu ở định dạng nào để thực hiện phân tích?

Bạn quyết định xắn tay áo lên và đi sâu vào cơ sở dữ liệu SQL. Bạn thấy rằng hệ thống lưu trữ thông tin nhận dạng (identity), thông tin liên hệ (contact) và nhân khẩu học (demographic) chi tiết về khách hàng, ngoài thông tin chi tiết về quy trình bán hàng cho từng khách hàng. Bạn thấy rằng tập dữ liệu không quá lớn và bạn quyết định sẽ trích xuất nó vào các tệp CSV để phân tích thêm.

Là một nhà khoa học dữ liệu đạo đức, bạn cẩn thận không trích xuất bất kỳ thông tin nhận dạng cá nhân nào từ cơ sở dữ liệu. Tất cả thông tin trong tệp CSV được ẩn danh và không thể truy ngược lại cho bất kỳ khách hàng cụ thể nào.

Thông thường, trong hầu hết các dự án công nghiệp khoa học dữ liệu, bạn sẽ sử dụng dữ liệu đã có sẵn và đang được thu thập. Đôi khi, bạn củng sẽ phải nỗ lực để thu thập dữ liệu mới, nhưng bạn sẽ cần hiểu biết rất nhiều kỹ thuật và có thể mất một thời gian để có kết quả.

Bây giờ bạn đã có dữ liệu. Bạn đã sẵn sàng để bắt đầu phân tích nó và đưa ra những hiểu biết về khách hàng? Chưa. Dữ liệu bạn đã thu thập vẫn là ‘dữ liệu thô’ — rất có khả năng chứa lỗi, thiếu và hỏng giá trị. Bạn cần phải xử lý chúng.

Bạn có thể làm được việc này sau khi hoàn tất mô-đun Data Collection trong các khóa học của MiEdu sau:

  1. Full-Stack Data Science Bootcamp
  2. Data Analyst

Các sản phẩm bạn có thể làm được sau khóa học để giúp cho vị phó chủ tịch tối ưu hóa lợi nhuận của hãng bánh mì:

  • Xác định yêu cầu phân tích dữ liệu
  • Biết cách thu thập dữ liệu từ nhiều nguồn khác nhau: web, database, file, CSV, XML
  • Xử lý và làm sạch dữ liệu để chuẩn bị cho công tác phân tích
  • Phân tích tệp dữ liệu thu thập được theo yêu cầu của khách hàng
  • Xây dựng dashboard để trình diễn hoặc báo cáo cho cho khách hàng

Bước 4: Khám phá dữ liệu của bạn

Bạn đã trích xuất dữ liệu và dành nhiều thời gian để dọn dẹp dữ liệu.

Và bây giờ, cuối cùng bạn đã sẵn sàng để phân tích và khám phá các dữ liệu! Bạn rất muốn tìm hiểu dữ liệu chứa thông tin nào và phần nào của dữ liệu có ý nghĩa trong việc trả lời câu hỏi của bạn. Bước này được gọi là khám phá và phân tích tổng quan dữ liệu.

Một số điều bạn muốn khám phá là gì? Bạn có thể dành nhiều ngày và nhiều tuần để làm công việc này nhưng khách hàng không có nhiều thời gian như vậy. Khách hàng của bạn, Phó Chủ tịch Bán hàng, rất muốn trình bày một số kết quả mà bạn khám phá được tại cuộc họp hội đồng quản trị vào tuần tới. Áp lực đang gia tăng!

Bạn nhìn vào câu hỏi ban đầu: dự đoán khách hàng tiềm năng nào trong tương lai có khả năng chuyển đổi. Điều gì sẽ xảy ra nếu bạn chia dữ liệu thành hai phân khúc dựa trên việc khách hàng có chuyển đổi hay không và kiểm tra sự khác biệt giữa hai nhóm? Tất nhiên!

Ngay lập tức, bạn suy nghĩ ngay đến một số mô hình thú vị. Khi bạn vẽ biểu đồ (histogram) về độ tuổi của khách hàng trên hai phân khúc, bạn nhận thấy rằng có một số lượng lớn khách hàng ở độ tuổi 30 mua sản phẩm hơn khách hàng ở độ tuổi 20. Điều này thật đáng ngạc nhiên, vì sản phẩm nhắm mục tiêu đến khách hàng ở độ tuổi 20. Hmm, thú vị …

Hơn nữa, nhiều khách hàng chuyển đổi thông qua các chiến dịch tiếp thị qua email trái ngược với phương tiện truyền thông xã hội. Các chiến dịch truyền thông xã hội tạo ra chút khác biệt. Rõ ràng là khách hàng ở độ tuổi 20 đang được nhắm đến chủ yếu thông qua phương tiện truyền thông xã hội. Bạn xác minh những khẳng định này một cách trực quan, cũng như bằng cách sử dụng một số bài kiểm tra xác xuất thống kê.

Ngày hôm sau, bạn đi bộ đến Phó chủ tịch bán hàng tại bàn làm việc của cô ấy và cho cô ấy thấy những phát hiện sơ bộ của bạn. Cô ấy tò mò và không thể chờ đợi để xem thêm!

Bước 5: Phân tích sâu dữ liệu của bạn

Bạn đã khám phá tổng quan tập dữ liệu để tìm một tập hợp các yếu tố có thể giải quyết vấn đề ban đầu của bạn: dự đoán khách hàng nào tại banhminuong.com sẽ mua sản phẩm. Bây giờ bạn có đủ thông tin để tạo một mô hình để trả lời câu hỏi đó.

Để tạo ra một mô hình dự đoán, bạn phải sử dụng các kỹ thuật từ Học máy (Machine Learning). Mô hình học máy lấy một tập hợp các điểm dữ liệu, trong đó mỗi điểm dữ liệu (data point) được biểu thị dưới dạng vectơ tính năng (feature vector).

Làm thế nào để bạn đưa ra các vectơ tính năng này? Trong giai đoạn khám phá dữ liệu, bạn đã xác định một số yếu tố có thể có ý nghĩa trong việc dự đoán chuyển đổi khách hàng, đặc biệt là tuổi tác và phương pháp tiếp thị (email vs phương tiện truyền thông xã hội). Lưu ý một sự khác biệt quan trọng giữa hai yếu tố mà chúng ta đã nói đến: tuổi tác là một giá trị số (value) trong khi phương pháp tiếp thị là một giá trị phân loại (category). Là một nhà khoa học dữ liệu, bạn biết cách xử lý với các giá trị khác nhau và cách chuyển đổi chính xác chúng thành các tính năng.

Bên cạnh các tính năng, bạn cũng cần nhãn (label). Nhãn cho mô hình biết điểm dữ liệu nào tương ứng với từng danh mục bạn muốn dự đoán. Đối với điều này, bạn chỉ cần sử dụng trường CONVERTED trong dữ liệu của mình làm nhãn boolean (đã chuyển đổi hoặc không được chuyển đổi). 1 chỉ ra rằng khách hàng đã chuyển đổi và 0 cho biết rằng họ đã không chuyển đổi.

Bây giờ bạn đã có các tính năng và nhãn, bạn quyết định sử dụng một thuật toán phân loại đơn giản được gọi là logistic regression. Đây là kỹ thuật ‘học máy không giám sát’. Trái ngược với kĩ thuật học máy có giám sát, các kỹ thuật học máy không được giám sát trích xuất thông tin từ dữ liệu mà không có bất kỳ nhãn nào được cung cấp.

Bạn chọn logistic regression vì đó là một kỹ thuật đơn giản, nhanh chóng và kết quả cung cấp cho bạn không chỉ một dự đoán nhị phân về việc khách hàng có chuyển đổi hay không, mà còn là xác suất chuyển đổi. Bạn áp dụng phương pháp cho tệp dữ liệu của mình, điều chỉnh các tham số và chẳng mấy chốc, bạn đang nhảy lên và xuống bên cạnh máy tính của mình.

Phó chủ tịch bán hàng đang đi ngang qua, nhận thấy sự phấn khích của bạn và hỏi, “Vậy, bạn có điều gì đó muốn báo cáo cho tôi không?” Và bạn phấn khích, “Vâng, mô hình dự đoán tôi đã tạo ra với kĩ thuật logistic regression có TPR là 95% và FPR là 0,5%!”

Cô ấy nhìn anh như thể anh đã mọc thêm vài cái đầu và đang nói chuyện với cô ấy ở Sao Hỏa.

Bạn nhận ra là bạn vẫn chưa hoàn thành công việc. Bạn cần thực hiện bước quan trọng cuối cùng, đó là đảm bảo rằng bạn truyền đạt được kết quả của mình cho khách hàng của mình theo cách hấp dẫn và dễ hiểu đối với họ.

Bước 6: Trực quan hóa và truyền đạt những phát hiện của bạn

Bây giờ, bạn có một mô hình học máy tuyệt vời có thể dự đoán, với độ chính xác cao, khả năng khách hàng tiềm năng mua sản phẩm của banhminuong.com như thế nào. Nhưng làm thế nào để bạn truyền đạt cho khách hàng của bạn, ở đây là Phó chủ tịch bán hàng? Làm thế nào để bạn trình bày kết quả của bạn cho cô ấy trong một hình thức mà cô ấy có thể hiểu hoặc sử dụng được?

Giao tiếp là một trong những kỹ năng bị đánh giá thấp nhất mà một nhà khoa học dữ liệu có thể có. Trong khi một số đồng nghiệp của bạn (ví dụ như các kỹ sư) có thể dể dàng thoát khỏi việc bị quanh quẩn trong bong bóng kỹ thuật của họ, các nhà khoa học dữ liệu phải có khả năng giao tiếp với các nhóm khác và truyền đạt hiệu quả công việc của họ để có tác động tối đa. Bộ kỹ năng này thường được gọi là ‘kể chuyện dữ liệu’ (Data Storytelling).

Vậy bạn có thể kể loại câu chuyện nào dựa trên công việc bạn đã làm cho đến nay chưa? Câu chuyện của bạn sẽ bao gồm các kết luận quan trọng mà bạn có thể rút ra dựa trên giai đoạn phân tích khám phá và mô hình dự đoán bạn đã xây dựng. Điều quan trọng là, bạn muốn câu chuyện trả lời các câu hỏi quan trọng nhất đối với khách hàng của bạn!

Đầu tiên và quan trọng nhất, bạn lấy dữ liệu về khách hàng tiềm năng hiện tại mà nhóm bán hàng đang theo đuổi, chạy nó thông qua mô hình của bạn và xếp hạng chúng trong tệp excel theo thứ tự khách hàng ít có khả năng chuyển đổi nhất. Bạn cung cấp bảng tính cho Phó Chủ tịch Bán hàng của mình.

Tiếp theo, bạn quyết định làm nổi bật một vài kết quả phù hợp nhất của mình:

  • Tuổi tác: banhminuong.com đang bán nhiều hơn cho khách hàng tiềm năng ở độ tuổi 30, thay vì những người ở độ tuổi giữa 20. Điều này thật bất ngờ vì sản phẩm của banhminuong.com nhắm mục tiêu đến khách hàng ở độ tuổi giữa 20!
  • Phương pháp tiếp thị: banhminuong.com sử dụng phương pháp tiếp thị truyền thông xã hội để nhắm đến mọi người ở độ tuổi 20, và gửi email chiến dịch cho những người ở độ tuổi 30. Đây dường như là một yếu tố quan trọng đằng sau sự khác biệt về tỷ lệ chuyển đổi.

Tuần sau, bạn gặp cô ấy và hướng dẫn cô ấy đi qua kết luận của bạn. Cô ấy ngây ngất về kết quả mà bạn đã cho cô ấy! Nhưng sau đó cô ấy hỏi bạn, “Làm thế nào chúng ta có thể sử dụng những phát hiện này tốt ưu nhất?”

Về mặt kỹ thuật, công việc của bạn với tư cách một nhà khoa học dữ liệu là phân tích dữ liệu và hiển thị những gì đang xảy ra. Nhưng ngoài ra, bạn còn đóng vai trò “thông dịch viên” dữ liệu nhằm đưa ra các đề xuất về cách các đội nhóm marketing, bán hàng nên sử dụng dựa trên kết quả của bạn.

Trả lời câu hỏi cách thu thập dữ liệu, nhà khoa học dữ liệu suy nghĩ một lúc và nói, “Trước tiên, tôi khuyên bạn nên sử dụng bảng tính có dự đoán khách hàng tiềm năng trong một hoặc hai tuần tới để tập trung vào các mục tiêu có khả năng nhất và xem hiệu quả hoạt động tốt như thế nào. Điều đó sẽ làm cho đội ngũ bán hàng của bạn hiệu quả hơn ngay lập tức và cho tôi biết liệu mô hình dự đoán có cần tinh chỉnh khác không.”

Thứ hai, chúng ta cũng nên xem xét những gì đang xảy ra với tiếp thị của mình và tìm hiểu xem chúng ta nên nhắm mục tiêu vào khách hàng ở độ tuổi tầm 25 bằng các chiến dịch email, hoặc làm cho các chiến dịch truyền thông xã hội của chúng ta hiệu quả hơn.

Phó chủ tịch bán hàng gật đầu nhiệt tình đồng ý và ngay lập tức thiết lập cho bạn trong một cuộc họp với Phó Chủ tịch Tiếp thị để bạn có thể chứng minh kết quả của mình với anh ấy. Hơn nữa, cô ấy yêu cầu bạn gửi một vài slide tóm tắt kết quả và đề xuất của bạn để cô ấy có thể trình bày chúng tại cuộc họp hội đồng quản trị.

Wow! Bạn đã hoàn thành thành công dự án khoa học dữ liệu đầu tiên của mình tại nơi làm việc và cuối cùng bạn hiểu những gì các mentors của bạn luôn nói: Khoa học dữ liệu không chỉ là về các kỹ thuật, thuật toán hay là về lập trình. Đó là một lĩnh vực đa ngành thực sự, một lĩnh vực đòi hỏi người thực hành phải giao giữa công nghệ và mối quan tâm kinh doanh. Đây là điều làm cho con đường sự nghiệp của khoa học dữ liệu trở nên khó khăn và rất có giá trị. Theo MIEDU.ai