Đã bao giờ bạn thắc mắc về lộ trình để trở thanh một Data Scientist, ngành nghề đang rất hot hiên nay. Các công ty hoặc doanh nghiệp hiện nay đều đang đau đầu tìm kiếm một Data Scientist để nghiên cứu và xử lý hàng tá dữ liệu của họ. Cho nên giờ nhiều người hay đùa rằng muốn ra trường là có việc hay được làm nhân viên được “Cung như trứng, hứng như hoa”.

data scientist

Tại sao khoa học dữ liệu lại trở nên Hot tới vậy?

Thế giới đang tạo ra nhiều dữ liệu hơn mỗi năm. Có thể nói, thành công trong thập kỷ tới sẽ phụ thuộc phần lớn vào việc các công ty sẽ có thể biến những dữ liệu đó thành thông tin chi tiết và sử dụng chúng. Nói cách khác, bạn có thể xem dữ liệu là một mặt hàng. Mọi người đều có nó và dữ liệu đang ngày càng trở nên dễ dàng hơn để lưu trữ nó, tuy vậy chỉ có số ít thật sự biết sử dụng chúng.

Đây chính là khi các nhà khoa học dữ liệu tỏa sáng bởi họ là những người có thể trích xuất insight từ tất cả các thông tin đó và hiểu được ý nghĩa của nó là gì. Đối với các công ty và tổ chức thì kỹ năng này là vô giá.

Data Scientist:

Data Scient được định nghĩa là sử dụng dữ liệu để có được insights và thông tin có giá trị. Khoa học dữ liệu đang phát triển nhanh chóng và có một loạt các khả năng xung quanh nó . Một phần mở rộng của định nghĩa đó là khoa học dữ liệu là sự kết hợp phức tạp của các kỹ năng như lập trình, trực quan hóa dữ liệu, công cụ dòng lệnh, cơ sở dữ liệu, thống kê, học máy và nhiều hơn nữa để phân tích dữ liệu và thu thập thông tin, thông tin gía trị từ Big Data

Ví dụ: Dựa trên thông tin thu thập được từ việc tương tác của người dùng vào các bài post trên Facebook, ta có thể biết được là bài post nào hay, bài post nào dở, bài post nào phù hợp với tình hình kinh doanh hoặc xu hướng lúc đó. Để từ đó ta có thể sắp xếp lại nội dung và đưa ra được chiến lược, kế hoạch cụ thể hơn.

Giải thích, trình bày những insight đó cho các bên liên quan,, để chuyển hóa ingisht thành hành động.

Ví dụ: Khi chúng ta tìm ra được insight giá trị từ data thì bạn hãy suy nghĩ xem giá trị mà mình đạt được là gì? Có thể ứng dụng như thế nào để mang lại lợi ích và đạt hiệu quả lớn nhất.

Chỉ vì ngành nghề này còn quá non trẻ, nên chúng ta vẫn chưa có định nghĩa một cách chính xác. Vì vậy tùy theo từng công ty, mà mô tả công việc, yêu cầu skillset, có khi cả job title cũng khác. Vậy tại sao lại có sự khác biệt tới như vậy?

data scientist

Sự khác biệt trong chính Data Scientist:

Dựa theo các tài liệu sưu tầm  trên mạng mà mình rút ra được Data Scientist chia làm 2 dạng chính: A và B.

Data Scientist A:

Là những thinker, nhiệm vụ chính của là phân tích dữ liệu bằng các phương pháp thống kê để tìm ra insight giá trị.

Data Scientist B:

Là những building thường mạnh về software engineer hơn họ đảm nhiệm việc xử lý/ lưu trữ data, viết code/thuật toán cho các sản phẩm data của công ty.

Tố chất cần thiết để trở thành Data Scientist là gì?

Kiên nhẫn

Tố chất này cực kỳ quan trọng, vì Data Scientist phải dành phần lớn thời gian để thu thập dữ liệu và làm sạch chúng.

Giao tiếp tốt

  • Công việc của Data Scientist cần phải giao tiếp rất nhiều, cụ thể như:
  • Giao tiếp với team business
  • Giao tiếp với team engieer.
  • Trình bày/giải thích insights cho các bên liên quan hiểu.

Thich tìm hiểu và thử cái mới

Nghề Data Scientist còn mới mẻ và sử dụng kiến thức liên ngành rất nhiều. Trong đó, mỗi ngành riêng lại luôn có bước tiến mới hoặc công nghệ mới.

Do đó, bạn cần thích tìm hiểu và thử cái mới , để có thể cập nhật kiến thức liên tục.

 

Những yếu tố xác định bản thân mình có phù hợp với nghề Data Scientist.

Bạn có thích làm việc với dữ liệu mỗi ngày không?

Bạn có thể đọc sách báo khoa học nước ngoài mà không cảm thấy đó là rảo cản lớn hay không

Nếu bạn  cảm thấy mình đều hợp với những điều trên thì xin chúc mừng bạn đã bước 1 chân vào con đường Data Scientist.

Danh sách các kiến thức bạn cần học  để trở thành một Data Scientist là gì?

Theo mình nghĩ các bạn nên chú tâm vào học những môn như sau:

Đại số tuyến tính và xác suất thống kê.

Công cụ dòng lệnh

Tiếp theo, bạn sẽ muốn tìm hiểu cách điều hướng thư mục tệp, tạo và xóa thư mục, cách chỉnh sửa và quản lý tệp và quyền của họ, cách làm việc với các chương trình từ dòng lệnh và cách tạo môi trường ảo. Bạn cũng sẽ muốn tìm hiểu về git và GitHub để kiểm soát phiên bản.

Data Analysis:

Bạn nên tìm hiểu cách phân tích dữ liệu và trực quan hóa. Trước tiên, bạn sẽ muốn bắt đầu bằng cách học pandas và numpy để làm sạch dữ liệuvà khám phá dữ liệu của bạn. Sau đó, bạn sẽ muốn học matplotlib để trực quan hóa dữ liệu khám phá và kể chuyện với dữ liệu của bạn.

Số liệu thống kê

Tiếp theo, bạn sẽ muốn tìm hiểu các nguyên tắc cơ bản thống kê bao gồm lấy mẫu, phân phối tần số, giá trị trung bình, trung bình có trọng số, trung vị, chế độ, các số đo biến thiên, điểm Z, xác suất, phân phối xác suất, kiểm tra ý nghĩa và kiểm tra bình phương.

Database:

Bạn muốn học SQL để truy vấn dữ liệu cũng như PostgreSQL để quản lý cơ sở dữ liệu nâng cao. Bạn cũng nên biết cách làm việc với API và quét web để tạo bộ dữ liệu của riêng bạn. Cũng thử học tia lửa và giảm bản đồ.

Ngôn ngữ lập trình: Python.

Điều đầu tiên bạn nên học là một số lập trình python cơ bản. Tìm hiểu Cú pháp, Biến và Kiểu dữ liệu, Danh sách và các vòng lặp, Báo cáo có điều kiện, Từ điển và Bảng tần số, Hàm và Python hướng đối tượng để bắt đầu.

Ngoài ra  bạn nên  làm quen với Javascript, học để viết được Web đơn giản, vẽ được đồ thì biểu diễn,

Hệ thống: Linux, Bash, OS

Machine Learning

Bạn sẽ muốn học ít nhất 10 thuật toán cơ bản cho học máy: hồi quy tuyến tính, hồi quy logistic, SVM, rừng ngẫu nhiên, Gradient Boosting, PCA, phương tiện k, lọc cộng tác, k-NN và ARIMA.
Bạn cũng sẽ cần hiểu cách đánh giá hiệu suất mô hình, tối ưu hóa siêu tham số, xác thực chéo, hàm tuyến tính và phi tuyến, tính toán cơ bản và đại số tuyến tính, lựa chọn và chuẩn bị tính năng, giảm độ dốc, phân loại nhị phân, quá mức và thiếu sáng, cây quyết định, mạng lưới thần kinh , và sau đó bạn nên xây dựng một cái gì đó với những kỹ năng đó và thậm chí thử một số cuộc thi kaggle. Bạn cũng có thể chuyển sang các chủ đề nâng cao hơn như NLP và AI nếu quan tâm đến những chủ đề đó.

Dự án
Bạn thực sự nên xây dựng một số dự án khi bạn đi. Tôi khuyên bạn nên xây dựng mọi thứ sau khi bạn đã học các công cụ trực quan hóa dữ liệu và trăn cơ bản. Học bằng cách làm là một trong những cách tốt nhất để thực sự học các kỹ năng bạn cần trong khoa học dữ liệu và nó cũng chứng minh cho người khác thấy rằng bạn thực sự có thể xây dựng một cái gì đó bằng dữ liệu.

Kết luận:

Để hiểu rõ hơn về Data Scientist, các phương pháp phân tích dữ liệu cũng như Machine Learning thì các bạn có thể tham gia các khoá học của Nordic Coder– Trung tâm dạy lập trình uy tín và chuyên nghiệp, giúp bạn bổ sung thêm kiến thức cũng như định hướng được sự nghiệp của mình trong tương lai. Thông tin khoá học Data Analysis xem ở đây hoặc thông tin khoá học Machine learning có thể xem ở đây.