0
Blog

6 dự án data science giúp bạn trở thành nhà khoa học dữ liệu tốt hơn

20/12/2020

Tổng quát

  • Dưới đây là 6 dự án khoa học dữ liệu nguồn mở đầy thách thức để nâng cấp kỹ năng nhà khoa học dữ liệu của bạn
  • Có một số dự án khoa học dữ liệu hấp dẫn, bao gồm cách đưa các mô hình deep learning vào sản xuất và một cách thức để đo lường trí tuệ nhân tạo.
  • Mỗi dự án khoa học dữ liệu đi kèm với mã end-to-end để bạn có thể tải xuống và bắt đầu ngay bây giờ!

Giới thiệu

Lần cuối cùng bạn thực hiện một dự án khoa học dữ liệu ngoài công việc hàng ngày của mình là khi nào? Tôi chắc chắn có lỗi khi không làm việc này thường xuyên. Chúng ta có xu hướng bị cuốn vào cuộc sống nghề nghiệp của mình và trượt dài trên con đường học tập.

Khoa học dữ liệu là một trong những ngành phát triển nhanh nhất hiện nay nhờ sự gia tăng chưa từng có về dữ liệu và sức mạnh tính toán. Không có lý do gì để không biết những kỹ thuật và framework mới nhất trong kiến thức của bạn, cho dù là Xử lý ngôn ngữ tự nhiên (NLP) , thị giác máy tính hay thứ gì khác.

Và cách tốt nhất để học, thực hành và áp dụng những kỹ thuật hiện đại này là thông qua các dự án khoa học dữ liệu.

97-6 du an khoa hoc du lieu

Bài viết này là nơi hoàn hảo để bạn bắt đầu. Tôi đã tổng hợp sáu dự án khoa học dữ liệu nguồn mở đầy thách thức nhưng mạnh mẽ để giúp bạn trau dồi và tinh chỉnh bộ kỹ năng của mình. Tôi đã cung cấp mã end-to-end cho từng dự án để bạn có thể tải xuống ngay bây giờ và bắt đầu làm việc trên máy của riêng mình!

Đây là 6 Dự án Khoa học Dữ liệu Chúng tôi đã Chọn từ GitHub

97-Github

Các dự án deep learning nguồn mở

Kaolin – Thư viện PyTorch để tăng tốc nghiên cứu deep learning 3D

Tôi chưa tìm hiểu nhiều về deep learning 3D. Đó là lý do tại sao tôi thấy kho lưu trữ GitHub này khá hấp dẫn. Các khả năng của deep learning 3D rất hấp dẫn và có khả năng độc nhất vô nhị. Hãy nghĩ về điều đó – hình ảnh 3D, phân tích không gian địa lý, kiến ​​trúc, v.v. – rất nhiều điểm dữ liệu được sử dụng!

Kaolin là mt thư vin PyTorch nhm mc đích đy nhanh nghiên cu trong deep learning 3D. Thư vin PyTorch cung cp vic trin khai hiu qu các môđun 3D đ s dng trong các h thng deep learning – điu mà tôi chc chn rng tt c các bn là nhng người k cu trong ngành s đánh giá cao.

97-kaolin_applications

Chúng tôi nhận được rất nhiều chức năng với Kaolin, bao gồm tải và xử lý trước các tập dữ liệu 3D phổ biến, đánh giá và hiển thị kết quả 3D, trong số những thứ khác.

Điều tôi đặc biệt thích ở Kaolin là các nhà phát triển đã tuyển chọn nhiều kiến trúc deep learning hiện đại để giúp mọi người bắt đầu với những dự án này. Bạn có thể đọc thêm về Kaolin và cách hoạt động của nó trong bài báo nghiên cứu chính thức tại đây.

Deep learning ở cấp độ sản xuất

Đưa mô hình machine learning của bạn vào sản xuất là một nhiệm vụ đầy thách thức mà hầu hết các nhà khoa học dữ liệu tham vọng không chuẩn bị tới. Phần lớn các khóa học không dạy nó. Bạn sẽ không tìm thấy nhiều bài báo và blog về nó. Nhưng biết cách đưa mô hình của bạn vào sản xuất là một kỹ năng quan trọng mà mọi tổ chức muốn một nhà khoa học dữ liệu sở hữu.

Bây giờ hãy nâng cao điều đó cho các mô hình deep learning. Đó là một nhiệm vụ khó khăn và đầy thử thách. Chắc chắn rồi, bạn đã xây dựng một mô hình deep learning mạnh mẽ, nhưng tiếp theo là gì? Làm thế nào để bạn đưa điều đó đến người dùng cuối? Bạn có thể triển khai mô hình deep learning bằng cách nào?

Đó là nơi bắt đầu dự án Deep learning cấp độ sản xuất này. Chúng tôi cần một số thành phần khác nhau để triển khai hệ thống học tập sâu cấp độ sản xuất:

97- deep_learning_production_data

Kho lưu trữ GitHub mà tôi đã liên kết ở trên chứa các bộ công cụ và framework cùng với một tập hợp các phương pháp hay nhất mà các chuyên gia deep learning tuân theo. Tôi thực sự thích cách mỗi bước trong quy trình deep learning đầy đủ được lập bản đồ và tóm tắt ngắn gọn. Tôi sẽ đề cập lại nó bất cứ khi nào tôi đang triển khai các mô hình deep learning trong tương lai gần.

Thực hiện 3D Ken Burns bằng PyTorch

Deep learning đã biến chúng ta trở thành nghệ sĩ. Chúng ta không còn cần thiết bị đắt tiền để chỉnh sửa hình ảnh và video, tầm nhìn máy tính và các kỹ thuật như GAN mang đến sự sáng tạo ngay lập tức.

“Hiu ng Ken Burns là mt loi hiu ng lia và thu phóng được s dng trong sn xut video t hình nh tĩnh.

Tạo hiệu ứng Ken Burns theo cách thủ công tốn nhiều thời gian và thành thật mà nói thì khá phức tạp. Các phương pháp hiện tại yêu cầu rất nhiều hình ảnh đầu vào được chụp từ nhiều góc độ. Không lý tưởng. Vì vậy, trong dự án này, các nhà phát triển đã tạo ra “một framework tổng hợp hiệu ứng 3D Ken Burns từ một hình ảnh duy nhất, hỗ trợ cả chế độ hoàn toàn tự động và chế độ tương tác với người dùng điều khiển máy ảnh”.

97-ken burns

Và không có gì ngạc nhiên khi thấy rằng việc triển khai nằm trong PyTorch, phải không? Bạn cần tham gia vào nhóm PyTorch ngay bây giờ để khai thác toàn bộ tiềm năng của nó và giúp sự nghiệp deep learning của bạn có một sự tiến bộ lớn.

Trí tuệ nhân tạo nguồn mở (AI), NLP và các dự án khoa học dữ liệu khác

Plato – Khung điện toán đồ thị của Tencent

Đồ thị đã trở thành một phần quan trọng của vòng đời machine learning trong thời gian gần đây. Chúng là một phương pháp hiệu quả để phân tích dữ liệu, xây dựng hệ thống khuyến nghị, khai thác mạng xã hội, v.v. Nói tóm lại – chúng siêu hữu ích.

Plato là một framework cho tính toán đồ thị phân tán và machine learning. Nó đã được phát triển bởi những người ở Tencent và có nguồn mở gần đây. Plato là một framework hiện đại đi kèm với sức mạnh tính toán đáng kinh ngạc. Trong khi phân tích hàng tỷ nút, Plato có thể giảm thời gian tính toán từ vài ngày xuống còn vài phút (đó là sức mạnh của đồ thị!).

Vì vậy, thay vì dựa vào hàng trăm máy chủ, Plato có thể hoàn thành nhiệm vụ của mình trên ít nhất là mười máy chủ. Tencent cũng đang sử dụng Plato trên nền tảng WeChat.

Dưới đây là so sánh của Plato với Spark GraphX ​​trên điểm chuẩn PageRank và LPA:

97-so sanh spark va plato

Transformers v2.2 – với 4 mô hình NLP mới!

HuggingFace là nhóm nghiên cứu tích cực nhất mà tôi từng thấy trong không gian NLP. Họ dường như đưa ra các bản phát hành và framework mới chỉ vài giờ sau khi các nhà phát triển chính thức công bố chúng – thật không thể tin được. Tôi thực sự khuyên bạn nên theo dõi HuggingFace trên Twitter để cập nhật công việc của họ.

97-transformer

Bản phát hành mới nhất của họ là Transformers v2.2.0 bao gồm bốn mô hình NLP mới (trong số các tính năng mới khác):

  • ALBERT (PyTorch và TensorFlow): Phiên bản Lite của BERT
  • CamamBERT (PyTorch): Mô hình tiếng Pháp
  • GPT2-XL (PyTorch và TensorFlow): Bản lặp lại GPT-2 của OpenAI
  • DistilRoberta (PyTorch và TensorFlow)

ARC – Tóm tắt và lập luận (AI Benchmark)

Đây là một dự án hơi khác so với những gì tôi thường đưa vào các bài viết này. Nhưng tôi cảm thấy đó là một điều quan trọng vì chúng ta vẫn còn khoảng cách rất xa so với việc tiến gần đến trí thông minh nhân tạo.

ARC, viết tắt của Abstraction and Reasoning Corpus, là một tiêu chuẩn trí tuệ nhân tạo chung nhằm mục đích mô phỏng một “dạng trí thông minh chất lỏng nói chung giống con người”. Ý tưởng này và nghiên cứu đằng sau nó đã được thực hiện bởi François Chollet, tác giả của khung Keras phổ biến.

97-arc tom tat va lap luan

Ông Chollet, trong bài nghiên cứu của mình có tiêu đề “On the Measure of Intelligence”, đưa ra một định nghĩa cập nhật về trí thông minh dựa trên Lý thuyết thông tin thuật toán. Ông cũng đề xuất một bộ hướng dẫn mới để giới thiệu điểm chuẩn AI chung nên là gì. Và ARC là điểm chuẩn dựa trên các nguyên tắc này.

Tôi nghĩ đây là một chủ đề thực sự quan trọng sẽ thúc đẩy rất nhiều cuộc tranh luận trong cộng đồng. Đó là một điều lành mạnh và hy vọng sẽ dẫn đến nhiều nghiên cứu hơn nữa về chủ đề này và có lẽ là một bước tiến lớn trong không gian trí tuệ nhân tạo nói chung.

Kho lưu trữ GitHub này chứa tập dữ liệu ARC cùng với giao diện dựa trên trình duyệt để thử giải quyết các tác vụ theo cách thủ công.

Kết luận

Vậy bạn thấy dự án nguồn mở nào phù hợp nhất? Tôi đã cố gắng đa dạng hóa các chủ đề và lĩnh vực càng nhiều càng tốt để giúp bạn mở rộng tầm nhìn của mình. Tôi đã thấy cộng đồng của chúng tôi đón nhận các dự án deep learning với lòng nhiệt tình của một người học thực sự đam mê – và tôi hy vọng sẽ giúp bạn nhiều hơn nữa.

Cá nhân tôi sẽ nghiên cứu sâu hơn bài báo của François Chollet về đo lường trí thông minh vì điều đó đã thực sự thu hút sự chú ý của tôi. Thật hiếm khi chúng ta được đọc cởi mở về việc đo điểm chuẩn các hệ thống trí tuệ nhân tạo nói chung, phải không?