Facebook sử dụng 3,5 tỉ ảnh Instagram để cải thiện AI nhận diện khuôn mặt
Facebook đã cải thiện khả năng AI của mình trong việc phân loại các đối tượng trong ảnh nhờ dữ liệu từ 3,5 tỷ bức ảnh Instagram.
Gã khổng lồ mạng xã hội đã tiết lộ dự án thu thập dữ liệu hình ảnh mới nhất cho AI tại sự kiện Hội nghị các nhà phát triển hàng năm F8 ở San Jose. Giám đốc công nghệ Mike Schroepfer giải thích về những thách thức của việc cải thiện độ chính xác của máy tính để nó hiểu các đối tượng trong ảnh. Một trong những vấn đề lớn nhất của công ty là không có đủ hình ảnh được gắn đúng cách để đào tạo AI hiểu những gì có trong đó.
Những bức ảnh đăng trên Instagram là công cụ được Facebook dùng để tăng cường AI nhận diện khuôn mặt.
Ví dụ, trước khi AI có thể hiểu một quả táo trong một bức ảnh thực sự là một quả táo, nó cần được “đào tạo” trên các bức ảnh trước đó về quả táo mà con người gắn chính xác với đúng loại trái cây.
Bằng việc sở hữu dịch vụ chia sẻ ảnh Instagram phổ biến, Facebook sẽ muốn sử dụng tất cả dữ liệu hình ảnh của Instagram, được chụp từ những bức ảnh mà mọi người tải lên. Sau đó, nó có thể sử dụng những ảnh đó để cải thiện khả năng nhận dạng hình ảnh tổng thể.
Schroepfer cho biết Facebook đã lấy dữ liệu của 3,5 tỷ bức ảnh Instagram, được gắn thẻ # để mô tả chúng, từ đó có thể “tạo ra kết quả hiện đại” dựa trên tiêu chuẩn ImageNet phổ biến - vốn được các nhà nghiên cứu AI sử dụng làm thước đo hiệu quả của dự án so với những sản phẩm khác.
Trong một cuộc phỏng vấn với tạp chí Fortune trước F8, Giám đốc ứng dụng máy tính Manohar Paluri nói rằng một trong những thách thức trong việc đào tạo AI của công ty là nhiều bức ảnh trên Instagram có hashtag linh tinh, nghĩa là ai đó đã mô tả một bức ảnh của một con chó nhưng thực tế là loại khác, và điều này xảy ra ở khắp mọi nơi trên Instagram.
Một khi máy học có thể phân tích hàng tỷ bức ảnh, Facebook sau đó về cơ bản đã sở hữu một cơ sở dữ liệu nhận diện phổ biến cho ngôn ngữ tiếng Anh gọi là WordNet.
Công cụ nhận diện khuôn mặt của Facebook đang ngày càng được cải thiện.
Trong một bài nghiên cứu về dự án, các nhà nghiên cứu Facebook nói rằng bằng cách sử dụng WordNet, công ty đã có thể nhóm các thẻ hashtag với nhau để loại bỏ những thứ linh tinh. Kết quả là Paluri nói rằng máy học của Facebook giờ đây có thể phân biệt giữa các loài chim cụ thể trong ảnh cũng như các điều kiện thời tiết khác nhau trong những bức ảnh đó. Hiện nay, hệ thống này có thể cho biết sự khác biệt giữa các loại động vật khác nhau, loại thực phẩm phổ biến…
Facebook tiết lộ, toàn bộ dự án AI mất 22 ngày và yêu cầu sức mạnh của 330 bộ xử lý đồ họa để gây dựng một hệ thống máy học tốt nhất có thể. Paluri nói rằng với khả năng hiểu rõ hơn về hình ảnh, Facebook sẽ có thể tạo ra các mô tả âm thanh chính xác hơn cho người dùng khiếm thị. “Thành thật mà nói đây mới chỉ là sự khởi đầu. Chúng tôi đang bắt đầu học từ dữ liệu này”, Paluri cho biết.
Với Schroepfer, những cải tiến nhận dạng hình ảnh AI mới đã được đưa vào các sản phẩm Facebook khác nhau.
Thẩm phán tòa án liên bang San Francisco, James Donato, đã xác nhận một vụ kiện tập thể chống lại Facebook.