WiMi phát triển hệ thống đề xuất video đa chế độ dựa trên học sâu

BEIJING, 7 tháng 9, 2023 — WiMi Hologram Cloud Inc. (NASDAQ: WIMI) (“WiMi” hoặc “Công ty”), một công ty cung cấp công nghệ Thực tế ảo (“AR”) Hologram hàng đầu thế giới, hôm nay thông báo rằng họ đã phát triển một hệ thống đề xuất video đa chế độ dựa trên học sâu. Công nghệ mới nổi này sử dụng các thuật toán tiên tiến và phân tích dữ liệu đa chế độ để cung cấp cho người dùng các dịch vụ đề xuất video cá nhân hóa, cho phép người dùng trải nghiệm một thế giới xem phim mới.

Trọng tâm của hệ thống đề xuất của WiMi là một thuật toán học sâu, có khả năng trích xuất các đặc điểm ẩn giàu thông tin từ dữ liệu video và tạo ra các đề xuất chính xác dựa trên sở thích cá nhân của người dùng. Trong đó, trích xuất đặc điểm là bước quan trọng của toàn bộ hệ thống. Hiện tại, công nghệ sử dụng mạng nơ-ron tích chập (CNN) làm thuật toán chính để trích xuất đặc điểm. CNN là một mô hình học sâu dựa trên mạng nơ-ron với khả năng xử lý hình ảnh và trích xuất đặc điểm xuất sắc. Trong hệ thống đề xuất video đa chế độ, chúng tôi sử dụng CNN để đào sâu các đặc điểm ẩn của người dùng và video từ các tập dữ liệu video. Thuật toán bao gồm ba phần chính: lớp tích chập, lớp lấy mẫu và lớp kết nối đầy đủ.

Lớp tích chập là lõi của CNN, nhận biết và trích xuất các đặc điểm khác nhau từ dữ liệu đầu vào. Thông qua nhiều phép toán tích chập, nó có thể nắm bắt các đặc điểm ngữ cảnh từ dữ liệu video, bao gồm loại video, tiêu đề, bìa, v.v. Việc trích xuất các đặc điểm này cho phép hệ thống hiểu rõ hơn nội dung video và sở thích của người dùng.

Lớp lấy mẫu đóng vai trò nén và lọc trong quá trình trích xuất đặc điểm. Nó có khả năng chọn các đặc điểm cục bộ đại diện và nén dữ liệu thành một biểu diễn không gian nhỏ hơn. Thông qua hoạt động của lớp lấy mẫu, hệ thống có thể xử lý dữ liệu video quy mô lớn hiệu quả hơn và hiểu rõ hơn sở thích của người dùng.

Lớp kết nối đầy đủ là lớp cuối cùng của một CNN. Với hoạt động của lớp kết nối đầy đủ, hệ thống có thể kết hợp thông tin cá nhân hóa của người dùng với các đặc điểm của video để tính toán mức độ quan tâm và sở thích tiềm ẩn của người dùng đối với video.

Để triển khai thuật toán này, WiMi đã thay đổi nhẹ cấu trúc CNN. Mô hình này bao gồm bốn thành phần chính: lớp đầu vào, lớp tích chập, lớp lấy mẫu và lớp đầu ra.

Trong một hệ thống đề xuất video, lớp đầu vào đóng vai trò chuyển đổi dữ liệu thô thành ma trận số. Ma trận này đại diện cho dữ liệu cần thiết cho quá trình tích chập tiếp theo. Sau đó, các đặc điểm ngữ cảnh của dữ liệu đầu vào được trích xuất từ tập dữ liệu video thông qua ba lớp tích chập. Các lớp tích chập này được thiết kế có các kích thước khác nhau để nắm bắt tốt hơn sự đa dạng của nội dung video.

Tiếp theo là lớp lấy mẫu, nhiệm vụ của nó là nén và lọc các đặc điểm được trích xuất từ lớp tích chập. Bằng cách chọn các đặc điểm cục bộ đại diện nhất, lớp lấy mẫu có thể giảm chiều dữ liệu và giữ lại thông tin quan trọng nhất. Điều này có lợi thế giảm độ phức tạp tính toán của hệ thống trong khi cải thiện sự hiểu biết về sở thích của người dùng.

Cuối cùng, có lớp đầu ra tạo ra các kết quả đề xuất cuối cùng. Các sở thích tiềm ẩn của người dùng đối với các video được tính toán thông qua lớp kết nối đầy đủ. Dựa trên kết quả, hệ thống có thể tạo ra một số video được đề xuất hàng đầu cho người dùng lựa chọn xem.

Trong các ứng dụng thực tế, bốn thông số chính của video (ID video, loại, tiêu đề và bìa) và bốn thông số chính của người dùng (ID người dùng, giới tính, tuổi và nghề nghiệp) thường được chọn làm dữ liệu đầu vào. Các thông số này cung cấp thông tin cơ bản về người dùng và video, tạo ra ma trận ban đầu cho quá trình trích xuất đặc điểm tiếp theo. Bằng cách liên tục tối ưu hóa và đào tạo mô hình, hệ thống có thể hiểu chính xác hơn sở thích của người dùng và đề xuất nội dung video phù hợp nhất cho họ.

Kiến trúc thuật toán của hệ thống đề xuất video đa chế độ dựa trên học sâu của WiMi mang lại một số lợi ích cho người dùng. Thứ nhất, với khả năng trích xuất đặc điểm của CNN, hệ thống có thể chính xác nắm bắt các đặc điểm ẩn của video và người dùng, do đó cung cấp các đề xuất cá nhân hóa chính xác hơn. Thứ hai, hoạt động của lớp lấy mẫu giảm chiều dữ liệu và cải thiện hiệu quả tính toán của hệ thống. Quan trọng nhất, thông qua đào tạo và tối ưu hóa liên tục, hệ thống có thể liên tục học hỏi và thích ứng với sở thích thay đổi của người dùng để cung cấp kết quả đề xuất tốt hơn. Hệ thống đề xuất video đa chế độ dựa trên học sâu đang dẫn dắt công nghệ đề xuất cá nhân hóa vào một kỷ nguyên mới. Với sự tăng trưởng của khối lượng dữ liệu và sự tiến bộ liên tục của các thuật toán, công nghệ có thể đáp ứng tốt hơn nhu cầu của người dùng và thúc đẩy sự tiến bộ của công nghệ đề xuất cá nhân hóa.

Các bước của hệ thống đề xuất video đa chế độ dựa trên học sâu của WiMi như sau:

Thu thập và xử lý dữ liệu sơ bộ: hệ thống trước tiên thu thập một lượng lớn dữ liệu video và thông tin người dùng. Dữ liệu video bao gồm thông tin như ID video, loại, tiêu đề, bìa, v.v., và thông tin người dùng bao gồm ID người dùng, giới tính, tuổi và nghề nghiệp. Các dữ liệu này được xử lý và làm sạch sơ bộ cho quá trình trích xuất đặc điểm và phân tích tiếp theo.

Trích xuất đặc điểm: Một CNN được sử dụng để trích xuất đặc điểm. Thông qua hoạt động của nhiều lớp tích chập và lấy mẫu, hệ thống có thể trích xuất các đặc điểm ngữ cảnh phong phú từ dữ liệu video. Các đặc điểm này bao gồm các đặc điểm nội dung của video