Sora
Sora, sản phẩm mới nhất của OpenAI, đang thu hút sự chú ý với khả năng "thấu hiểu sâu sắc ngôn ngữ". Không chỉ tạo ra video từ văn bản, Sora còn có khả năng tạo nhân vật có khả năng thể hiện cảm xúc một cách sống động.
Điều này đã tạo ra làn sóng phấn khích trong cộng đồng người dùng, và các clip minh họa thậm chí còn mô tả độ chân thực của sản phẩm. Mặc dù có những vấn đề như việc giữ cho hình ảnh chuyển động mượt mà và phân biệt bên trái, bên phải, OpenAI đang tích cực làm việc để cải thiện và đảm bảo an toàn trước khi đưa Sora ra mắt công chúng.
Lumiere của Google
Google gọi mô hình AI sản xuất video của mình là Lumiere, dựa trên mô hình khuếch tán có tên Sapce-Time-U-Net (STUNet). Mô hình này tìm ra chi tiết trong video, theo dõi cách chúng chuyển động và thay đổi không gian cũng như thời gian. Mặc dù chưa sẵn sàng cho công chúng, Lumiere của Google hứa hẹn mang đến những bước đột phá trong công nghệ video game có sử dụng trí tuệ nhân tạo chỉ trong hai năm.
VideoPoet
VideoPoet, một mô hình ngôn ngữ lớn được đào tạo từ kho video, ảnh, âm thanh và văn bản lớn, đang làm nổi bật trong lĩnh vực tạo video. Với khả năng xử lý nhiều nguồn đầu vào như văn bản, ảnh, video và có thể làm nổi bật video theo nhiều phong cách khác nhau, VideoPoet thể hiện sự đa dạng và linh hoạt. Mô hình này sử dụng một ý tưởng đơn giản nhưng mạnh mẽ, chuyển đổi mô hình ngôn ngữ tự hồi quy thành hệ thống tạo video.
Emu Video của Meta
Meta đã giới thiệu Emu Video, mô hình AI tạo video có sự kết hợp hiệu quả giữa hình ảnh và văn bản. Hoạt động theo hai bước, Emu Video chuyển đổi hình ảnh thành văn bản và sau đó sử dụng cả hai để tạo ra video.
Với sự ưu ái của các đánh giá viên so với các đối thủ như Imagen Video của Google, Pyoco (Nvidia) và Make-A-Video của Meta, Emu Video đang trở thành một ứng cử viên mạnh mẽ trong lĩnh vực tạo video sáng tạo.
Phenaki Video
Đội ngũ phát triển Phenaki Video sử dụng Mask GIT trong PyTorch để sản xuất video từ văn bản. Mô hình này được đánh giá là linh hoạt và khả dụng cho các nhà phát triển, cho phép họ huấn luyện AI chuyển văn bản thành ảnh hoặc video. Bằng cách bắt đầu với hình ảnh và từ đó tinh chỉnh thành video, Phenaki Video giúp vượt qua các rào cản trong quá trình đào tạo.
CogVideo
CogVideo, mô hình AI tạo sinh chuyển văn bản thành video, đã được phát triển bởi một nhóm nhà nghiên cứu từ Đại học Thanh Hoa, Trung Quốc. Xây dựng từ mô hình chuyển văn bản thành hình ảnh có tên CogView2, CogVideo sử dụng dữ liệu quy mô lớn để khám phá và áp dụng kiến thức đã học vào việc tạo ra video.
Đoạn video "The Crow" được tạo ra bởi CogVideo đã đạt được đánh giá cao và thậm chí được tham gia vào giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).
Trong khi Sora của OpenAI đang thu hút sự chú ý, các mô hình AI khác như Lumiere, VideoPoet, Emu Video, Phenaki Video và CogVideo đều đang đánh bại giới hạn trong việc tạo ra những tác phẩm nghệ thuật số mới và độc đáo từ văn bản. Cùng nhau, chúng đang thay đổi cách chúng ta hiểu và sử dụng trí tuệ nhân tạo trong lĩnh vực sáng tạo và giải trí.
Big Tech (Nguồn: TH&PL)