Hồi 2021, mình có học một khóa tổng quan về Creative AI trên Future Learn, lúc đó khi tiếp cận, mình đã rất ngạc nhiên về chuyện AI có thể sáng tạo ra các tác phẩm nghệ thuật vô cùng ấn tượng cũng như có thể sáng tác ra những bài nhạc khá bắt tai.
Cuối 2022, đến khi chatGPT của Open AI xuất hiện với kho tàng tri thức khổng lồ đáp ứng nhanh gọn chỉ bằng một câu lệnh, mình lại tiếp tục bật công tắc ngạc nhiên về sự phát triển của công nghệ.
Tiếp nối sự kiện này, vào tháng 4/2023, Runway AI – một công ty khởi nghiệp tại New York đã giới thiệu công nghệ cho phép người dùng tạo ra video chỉ bằng cách gõ một câu lệnh. Tuy nhiên các video có thời lượng ngắn chỉ trong vòng 4 giây, các video được tạo ra có chất lượng với mình là tạm ổn với cảnh thiên nhiên, còn với con người và các bối cảnh chuyển động thì thực sự khiến mình hơi giật mình vì.. sợ ma :v do ở điểm này Runway làm thực sự không tốt.
Mình có thử dùng chatGPT để gen các đoạn prompt cho một video ngắn với nội dung như sau: “Write me 10 prompts to create 10 shots for a movie. This movie is about a beautiful and peaceful town. The town is covered by a green forest and flowers. The sky is blue having fluffy clouds upon“
Sau khi có những đoạn prompt này, mình sử dụng đưa vào RunwayML (có bản desktop và app) để gen các video với độ dài 4 – 8 giây tùy chỉnh. Đồng thời yêu cầu chat GPT viết thêm các đoạn prompt khác khi mình thấy video chưa đạt đúng yêu cầu.
Dưới đây là kết quả video mà mình thực hiện trong vòng 20 phút:
Các phân cảnh trong video này trông có thiên hướng hoạt họa, không giống thực tế nhưng thực sự kết quả như vậy cũng đã đủ để khiến mình thấy AI “đáng sợ”. Vì trên thực tế, chính bản thân mình cũng không biết cách để tạo ra những đoạn video như vậy khi không phải là một Digital Artist. Song với đó, trên thực tế, nếu sử dụng các công cụ thiết kế thì sẽ mất rất nhiều thời gian để tạo ra những khung cảnh như vậy. Tuy nhiên, AI đã xử lý rất nhanh gọn, tất cả những gì mình cần làm chỉ đơn giản là gõ chữ.
16/02/2024 vừa qua, OpenAI công bố Sora – công cụ giúp sáng tạo video chỉ đơn giản bằng việc nhập mô tả: Text to Video. Lúc mới nghe đến thì mình cũng không nghĩ gì nhiều, chỉ đơn thuần nghĩ chất lượng chắc cũng ngang ngang Runway, cho đến khi mình mò vào web xem thử. Kết quả là mình đã bị sốc vì những gì mình nhìn thấy.
Dưới đây là hai đoạn video ngắn được tạo ra bởi cùng một prompt nhưng trên hai nền tảng khác nhau: Sora của Open AI và RunwayML.
Sau khi xem hai đoạn video trên, rất rõ ràng để nhìn thấy video gen bởi Sora có độ dài nhiều hơn cũng như chất lượng tốt hơn rất nhiều, đúng kiểu movie và cinematic. Đặc biệt hình ảnh con người vô cùng thật, từ ánh mắt đến làn da. Song hơn hết, Sora tạo ra được những bối cảnh phức tạp hơn so với lời gợi ý được đưa ra. Tuy để ý kỹ vẫn còn một số lỗi nhìn hơi ảo nhưng nếu lướt qua nhanh thì mình tin rằng không ai nghĩ rằng đó là video gen bởi AI.
Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.
Tạm dịch: Sora có khả năng tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể và chính xác đến từng chi tiết của chủ thể cũng như bối cảnh. Mô hình không chỉ hiểu những gì người dùng đã yêu cầu trong lời gợi ý mà còn hiểu những thứ đó tồn tại trong thế giới thực như thế nào.
Nguồn: https://openai.com/sora
Nếu nghĩ rằng AI chỉ là AI không thay thế được con người thì quan điểm của mình cho rằng điều đó là điều nên suy nghĩ lại vì chúng ta thực sự không biết chuyện gì sẽ xảy ra trong tương lai. Khi tháng 5/2023, video Will Smith ăn spaghetti được giang cư mận chia sẻ rộng rãi trông khá là ghê sợ và ảo ma Canada như dưới đây:
Thì đến tháng 02/2024, nghĩa là chưa đến 1 năm, chất lượng video được tạo ra bởi Sora mà OpenAI công bố đã tốt hơn gấp 100 lần. (tuy nhìn kỹ cũng khá là ảo ma với hành động lật sách)
Câu hỏi đặt ra là trong tương lai xa, AI có thể phát triển đến mức độ nào, con người mình vẫn chưa thể đoán định rõ được. Đặc biệt với những người không nắm rõ công nghệ, không hiểu AI về bản chất như mình thì lại càng mơ hồ hơn về bức tranh ấy.
Góc độ cá nhân mình đánh giá, thực ra, cái gì cũng có hai mặt của nó, tích cực và tiêu cực, tính năng text to video của AI này cũng vậy.
- Chẳng hạn như chuyện giúp việc giáo dục trở nên sinh động và trực quan hơn, khi AI có thể giúp dựng lên các thước phim về bối cảnh lịch sử hoặc những đoạn phim chân thực về thế giới tự nhiên,… Việc dựng video cũng trở nên dễ dàng hơn khi kỹ năng tối ưu cần thiết chỉ đơn giản là khả năng viết lách, khả năng sáng tạo và tư duy dựng video.
- Mặt trái là khi chúng ta không biết lịch sử, hoặc chưa được thấy những nội dung thực tế, việc xuyên tạc lịch sử hoặc tin vào những điều không tồn tại có thể xảy ra. Nguy cấp hơn hết chính là hình ảnh giả mạo với mỗi cá nhân, đặc biệt trong thời kỳ mạng xã hội và video ngắn lên ngôi. Sự cảnh giác của con người giảm đi, gia tăng sự hời hợt với những nội dung ngắn lướt qua trong đời.
Tựu chung lại thì trong một thế giới không đoán định được điều gì có thể xảy ra khi tương lai nhìn đâu cũng thấy chỉ toàn AI: post được viết bởi AI, tranh vẽ bởi AI, video được dựng bởi AI,.. tất cả những gì thấy trên mạng internet được tạo ra, ngập tràn trong hai ký tự A và I thì bản thân mình nghĩ chúng ta phải trang bị cho chính mình những kỹ năng vô cùng con người – (mà mình cũng chưa xác định được đó là gì) chẳng hạn như thuật dịch dung hả ta =))))))))
Song mình cũng nghĩ, dù là dân công nghệ hay không phải là dân công nghệ, chúng ta cũng nên trang bị cho bản thân những hiểu biết nhất định về thế giới khó đoán định này.
Viết đến đây thực sự hết biết viết gì, anh chị em có đi ngang qua nếu có chia sẻ và góc nhìn nào thì để lại giúp Nguyệt với nhé! Nguyệt cảm ơn ạ.

Leave a comment