Tính năng mới cho phép người dùng tạo hình ảnh liền mạch ngay trong khung chat bằng mô hình ngôn ngữ mạnh nhất hiện nay, GPT-4o, đánh dấu bước tiến mới trong khả năng đa phương thức của ChatGPT.
Ngày 26/3, OpenAI công bố tích hợp tính năng “Images in ChatGPT”, cho phép người dùng tạo ảnh trực tiếp trong chatbot GPT-4o. Tính năng hiện đã được phát hành cho cả người dùng miễn phí lẫn các gói trả phí như Plus, Pro và Team. Đây là lần đầu tiên một phiên bản của ChatGPT hỗ trợ tạo ảnh với khả năng toàn diện, thay vì bị giới hạn như công cụ DALL-E trước đây.
Trên các nền tảng mạng xã hội, nhiều người dùng đã thử nghiệm và bày tỏ sự kinh ngạc trước chất lượng hình ảnh mà công cụ GPT-4o mới tạo ra. Một số phản hồi cho rằng ảnh trông như thật, thậm chí có thể gây nhầm lẫn nếu không có thông báo rõ ràng rằng đây là ảnh được tạo bằng AI. Nhiều ý kiến lo ngại việc phổ biến công cụ này sẽ khiến người dùng khó phân biệt đâu là ảnh thật – đâu là sản phẩm của trí tuệ nhân tạo, đồng thời tạo ra áp lực lên ngành thiết kế đồ họa.

Theo đại diện OpenAI, mô hình tạo ảnh mới sử dụng GPT-4o – nền tảng AI đa phương thức có khả năng hiểu và tạo nội dung từ văn bản, hình ảnh và âm thanh. Trưởng nhóm nghiên cứu Gabriel Goh cho biết một cải tiến quan trọng được gọi là “Binding” cho phép hệ thống duy trì chính xác mối liên kết giữa đối tượng và thuộc tính khi tạo ảnh.
Ví dụ, nếu được yêu cầu tạo ảnh một ngôi sao màu xanh và một tam giác màu đỏ, GPT-4o có thể phân biệt rõ và trình bày chính xác từng phần tử, tránh trộn lẫn hoặc hoán đổi các chi tiết như thường thấy ở các mô hình trước đó.
Bên cạnh khả năng liên kết hình dạng và màu sắc, trình tạo ảnh của GPT-4o cũng cho thấy bước tiến đáng kể trong việc hiển thị văn bản trên ảnh – một thách thức lâu nay của các công cụ tạo ảnh bằng AI. Theo Goh, nếu tiêu đề hay các thành phần văn bản bị méo mó, toàn bộ hình ảnh gần như trở nên vô dụng. Việc cải thiện khả năng kết xuất chữ giúp hình ảnh có thể được sử dụng trong các mục đích thực tế như thiết kế menu, logo hay infographics.
Về mặt kỹ thuật, công cụ mới không sử dụng mô hình khuếch tán như DALL-E, Stable Diffusion hay Midjourney, mà áp dụng kỹ thuật hồi quy tự động – tạo ảnh từ trái sang phải, từ trên xuống dưới tương tự cách viết văn bản. Phương pháp này cho phép hệ thống GPT-4o tạo ảnh có logic liền mạch hơn, đồng thời tăng khả năng xử lý chi tiết trong các tác vụ như vẽ sơ đồ, thiết kế hình dán hoặc tạo truyện tranh.

Trong một số ví dụ được OpenAI công bố, ChatGPT có thể tạo sơ đồ khoa học về thí nghiệm lăng kính Newton với các phần tử được dán nhãn chính xác, tạo truyện tranh nhiều khung với bong bóng lời thoại liền mạch và biểu cảm nhân vật phù hợp theo nội dung.
Tuy nhiên, tốc độ tạo ảnh hiện tại của GPT-4o vẫn chậm hơn so với các công cụ tạo ảnh phổ biến khác. Theo Jackie Shannon – phụ trách sản phẩm đa phương thức của ChatGPT, đây là sự đánh đổi chấp nhận được để đảm bảo chất lượng đầu ra. Bà khẳng định nhóm phát triển đang nỗ lực cải thiện độ trễ trong các bản cập nhật tương lai.
Trước lo ngại về khả năng tạo ảnh giả mạo, nội dung nhạy cảm hoặc deepfake, đại diện OpenAI cho biết công cụ GPT-4o được tích hợp hệ thống kiểm duyệt nghiêm ngặt. Ngoài việc từ chối những yêu cầu mang tính chất lừa đảo hoặc khiêu dâm, mọi hình ảnh tạo ra đều được gắn siêu dữ liệu theo chuẩn C2PA, cho phép các công cụ kiểm tra xác minh nguồn gốc ảnh. Dù vậy, OpenAI thừa nhận không có hệ thống nào hoàn hảo và cam kết tiếp tục nâng cấp các cơ chế bảo vệ.
Trong bối cảnh AI ngày càng hiện diện sâu rộng vào đời sống và sáng tạo nội dung, khả năng tạo ảnh trong ChatGPT là bước tiến quan trọng, không chỉ giúp người dùng phổ thông dễ dàng tiếp cận công cụ mạnh mẽ mà còn đặt ra nhiều thách thức về xác minh thông tin hình ảnh trong tương lai gần.
One thought on “GPT-4o đã có thể tạo ảnh trực tiếp”