Mô hình AI mới 'biết suy nghĩ' của OpenAI có bị thổi phồng?

Tuần này Công ty OpenAI chính thức ra mắt loạt mô hình trí tuệ nhân tạo (AI) mới mà họ cho biết "có thể giải quyết các vấn đề khó hơn" so với các mô hình trí tuệ nhân tạo tạo sinh (GenAI) trước đây.

Mô hình AI mới mang tên o1 (tên mã Strawberry) đánh dấu bước tiến mới trong nỗ lực phát triển AI "biết suy nghĩ" của công ty có trụ sở tại California.

Trình độ ngang tiến sĩ?

Theo thông tin từ OpenAI, o1 là mô hình ngôn ngữ lớn được đào tạo bằng phương pháp học tăng cường để thực hiện các suy luận phức tạp, với khả năng suy nghĩ trước khi trả lời. Hôm 12-9, OpenAI ra mắt bản xem trước của 2 trong số các mô hình, được gọi là o1-preview và o1-mini, cho một số người dùng trả phí.

Trong các thử nghiệm của OpenAI, o1 đã thể hiện sự xuất sắc trong các lĩnh vực như vật lý, hóa học và sinh học, với khả năng giải quyết các nhiệm vụ ngang với tiến sĩ. Trong một kỳ thi tuyển chọn cho Olympic toán quốc tế (IMO), trong khi mô hình GPT-4o chỉ giải được 13% bài toán thì o1 có thể đạt tới 83%.

Mô hình o1 đặc biệt ở chỗ nó sẽ "suy nghĩ" trước khi trả lời, chia các vấn đề lớn thành các bước nhỏ và cố gắng nhận diện những bước đúng hoặc sai. Cách "suy luận nhiều bước" như vậy không hoàn toàn mới (vì nhiều năm trước các nhà nghiên cứu đã từng đề xuất), nhưng chưa thực sự khả thi cho đến gần đây.

Cây bút Maxwell Zeff của trang TechCrunch lấy một ví dụ cho thấy hiệu suất của mô hình mới: "Tôi yêu cầu o1-preview hỗ trợ gia đình mình lên kế hoạch cho lễ Tạ ơn. Cụ thể, tôi muốn được trợ giúp để tìm hiểu xem liệu 2 chiếc lò nướng có đủ để nấu bữa tối lễ Tạ ơn cho 11 người hay không, và muốn thảo luận xem liệu chúng tôi có nên cân nhắc thuê nhà trên Airbnb để có thêm chiếc lò nướng thứ ba không".

Sau 12 giây "suy nghĩ", o1 đã cung cấp cho nhà báo này câu trả lời dài hơn 750 từ, khuyên rằng 2 lò nướng là đủ, miễn là có chiến lược cẩn thận, qua đó giúp gia đình anh tiết kiệm chi phí và dành nhiều thời gian cho nhau hơn. Mô hình này cũng đề xuất cách quản lý không gian lò nướng và thậm chí gợi ý thuê một lò di động. Trong khi đó, GPT-4o cung cấp lời khuyên sơ sài, ít hữu ích hơn.

Tuy nhiên, với các câu hỏi đơn giản hơn, o1 lại trả lời "quá lố". Maxwell Zeff chia sẻ: "Khi tôi hỏi có thể tìm thấy cây tuyết tùng ở đâu tại Mỹ, o1 đưa ra câu trả lời dài hơn 800 từ, gồm cả tên khoa học của cây. Trong khi đó, GPT-4o trả lời câu hỏi này tốt hơn, chỉ cần khoảng 3 câu giải thích".

OpenAI o1 được quảng cáo quá mức?

Ông Andy Harrison - cựu nhân viên Google và giám đốc điều hành của Công ty S32 - cho biết các nguyên tắc cơ bản được sử dụng để tạo ra OpenAI o1 đã có từ nhiều năm trước.

Google đã sử dụng các kỹ thuật tương tự vào năm 2016 để tạo ra AlphaGo. Đây là hệ thống AI đầu tiên đánh bại một nhà vô địch thế giới là kỳ thủ Lee Sedol của Hàn Quốc trong trận đấu có 5 ván vào tháng 3-2016. AlphaGo được đào tạo bằng cách chơi với chính nó vô số lần, về cơ bản là tự học cho đến khi đạt đến khả năng siêu phàm.

Tuy nhiên, các nhà phân tích cho rằng so với GPT-4o, các mô hình o1 như thể "tiến một bước nhưng lùi hai bước". OpenAI o1 vượt trội trong việc suy luận và trả lời các câu hỏi phức tạp, nhưng mô hình mới nhất của OpenAI này thiếu các công cụ, khả năng đa phương tiện và cả tốc độ - điều mà GPT-4o gây ấn tượng hơn.

Mô hình này còn đắt hơn khoảng 4 lần so với GPT-4o. Trên thực tế, OpenAI cũng thừa nhận "GPT-4o vẫn là lựa chọn tốt nhất cho hầu hết các câu hỏi" và lưu ý o1 gặp khó khăn trong các nhiệm vụ đơn giản hơn.

Ông Ravid Shwartz Ziv, giáo sư chuyên nghiên cứu các mô hình AI tại ĐH New York, bình luận: "Mô hình này gây ấn tượng, nhưng tôi nghĩ sự cải thiện không đáng kể lắm. Mô hình mới làm tốt hơn ở một số vấn đề nhất định, nhưng lại không có sự cải thiện toàn diện".

Vì những lý do trên, o1 sẽ là lựa chọn phù hợp cho những câu hỏi mà mô hình này vốn được thiết kế để giải quyết: những câu hỏi lớn. Hiện nay hầu hết mọi người không dùng AI tạo sinh để trả lời những câu hỏi này, phần lớn vì các mô hình AI hiện tại không thực sự giỏi trong việc xử lý chúng. Tuy nhiên, o1 là một bước thử nghiệm theo hướng đó.

Trình độ ngang tiến sĩ?

OpenAI o1 được quảng cáo quá mức?

Các bài tương tự

Xem tin bài khác