ChatGPT là gì?
ChatGPT là một chatbot AI đàm thoại được tạo bởi OpenAI. Nó được thiết kế để trả lời các câu hỏi, cung cấp thông tin, giải quyết nhiều vấn đề và truyền đạt phản hồi lại cho bạn theo cách giống như con người.
Bạn có thể nghĩ về ChatGPT như một người đã đọc, tìm hiểu nhiều về các chủ đề khác nhau. Khi bạn hỏi ChatGPT một câu hỏi, nó sẽ tìm kiếm trong bộ nhớ của nó để tìm thông tin liên quan (dựa trên những gì nó đã “đọc” trước đó) và sử dụng nó để tạo phản hồi.
Theo nghĩa này, ChatGPT giống như một con người rất hiểu biết và khả năng đọc tốt, có thể tham gia trò chuyện với bạn mà không bị ràng buộc bởi cơ thể vật lý, cảm xúc hoặc những hạn chế khác của con người.
ChatGPT được xây dựng như thế nào?
Để hiểu cách ChatGPT hoạt động, bạn nên xem xét nguồn gốc của nó và "bộ não" đằng sau chatbot AI tiên tiến.
Thứ nhất, ChatGPT được xây dựng bởi con người, giống như mọi công nghệ phần mềm giá trị hiện có. OpenAI đã tạo ra ChatGPT, công ty nghiên cứu và phát triển một “kiểu” AI mang tính cách mạng này, hãng cũng là chủ nhân của các công cụ AI mạnh mẽ khác như DALL-E, InstructGPT và Codex.
Mặc dù ChatGPT đã tạo ra một làn sóng mạnh mẽ vào cuối năm 2022, nhưng hầu hết công nghệ cơ bản hỗ trợ ChatGPT đã tồn tại từ lâu, mặc dù rất ít được công khai.
Thứ hai, mô hình ChatGPT được xây dựng dựa trên GPT-3 (hay cụ thể hơn là GPT-3.5). GPT là viết tắt của “Generative Pre-training Transformer 3”.
GPT-3 là phiên bản thứ ba của dòng mô hình AI GPT và trước GPT-2 và GPT. Các phiên bản trước đó của mô hình GPT đều hữu ích, nhưng GPT-3 và phiên bản GPT-3.5 được tinh chỉnh mạnh mẽ hơn nhiều. Hầu hết những gì ChatGPT có thể làm là nhờ vào công nghệ GPT-3 cơ bản.
GPT là gì?
Hãy bắt đầu bằng cách “giải nén” các từ viết tắt theo cách dễ hiểu nhất.
“Generative” trong GPT thể hiện khả năng tạo văn bản ngôn ngữ tự nhiên của con người.
“Pre-training” - (được đào tạo trước) nghĩa là thực tế, mô hình đã được đào tạo dựa trên một số tập dữ liệu nhất định. Giống như bạn đọc một hoặc vài cuốn sách trước khi được yêu cầu trả lời các câu hỏi liên quan.
“Transformer” đại diện cho kiến trúc máy học cơ bản cung cấp năng lượng cho GPT.
Bây giờ, kết hợp tất cả lại với nhau, Generative Pre-training Transformer (GPT) là một mô hình ngôn ngữ đã được đào tạo bằng cách sử dụng dữ liệu từ internet với mục đích tạo văn bản ngôn ngữ của con người khi được đặt câu hỏi. Vì vậy, GPT là AI đã được “traning” (đào tạo), nhưng nó được đào tạo như thế nào?
ChatGPT được đào tạo như thế nào?
Bản thân ChatGPT không được đào tạo từ đầu. Thay vào đó, nó là một phiên bản tinh chỉnh của GPT-3.5, bản thân nó là một phiên bản tinh chỉnh của GPT-3. Mô hình GPT-3 đã được đào tạo với một lượng lớn dữ liệu được thu thập từ internet. Giống như Wikipedia, Twitter và Reddit, nó được cung cấp dữ liệu và văn bản của con người được lấy từ mọi “ngóc ngách” của internet.
Nếu bạn đang thắc mắc về cách thức hoạt động của quá trình đào tạo GPT, thì GPT-3 đã được đào tạo bằng cách kết hợp Học có giám sát (Supervised Learning) và Học tăng cường (Reinforcement Learning) thông qua Phản hồi của con người (Human Feedback - RLHF).
Học có giám sát là giai đoạn mà mô hình được đào tạo dựa trên một tập dữ liệu lớn gồm văn bản được lấy từ internet. Giai đoạn Học tăng cường, bản chất của nó là "trial-and-error", nghĩa là thử đi thử lại và rút ra kinh nghiệm sau mỗi lần thử như vậy.
Đào tạo với Supervised Learning
Để hiểu rõ hơn về cách thức Học có giám sát và tăng cường áp dụng cho ChatGPT, hãy tưởng tượng một tình huống trong đó một học sinh được giáo viên dạy viết một bài luận. Supervised Learning sẽ tương đương với việc giáo viên cho học sinh đọc hàng trăm bài luận. Mục tiêu ở đây là để học sinh biết cách viết một bài luận bằng cách làm quen với giọng điệu, từ vựng và cấu trúc của hàng trăm bài luận.
Tuy nhiên, sẽ có cái hay và cái dở giữa hàng trăm bài luận đó. Vì học sinh được đọc cả bài hay và bài dở, nên đôi khi, học sinh có thể viết một bài văn dở do chịu ảnh hưởng từ một bài “văn mẫu” dở đã đọc. Điều này có nghĩa là khi được yêu cầu viết một bài luận, học sinh có thể viết một bài luận tốt hoặc chưa đủ tốt. Nếu nó chưa tốt, đây là lúc Reinforcement Learning (Học tăng cường) phát huy tác dụng.
Đào tạo với Reinforcement Learning
Sau khi giáo viên xác định rằng học sinh hiểu các quy tắc chung của việc viết luận bằng cách đọc hàng trăm bài luận, thì giáo viên sẽ thường xuyên giao cho học sinh bài tập viết luận. Sau đó, giáo viên sẽ cung cấp các nhận xét về bài tập viết luận, cho học sinh biết những gì họ đã làm tốt và những gì họ có thể cải thiện. Học sinh tiếp thu những nhận xét của giáo viên để về nhà viết các bài luận tiếp theo, giúp học sinh tiến bộ theo thời gian.
Điều này tương tự với giai đoạn Học tăng cường của mô hình đào tạo GPT. Sau khi được cung cấp một lượng lớn văn bản được lấy từ internet, mô hình có thể trả lời các câu hỏi. Tuy nhiên, độ chính xác của nó không phải luôn tuyệt đối.
Mô hình sử dụng thông tin phản hồi để cải thiện khả năng trả lời câu hỏi chính xác hơn và giống với cách con người sẽ trả lời hơn. Đây là cách ChatGPT có thể tạo ra các phản hồi giống như con người, mạch lạc, hấp dẫn và nói chung là chính xác.
ChatGPT có thể trả lời câu hỏi như thế nào?
Ví dụ, bạn truy cập trang web ChatGPT và đăng nhập. Bạn nhắc ChatGPT: “hãy viết một bài hát rap theo phong cách của Snoop Dogg”. Nó sẽ phản hồi bằng lời bài hát rap trông rất giống với những gì rapper nổi tiếng Snoop Dogg sẽ viết. Kết quả này có phải thật ảo diệu?
“Phép thuật” đằng sau ChatGPT đều liên quan chặt chẽ đến quá trình “training” của nó.
Sau khi xem hết một cuốn sách giáo khoa chẳng hạn, rất có thể bạn sẽ có thể trả lời bất kỳ câu hỏi nào có nội dung liên quan đến cuốn sách này. Tại sao? Bởi vì bạn đã đọc nó và bạn đã học nó. Điều tương tự xảy ra với ChatGPT, nó cũng biết học hỏi. Và như nền văn minh nhân loại đã chỉ ra, với sự đào tạo và tích lũy đầy đủ, hầu hết mọi vấn đề đều có thể giải quyết được.
ChatGPT hay GPT đã “đọc” một lượng lớn thông tin trên internet. Đó là một kho thông tin khổng lồ. Trong đó, ở đâu đó, có lẽ là lời bài hát của rất nhiều bài hát của Snoop Dogg. Vì vậy, ChatGPT có thể đã sử dụng nó và nhận dạng các mẫu trong lời bài hát của Snoop Dogg. Sau đó, nó sẽ sử dụng “kiến thức” về mẫu này để “dự đoán” lời bài hát giống với những gì Snoop Dogg sẽ viết.
Trọng tâm ở đây là “dự đoán”. ChatGPT không trả lời các câu hỏi giống như cách chúng ta làm. Ví dụ, khi được hỏi với một câu hỏi như “Thủ đô của Bồ Đào Nha là gì?”, bạn có thể nói là Lisbon - trả lời câu hỏi như nói một “sự thật”. Tuy nhiên, ChatGPT không trả lời câu hỏi một cách chắc chắn 100%. Thay vào đó, nó cố gắng dự đoán câu trả lời đúng dựa trên dữ liệu mà nó đã sử dụng trong tập dữ liệu được đào tạo của mình.
Cách tiếp cận của ChatGPT để trả lời câu hỏi
Để hiểu rõ hơn về khái niệm dự đoán phản hồi, hãy tưởng tượng ChatGPT là một thám tử được giao nhiệm vụ giải quyết một vụ án truy tìm kẻ trộm. Thám tử được đưa ra bằng chứng, nhưng họ không biết ai đã thực hiện vụ ăn trộm và nó xảy ra như thế nào. Tuy nhiên, với đủ bằng chứng, thám tử có thể “dự đoán” với độ chính xác cao ai là người chịu trách nhiệm cho vụ ăn trộm và quá trình phạm tội được thực hiện như thế nào.
Sau khi sử dụng dữ liệu từ internet, ChatGPT loại bỏ dữ liệu gốc và lưu trữ các kết nối hoặc mẫu mà nó đã học được từ dữ liệu. Các kết nối hoặc mẫu này giống như các bằng chứng mà ChatGPT phân tích khi cố gắng phản hồi bất kỳ câu hỏi nào.
Vì vậy, về lý thuyết, ChatGPT giống như một thám tử giỏi. Nó không biết chắc các dữ kiện của một câu trả lời là gì, nhưng nó cố gắng, với độ chính xác ấn tượng để dự đoán một chuỗi logic của văn bản ngôn ngữ con người sẽ trả lời câu hỏi một cách thích hợp nhất. Đây là cách bạn nhận được câu trả lời cho câu hỏi của bạn.
Và đây cũng là lý do tại sao một số câu trả lời của ChatGPT trông rất thuyết phục nhưng đôi khi lại sai lầm khủng khiếp.
ChatGPT: Trả lời như con người, "suy nghĩ" như cỗ máy!
Các chi tiết kỹ thuật cơ bản của ChatGPT rất phức tạp. Tuy nhiên, từ quan điểm cơ bản, nó hoạt động bằng cách học và tái tạo những gì nó đã học được khi được hỏi, giống như chúng ta làm với tư cách là con người.
Khi ChatGPT phát triển thông qua nghiên cứu, cách thức hoạt động của nó có thể thay đổi. Tuy nhiên, các nguyên tắc hoạt động cơ bản của nó sẽ vẫn giữ nguyên trong một thời gian, ít nhất là cho đến khi một công nghệ mới đột phá xuất hiện.