Mô hình ngôn ngữ LaMDA – Công nghệ đứng sau chatbot AI Bard của Google

Công Nghệ
Mô hình ngôn ngữ LaMDA – Công nghệ đứng sau chatbot AI Bard của Google
Cuộc chiến chatbot AI của các ông lớn hiện đang nóng hơn bao giờ hết với sự tham gia của đầy đủ các bên từ Microsoft, Google hay Facebook. Đầu tháng 2 năm nay, Google ra mắt chatbot AI của hãng đặt tên là Bard và nhanh chóng trở thành...

Cuộc chiến chatbot AI của các ông lớn hiện đang nóng hơn bao giờ hết với sự tham gia của đầy đủ các bên từ Microsoft, Google hay Facebook. Đầu tháng 2 năm nay, Google ra mắt chatbot AI của hãng đặt tên là Bard và nhanh chóng trở thành đối thủ lớn nhất của ChatGPT. Đứng sau sự “thông minh” của Bard chính là mô hình ngôn ngữ LaMDA được Google phát triển từ những năm 2020. Bài viết hôm nay chúng ta cùng nhau tìm hiểu về công nghệ này để xem khả năng của nó mạnh mẽ đến đâu nhé.

Mô hình ngôn ngữ là gì?

Mô hình ngôn ngữ hay Language Model là tập hợp các kiến thức trước đó về một ngôn ngữ nhất định, các kiến thức này có thể là các kiến thức về từ vựng, về ngữ pháp, về tần suất xuất hiện của các cụm từ,… Một mô hình ngôn ngữ có thể được xây dựng theo hướng chuyên gia hoặc hướng dữ liệu.

Mô hình ngôn ngữ lớn (Large Language Model) là các hệ thống xử lý ngôn ngữ tự nhiên (NLP) – một nhánh của nghiên cứu AI – được huấn luyện dựa trên khối lượng văn bản khổng lồ và có khả năng trả lời các câu hỏi đọc hiểu hoặc tạo văn bản mới.

LLM chứa một thuật toán học sâu (Deep Learning) có thể nhận dạng, tóm tắt, dịch, dự đoán và tạo văn bản cũng như các nội dung khác dựa trên kiến thức thu được từ những bộ dữ liệu khổng lồ. Nói cách khác, LLM chính là thứ đứng sau những siêu ứng dụng AI trò chuyện (chatbot AI) hiện nay.

LaMDA là gì?

LaMDA – Language Model for Dialogue Applications là một nhóm các mô hình ngôn ngữ đàm thoại lớn do Google phát triển. Tiền thân của LaMDA được Google phát triển và giới thiệu từ năm 2020 với tên là Meena; sau đó ở hội nghị Google I/O năm 2021, LaMDA thế hệ đầu tiên được chính thức công bố. Và mới nhất vào tháng 2 năm 2023, Google công bố Bard, một chatbot AI đàm thoại phát triển dựa trên LaMDA như là một bước cạnh tranh với sự phát triển ấn tượng của ChatGPT từ OpenAI.

LaMDA là gìLaMDA là gì

LaMDA dựa trên kiến trúc Transformer giống như các mô hình ngôn ngữ khác như BERT và GPT-3, tuy nhiên do được đào tạo nên LaMDA có thể hiểu các câu hỏi và hội thoại có sắc thái về một số chủ đề khác nhau. Các chatbot thông thường chỉ xử lý các câu hỏi và cuộc hội thoại trong cùng một chủ đề; mặc dù vậy trong giao tiếp của con người hàng ngày thì việc chuyển chủ đề hay chủ đề mở mang tính phổ biến hơn; điều kiện là một vấn đề khó khăn dành cho chatbot. Theo những thông báo đến từ Google thì LaMDA đã được xây dựng để khắc phục những vấn đề này.

Việc làm AI lương thưởng hấp dẫn, mới nhất dành cho bạn!

Sức mạnh của LaMDA

Transformer Neural Network

Kiến trúc mạng nơ ron biến đổi là một mô hình học sâu (Deep Learning) được thiết kế để phục vụ giải quyết nhiều bài toán trong xử lý ngôn ngữ và tiếng nói, ví dụ như bài toán dịch tự động, nhận dạng tiếng nói, chuyển văn bản thành tiếng nói,…

Trước đây, các tác vụ xử lý ngôn ngữ tự nhiên đều sử dụng kiến trúc Recurrent Neural Networks (RNNs); câu đầu vào sẽ được xử lý một cách tuần tự khiến tốc độ xử lý trở nên chậm và gặp phải hạn chế trong việc biểu diễn sự phụ thuộc xa giữa các từ trong một câu. Transfomer không xử lý tuần tự hồi quy (Recurrent) như RNNs mà sử dụng self-attention để nhìn vào các từ khác trong lúc mã hóa hay giải mã để hiểu được sự liên quan giữa các từ trong một câu.

Transformer Neural NetworkTransformer Neural Network

LaMDA được xây dựng dựa trên kiến trúc Transformer để hiểu ngôn ngữ, tạo ra một mô hình có thể được huấn luyện để đọc nhiều từ (một câu hay một đoạn văn), chú ý đến cách các từ đó liên quan đến nhau và sau đó dự đoán những từ nó nghĩ sẽ xuất hiện tiếp theo.

Sở hữu tham số đào tạo “khủng”

Tiền thân của LaMDA là Meena được Google cung cấp dữ liệu training về 341GB văn bản được lọc từ các cuộc trò chuyện trên mạng xã hội công cộng. Với nguồn tài nguyên hội thoại vô tận đến từ Google thì Meena có thể học được sắc thái trong cuộc trò chuyện từ những ví dụ khó và chân thực nhất. Điều này mang đến cho chatbot này khả năng trả lời (hồi đáp) lại những câu có ý nghĩa, có cảm tính hoặc là hợp lý giống như con người nhất.

Đến thời điểm hiện tại, Meena có tới 2.6 tỷ tham số, nhưng không là gì so với LaMDA AI khi sở hữu tới 137 tỷ tham số cùng với trên 1.56 nghìn tỷ từ được đào tạo. Google còn tiết lộ một hệ thống lớn và phức tạp hơn mang tên là PaLM với 540 tỷ tham số hứa hẹn mang lại độ chính xác cao hơn vượt xa hiện nay.

Google LaMDA là tương lai của Google?

Với đặc thù của mình thì mô hình LaMDA còn rất nhiều thứ để có thể phát triển trong cả tương lai gần và xa hơn. Đào tạo các mô hình LaMDA trên các dữ liệu khác nhau bao gồm cả hình ảnh và video là một điều mà chúng ta có thể sẽ nhìn thấy trong những năm sắp tới. Giám đốc điều hành Sundar Pichai ủa Google tin rằng khả năng trò chuyện của LaMDA có tiềm năng làm cho thông tin và máy tính hoàn toàn dễ tiếp cận và dễ sử dụng hơn. Chúng ta cùng chờ xem LaMDA có trở thành tương lai của ông lớn Google này không nhé. Hy vọng bài viết này hữu ích dành cho bạn, cảm ơn các bạn đã đọc bài, hẹn gặp lại trong các bài viết tiếp theo của mình.

Tác giả: Phạm Minh Khoa

Có thể bạn quan tâm:

Tìm kiếm việc làm IT mới nhất tại Station D!

Bài viết liên quan

Ngành IT: Làm việc “trên mây” kiếm nhiều tiền nhất hiện nay

Ngành IT: Làm việc “trên mây” kiếm nhiều tiền nhất hiện nay

Kết quả từ cuộc khảo sát đầu năm của Station D về lương bổng của lập trình viên cho thấy nhiều thay đổi đã và đang diễn ra trong ngành IT – cuộc khảo sát tập trung vào các câu hỏi về khối lượng công việc, triển vọng cũng như...

By stationd
Đâu chỉ mỗi Bitcoin, công nghệ Blockchain còn nhiều ứng dụng hơn thế!

Đâu chỉ mỗi Bitcoin, công nghệ Blockchain còn nhiều ứng dụng hơn thế!

Khi nhắc đến blockchain , lập tức mọi người thường nghĩ ngay đến các loại tiền mã hóa, chẳng hạn như bitcoin. Tuy nhiên, blockchain lại là công nghệ tạo ra tiền mã hóa nhưng bản thân công nghệ này không phải là tiền mã hóa như cách mà chúng...

By stationd
Mock phương thức static trong Unit Test sử dụng PowerMock

Mock phương thức static trong Unit Test sử dụng PowerMock

Bài viết được sự cho phép của tác giả Nguyễn Hữu Khanh Trong bài viết này, mình sẽ hướng dẫn các bạn Mock các phương thức static trong Unit Test các bạn nhé! Nếu bạn nào chưa biết về Mock trong Unit Test thì mình có thể nói sơ qua...

By stationd
Một "thuật ngữ ma" đã tồn tại 75 năm trên internet, nó đang "ám" vào các mô hình AI, và sẽ còn tiếp tục tồn tại cho đến vĩnh cửu

Một "thuật ngữ ma" đã tồn tại 75 năm trên internet, nó đang "ám" vào các mô hình AI, và sẽ còn tiếp tục tồn tại cho đến vĩnh cửu

Một lời cảnh báo cho những người thích trích dẫn kiểu "nguồn sưu tầm", "nguồn internet" hay "nguồn AI", họ có thể sẽ đào lên được những "hóa thạch số" vô nghĩa.

By admin
Cảnh Báo Malware Giả Mạo Hợp Đồng Việc Làm: Tập Tin .EXE Nguy Hiểm Đội Lốt PDF/Word

Cảnh Báo Malware Giả Mạo Hợp Đồng Việc Làm: Tập Tin .EXE Nguy Hiểm Đội Lốt PDF/Word

Kẻ xấu đang lợi dụng nhu cầu tìm việc để phát tán phần mềm độc hại (malware) dưới dạng tệp 'hợp đồng' giả mạo. Hãy cảnh giác với những file có icon Word/PDF nhưng thực chất là .exe. Nếu mở, máy tính của bạn có thể bị đánh cắp toàn bộ thông tin cá nhân, cookie và mật khẩu.

By admin