Những thách thức vận hành phát triển mô hình dữ liệu lớn như ChatGPT

Nhĩ Anh| 16/02/2023 15:46

Một “trợ lý biết tuốt” như ChatGPT có thể trả lời câu hỏi tự nhiên, logic ở các lĩnh vực, có thể lập trình, viết code, viết đoạn văn, đoạn báo, làm thơ, truyện cười, dịch thuật, tóm tắt văn bản... ChatGPT hay mô hình ngôn ngữ lớn là hướng phát triển, theo đuổi của không chỉ OpenAI mà nhiều BigTech hiện nay. Nhưng theo một số chuyên gia, để phát triển, duy trì, vận hành dữ liệu, huấn luyện mô hình này rất tốn kém...

ChatGPT là một ứng dụng, mô hình ngôn ngữ lớn được phát triển và huấn luyện bởi OpenAI. Đây là một AI có thể hiểu cả ngôn ngữ tự nhiên và tạo ngôn ngữ tự nhiên.

Chia sẻ về mô hình ngôn ngữ lớn (LLMs)- thuật toán đằng sau ChatGPT, đồng sáng lập kiêm CEO Hekate Nguyễn Văn Minh Đức, cho biết ChatGPT sử dụng một loại hình học tăng cường cụ thể "học tăng cường từ phản hồi của con người (RLHF)", nhưng ở cấp độ cao.

Trước đó, năm 2015, Hekate đã triển khai nghiên cứu về mô hình ngôn ngữ lớn trên 1 sản phẩm Chatbot Sumi- một người bạn của GenZ nhưng vì thời điểm đó chi phí về server quá cao cho 11 triệu người dùng (GenZ) nên đã tạm dừng dự án. Được biết, cuối năm 2017, Hekate đã phát triển thêm ứng dụng Chatbot Danang Fantasticity, được triển khai trong lĩnh vực du lịch.

Từ thực tế của startup cho thấy sự thành công quan trọng nhất của ChatGPT ngoài model đó chính là sự kết hợp nền tảng cloud và công nghệ phần cứng (máy tính lượng tử).

Những thách thức vận hành phát triển mô hình dữ liệu lớn như ChatGPT - Ảnh 1

Theo startup này, mô hình LLM là một tập hợp con của AI đã được đào tạo trên một lượng lớn dữ liệu văn bản để tạo ra các phản hồi giống như con người đối với cuộc đối thoại hoặc các đầu vào ngôn ngữ tự nhiên khác. Để tạo ra các phản hồi ngôn ngữ tự nhiên này, các LLM sử dụng các mô hình học sâu, sử dụng các mạng thần kinh nhiều lớp để xử lý, phân tích và đưa ra dự đoán với dữ liệu phức tạp. Điều này phụ thuộc rất nhiều vào cơ sở hạ tầng lưu trữ và khả năng xử lý của máy tính.

Các LLM có khả năng tạo ra văn bản chất lượng, mạch lạc, thường không thể phân biệt được với văn bản của con người. Hiệu suất hiện đại này đạt được bằng cách đào tạo LLM trên một kho văn bản khổng lồ, ít nhất vài tỷ từ, cho phép nó học các sắc thái của ngôn ngữ con người.

Và một trong những LLM nổi tiếng nhất là GPT-3 (Generative Pretraining Transformer 3), được phát triển bởi OpenAI. Với 175 tỷ tham số, GPT-3 là một trong những LLM lớn nhất và mạnh nhất cho đến nay, có khả năng xử lý nhiều tác vụ ngôn ngữ tự nhiên. ChatGPT là một phần mở rộng của GPT-3, ChatGPT được tinh chỉnh từ một mô hình trong sê-ri GPT-3.5, mô hình này đã hoàn thành quá trình đào tạo vào đầu năm 2022.

TỐN KÉM ĐẦU TƯ CHI PHÍ VẬN HÀNH, HUẤN LUYỆN

Tuy nhiên, theo chuyên gia này, “hạn chế lớn nhất của mô hình LLMs là tính dễ bị sai lệch. Các LLM được đào tạo trên một lượng lớn dữ liệu văn bản, với khả năng học tăng cường từ phản hồi của con người (RLHF) nên chúng ta phải có khả năng kiểm soát, lọc các dữ liệu đầu vào. Ví dụ, khi lượng lớn người dùng đều nhận định sai một vấn đề thì AI sẽ hiểu và nhận định vấn đề theo hướng đó”.

Thực tế này cũng đã được các chuyên gia chỉ ra khi công cụ này có thể học rất nhanh từ quá trình giao tiếp, dựa trên những phản hồi của người dùng nên đồng nghĩa ChatGPT có thể học cả các thông tin sai lệch, không được kiểm chứng.

Mô hình ngôn ngữ lớn LLM và rộng hơn là công nghệ Deep Learning yêu cầu lượng dữ liệu và tài nguyên tính toán khổng lồ, khiến việc phát triển và duy trì chúng khá tốn kém. Cùng với đó là việc vận hành dữ liệu trả lời, gán nhãn phân loại dữ liệu cho ChatGPT...

Hạn chế thứ hai của LLMs là thiếu khả năng giải thích. LLM là các thuật toán khá phức tạp và công nghệ máy học Deep Learning nói chung thường được gọi là "hộp đen", gây khó khăn cho việc biết chính xác cách thức và lý do mô hình đạt được một đầu ra cụ thể.

Điều này có thể khiến đầu ra của các LLM khó tin cậy và đặt ra câu hỏi về việc sử dụng chúng trong các tình huống ra quyết định có tính rủi ro cao.

Cuối cùng, theo ông Đức, kích thước tuyệt đối và sức mạnh tính toán cần thiết để đào tạo và chạy LLM có thể là một hạn chế đáng kể (máy tính lượng tử, nền tảng cloud, đường truyền). LLM và rộng hơn là công nghệ Deep Learning yêu cầu lượng dữ liệu và tài nguyên tính toán khổng lồ, khiến việc phát triển và duy trì chúng khá tốn kém, chưa kể khả năng gây hại cho môi trường.

Chia sẻ quan điểm này với VnEconomy, một chuyên gia công nghệ cho rằng, việc đưa ứng dụng này chạy trong thực tế vẫn là một thách thức lớn. Cùng với đó là vấn đề vận hành dữ liệu trả lời cho ChatGPT. OpenAI vẫn phải thuê nhân công giá rẻ để gán nhãn phân loại dữ liệu cho ChatGPT, để phân loại các nội dung xấu độc, loại bỏ những thông tin sai lệch, ngôn từ kích động bạo lực, hận thù, phân biệt giới tính, quấy rối tình dục... Ngoài ra với các nội dung bị trả lời sai vẫn phải có đội vận hành để dạy lại cho ChatGPT.

Những thách thức vận hành phát triển mô hình dữ liệu lớn như ChatGPT - Ảnh 2

Cũng theo chuyên gia này, thách thức lớn nhất đặt ra là hiệu quả kinh tế và rất tốn kém để huấn luyện ChatGPT trên mô hình ngôn ngữ lớn. Ước tính, để chạy ChatGPT tốn khoảng 100.000 USD/ngày và sẽ còn tăng lên, chưa kể chi phí huấn luyện lại mô hình cũng mất 5 triệu USD/lần. Dự án này ban đầu đã được rót 1 tỷ USD và tiếp tục được “bơm” thêm hàng tỷ USD.

ChatGPT hay mô hình ngôn ngữ lớn là hướng phát triển của không chỉ OpenAI mà nhiều BigTech hiện nay. Cơn sốt ChatGPT đã và đang thu hút sự vào cuộc các ông lớn công nghệ toàn cầu. Mới đây, Google ra chatbot AI có tên Bard cạnh tranh với ChatGPT. Người dùng có thể hỏi để Bard trả lời gợi ý nấu món gì cho bữa trưa, lên kế hoạch cho buổi đi chơi.

Trong khi đó, hãng tìm kiếm Baidu (Trung Quốc) sẽ hoàn thành thử nghiệm nội bộ công cụ Ernie Bot trong tháng 3. Đây là chatbot AI hoạt động tương tự ChatGPT và Bard. Baidu dự kiến triển khai AI này dưới dạng ứng dụng độc lập, sau đó dần hợp nhất vào dịch vụ tìm kiếm của mình.

Gần đây, Alibaba cho biết công ty đã tập trung vào các mô hình ngôn ngữ lớn và AI tổng quát từ năm 2017 và đang trong quá trình thử nghiệm nội bộ. Hoặc trước đó, Meta cũng đầu tư mạnh cho AI và tiết lộ về một chatbot của riêng mình...

LLM là một bước phát triển đột phát trong AI, nhưng chúng cũng có những hạn chế cần được xem xét. "Khi các LLM tiếp tục đóng vai trò ngày càng quan trọng trong cuộc sống hàng ngày, những nhà nghiên cứu và phát triển sẽ phải giải quyết những hạn chế để khai thác hết tiềm năng của chúng", ông Đức chia sẻ.

Theo vneconomy.vn

Link bài gốcCopy Linkhttps://vneconomy.vn/nhung-thach-thuc-van-hanh-phat-trien-mo-hinh-du-lieu-lon-nhu-chatgpt.htm

Copy Link

Link đã được copyhttps://vneconomy.vn/nhung-thach-thuc-van-hanh-phat-trien-mo-hinh-du-lieu-lon-nhu-chatgpt.htm

(0) Bình luận

Xếp theo:

Nổi bật Tin tức IDS

Nhân bản hóa trí tuệ nhân tạo: Trao quyền cho con người, chứ không phải thay thế

Nhân bản hóa trí tuệ nhân tạo: Trao quyền cho con người, chứ không phải thay thế
08:30 19/08/2025

Đừng lo sợ trí tuệ nhân tạo sẽ thống trị, hãy bắt đầu lo sợ bị bỏ lại phía sau nếu bạn không sử dụng nó để tăng cường tiềm năng của con người.

Nghiên cứu - Trao đổi
Thông tin cung cấp cho hệ thống trí tuệ nhân tạo phải được kiểm soát

Thông tin cung cấp cho hệ thống trí tuệ nhân tạo phải được kiểm soát
08:42 16/08/2025

Dự thảo Luật Chuyển đổi số, Bộ Khoa học và Công nghệ đề xuất quy định về trách nhiệm của cơ quan, tổ chức, cá nhân trong quản lý hệ thống trí tuệ nhân tạo (AI).

Chính sách
Việt Nam sẵn sàng bước vào thị trường carbon toàn cầu?

Việt Nam sẵn sàng bước vào thị trường carbon toàn cầu?
08:40 16/08/2025

Trước áp lực ngày càng gia tăng từ biến đổi khí hậu toàn cầu, việc giảm phát thải khí nhà kính đã trở thành ưu tiên hàng đầu của mọi quốc gia. Với cam kết đạt phát thải ròng bằng 0 (Net Zero) vào năm 2050, Việt Nam đang đứng trước cơ hội lớn để phát triển các dự án carbon, không chỉ góp phần thực hiện cam kết quốc tế, mà còn thúc đẩy tăng trưởng xanh một cách bền vững. Trong đó, mô hình kinh tế tuần hoàn, đặc biệt trong lĩnh vực xử lý chất thải, đang nổi lên như một hướng đi chiến lược.

Nghiên cứu - Trao đổi
Ai hưởng lợi khi dòng tiền chảy mạnh vào kênh bất động sản và chứng khoán?

Ai hưởng lợi khi dòng tiền chảy mạnh vào kênh bất động sản và chứng khoán?
08:36 16/08/2025

(KTSG Online) - Dòng tiền chảy sâu vào bất động sản và chứng khoán mang lại cơ sở tăng trưởng cao hơn và cơ hội tái cấu trúc hoạt động, nhưng cũng kèm theo những rủi ro.

Nghiên cứu - Trao đổi
Thuế tài sản số: lựa chọn chính sách ban đầu và thách thức dài hạn

Thuế tài sản số: lựa chọn chính sách ban đầu và thách thức dài hạn
08:34 16/08/2025

Tài sản số đang phát triển mạnh mẽ tại Việt Nam với mức độ phổ cập thuộc nhóm cao nhất thế giới. Trước thực tế đó, Nhà nước đang từng bước xây dựng khung pháp lý và chính sách thuế bước đầu nhằm quản lý hiệu quả và khai thác tiềm năng kinh tế của thị trường này.

Nghiên cứu - Trao đổi

Đừng bỏ lỡ

Đề xuất mới nhất về thử nghiệm giao dịch tài sản số, tiền số

Đề xuất mới nhất về thử nghiệm giao dịch tài sản số, tiền số
10:15 15/08/2025

Trung tâm tài chính quốc tế tại TP. Đà Nẵng sẽ thử nghiệm có kiểm soát một số mô hình mới như tài sản số, tiền số, thanh toán và chuyển tiền kỹ thuật số, thành lập các sàn giao dịch và nền tảng giao dịch mới. Trung tâm tại TPHCM tập trung phát triển thị trường vốn gắn với dịch vụ quản lý tài sản, quản lý quỹ, bảo hiểm, sản phẩm tài chính và phái sinh tài chính.

Chính sách
Thủ tướng chỉ đạo đẩy mạnh một số nhiệm vụ, giải pháp nhằm thực hiện mục tiêu tăng trưởng kinh tế năm 2025

Thủ tướng chỉ đạo đẩy mạnh một số nhiệm vụ, giải pháp nhằm thực hiện mục tiêu tăng trưởng kinh tế năm 2025
08:21 13/08/2025

Thủ tướng Chính phủ Phạm Minh Chính vừa ký Công điện số 133/CĐ-TTg ngày 12/8/2025 về việc đẩy mạnh thực hiện một số nhiệm vụ, giải pháp nhằm thực hiện mục tiêu tăng trưởng kinh tế năm 2025.

Tin tức
Thể chế - trụ cột quan trọng nhất để phát triển kinh tế tư nhân

Thể chế - trụ cột quan trọng nhất để phát triển kinh tế tư nhân
17:57 12/08/2025

Cải cách thể chế thành công là kết quả của quyết tâm chính trị mạnh mẽ, lựa chọn đúng điểm đột phá, thiết kế luật minh bạch, thực thi nghiêm minh và nhận được sự đồng thuận rộng rãi của xã hội, của người dân và doanh nghiệp.

Nghiên cứu - Trao đổi
Thách thức lớn với chính sách tiền tệ

Thách thức lớn với chính sách tiền tệ
17:45 12/08/2025

Bỏ room tín dụng, tăng cung ứng vốn cho nền kinh tế, song phải kiểm soát được lạm phát, kiểm soát cho vay các lĩnh vực rủi ro; giảm lãi suất, song phải “ghìm” được tỷ giá… Rất nhiều bài toán khó đang đặt ra với Ngân hàng Nhà nước (NHNN) vào lúc này.

Nghiên cứu - Trao đổi
Lựa chọn sàn giao dịch tiền mã hóa quốc tế hay Việt Nam

Lựa chọn sàn giao dịch tiền mã hóa quốc tế hay Việt Nam
17:43 12/08/2025

Tại Việt Nam, tiền mã hóa chưa được công nhận chính thức, nhưng vẫn là kênh đầu tư hấp dẫn thu hút các nhà đầu tư trong nước, vì thế, cần hoàn thiện khung pháp lý.

Nghiên cứu - Trao đổi
Mặt trái của việc kiếm tiền từ trí tuệ nhân tạo

Mặt trái của việc kiếm tiền từ trí tuệ nhân tạo
09:01 12/08/2025

Những công ty cung cấp hệ thống giao tiếp người dùng chatbot AI - trí tuệ nhân tạo lớn đang chuyển sang việc kiếm tiền bằng những chiêu trò mờ ám, thiếu minh bạch. Dưới đây là những điều người dùng cần biết.

Nghiên cứu - Trao đổi
Thuế đối ứng của Hoa Kỳ: Thúc đẩy gia tăng năng lực cạnh tranh dài hạn

Thuế đối ứng của Hoa Kỳ: Thúc đẩy gia tăng năng lực cạnh tranh dài hạn
07:45 05/08/2025

Sự thay đổi trong chính sách thương mại và thuế đối ứng của Hoa Kỳ đang thúc đẩy Việt Nam xem xét lại chiến lược xuất khẩu, đồng thời mở ra cơ hội để đổi mới, nâng cao hiệu quả và tăng cường năng lực cạnh tranh dài hạn thông qua cải cách chủ động.

Nghiên cứu - Trao đổi
TP.HCM đề xuất loạt cơ chế đặc thù để phát triển bứt phá ngành bán dẫn

TP.HCM đề xuất loạt cơ chế đặc thù để phát triển bứt phá ngành bán dẫn
07:43 05/08/2025

TP.HCM kiến nghị miễn thuế thu nhập cá nhân 10 năm cho chuyên gia, áp dụng “luồng xanh” thủ tục đối với nhà máy sản xuất chip và trung tâm dữ liệu lớn để phát triển ngành bán dẫn.

Tin tức
Phê duyệt Nhiệm vụ lập Điều chỉnh Quy hoạch tổng thể năng lượng quốc gia

Phê duyệt Nhiệm vụ lập Điều chỉnh Quy hoạch tổng thể năng lượng quốc gia
07:42 05/08/2025

Phó Thủ tướng Bùi Thanh Sơn vừa ký Quyết định số 1654/QĐ-TTg ngày 4/8/2025 phê duyệt Nhiệm vụ lập Điều chỉnh Quy hoạch tổng thể về năng lượng quốc gia thời kỳ 2021 - 2030, tầm nhìn đến năm 2050.

Chính sách
Xây dựng “Niềm tin số” ở Việt Nam

Xây dựng “Niềm tin số” ở Việt Nam
07:38 05/08/2025

KOL (Key Opinion Leaders) - những người có ảnh hưởng lớn trên mạng xã hội hoặc trong cộng đồng, không chỉ ảnh hưởng trong lĩnh vực quảng cáo truyền thông, mà còn có khả năng định hình dư luận, dẫn dắt lối sống và nhận thức của cộng đồng...

Nghiên cứu - Trao đổi
Những nền kinh tế có nhiều startup kỳ lân nhất thế giới

Những nền kinh tế có nhiều startup kỳ lân nhất thế giới
07:29 05/08/2025

Với 793 startup kỳ lân, Mỹ là nơi có nhiều công ty loại này hơn 19 nền kinh tế khác trong danh sách cộng lại...

Fintech
Blockchain, tài sản số là trọng tâm phát triển Trung tâm Tài chính quốc tế Đà Nẵng

Blockchain, tài sản số là trọng tâm phát triển Trung tâm Tài chính quốc tế Đà Nẵng
08:40 04/08/2025

Chiều 2/8, Đoàn công tác của UBND thành phố Đà Nẵng đã đến thăm và làm việc với Hiệp hội Blockchain và Tài sản số Việt Nam (VBA). Phó Chủ tịch Thường trực UBND thành phố Đà Nẵng Hồ Kỳ Minh dẫn đầu đoàn công tác với sự tham gia của lãnh đạo các sở, ngành thuộc thành phố.

Nghiên cứu - Trao đổi
Cơ hội bứt phá của Việt Nam trước làn sóng áp thuế toàn cầu của Mỹ

Cơ hội bứt phá của Việt Nam trước làn sóng áp thuế toàn cầu của Mỹ
08:36 04/08/2025

Giữa những biến động của trật tự thương mại toàn cầu, quyết định của Mỹ trong việc siết chặt thuế nhập khẩu đang tái định hình lại chuỗi cung ứng quốc tế. Trong bối cảnh đó, Việt Nam với lợi thế địa chiến lược, mạng lưới hiệp định thương mại sâu rộng và môi trường chính trị - kinh tế ổn định đang nổi lên như một điểm đến thay thế hấp dẫn cho các nhà đầu tư toàn cầu.

Nghiên cứu - Trao đổi
Điều chỉnh chỉ tiêu tín dụng, tạo động lực thúc đẩy tăng trưởng kinh tế

Điều chỉnh chỉ tiêu tín dụng, tạo động lực thúc đẩy tăng trưởng kinh tế
08:34 04/08/2025

Năm 2025, Chính phủ điều chỉnh mục tiêu tăng trưởng GDP lên mức 8,3-8,5%, đặt ra yêu cầu cao hơn đối với việc huy động và phân bổ nguồn lực cho nền kinh tế. Bám sát Nghị quyết của Quốc hội và chỉ đạo của Chính phủ, Thủ tướng Chính phủ, NHNN Việt Nam đã điều hành chính sách tiền tệ một cách chủ động, linh hoạt, phối hợp hài hòa với chính sách tài khóa và các chính sách vĩ mô khác, góp phần kiểm soát lạm phát, ổn định kinh tế vĩ mô và bảo đảm các cân đối lớn.

Nghiên cứu - Trao đổi
Việt Nam cần tiến tới tự chủ công nghệ hydro

Việt Nam cần tiến tới tự chủ công nghệ hydro
08:22 04/08/2025

Trao đổi với Tạp chí Kinh tế Việt Nam/VnEconomy, PGS.TS. Trần Đình Phong cho biết Việt Nam được đánh giá cao về tiềm năng điện gió, mặt trời, địa nhiệt, trong đó có tiềm năng chuyển hóa một phần các năng lượng tái tạo này thành nhiên liệu hydro xanh...

Multimedia