Trí tuệ nhân tạo có thể làm trầm trọng thêm các vấn đề về dữ liệu

Nghiên cứu - Trao đổi - Ngày đăng : 11:10, 02/04/2026

Doanh nghiệp đã phải vật lộn với việc giữ cho dữ liệu sạch và chính xác trong nhiều thập kỷ. Nhưng trí tuệ nhân tạo có thể làm trầm trọng thêm các vấn đề do dữ liệu xấu gây ra.

Nghiên cứu - Trao đổi

Trí tuệ nhân tạo có thể làm trầm trọng thêm các vấn đề về dữ liệu

LTV • {Ngày xuất bản}

Chiến tranh Mỹ-Iran đã mang đến một bài học quan trọng cho các lãnh đạo CNTT.

Doanh nghiệp luôn phải đối phó với dữ liệu xấu trong môi trường của họ, cho dù đó là do làm việc cẩu thả, một cơ sở dữ liệu cũ mà mọi người đều sợ xóa, hay các hệ thống xung đột được sáp nhập trong những vụ mua lại trong thập kỷ qua. Nhưng AI sẽ làm trầm trọng thêm những vấn đề về dữ liệu đó, và việc bỏ qua chúng không còn là một lựa chọn khả thi nữa.

Hãy xem xét vụ ném bom của quân đội Mỹ vào một trường nữ sinh Iran vào ngày 28 tháng 2, khiến ít nhất 165 người thiệt mạng, hầu hết là trẻ em. Theo tờ New York Times, các nhà điều tra quân sự cho biết nguyên nhân của vụ ném bom nhầm là do dữ liệu xấu. Rõ ràng, tòa nhà đó đã được quân đội Iran sử dụng nhiều năm trước đó. Tòa nhà đã được tách khỏi khu phức hợp quân sự và được chuyển đổi thành trường học cách đây một thập kỷ, nhưng không ai cập nhật hồ sơ tình báo của Mỹ. Đó là lý do tại sao hệ thống nhắm mục tiêu dựa trên trí tuệ nhân tạo (AI) lại chọn nó để thực hiện một cuộc tấn công ném bom.

“Các sĩ quan tại Bộ Tư lệnh Trung ương Hoa Kỳ đã tạo ra tọa độ mục tiêu cho cuộc tấn công bằng cách sử dụng dữ liệu lỗi thời do Cơ quan Tình báo Quốc phòng cung cấp”, theo tờ The Times đưa tin. Việc nhắm mục tiêu quân sự rất phức tạp và liên quan đến nhiều cơ quan. Nhiều người sẽ chịu trách nhiệm xác minh tính chính xác của dữ liệu, và Bộ Tư lệnh Trung ương chịu trách nhiệm kiểm tra thông tin họ nhận được từ Cơ quan Tình báo Quốc phòng hoặc một tổ chức tình báo khác. Nhưng trong một tình huống diễn biến nhanh chóng, như những ngày đầu của một cuộc chiến, thông tin đôi khi không được xác minh.

Nói rõ hơn, cuộc điều tra cho thấy AI không phải là nguyên nhân gây ra vụ đánh bom trường học; lỗi đến từ dữ liệu sai lệch và những người không xác minh nó. Như tờ The Guardian đã chỉ ra, ngôi trường xuất hiện trong danh sách doanh nghiệp của Iran. Nó hiển thị trên Google Maps. Một công cụ tìm kiếm có thể đã tìm thấy nó. Nhưng không ai tìm kiếm cả.

Điều này đưa chúng ta đến với thực tế hậu cần, cả đối với một tổ hợp quân sự khổng lồ thực hiện một số lượng lớn các cuộc tấn công đồng thời và đối với một doanh nghiệp tận dụng hàng tỷ bit dữ liệu được xử lý bởi trí tuệ nhân tạo thế hệ mới (genAI) hoặc các tác nhân tự động. Việc xác minh từng điểm dữ liệu riêng lẻ gần như là bất khả thi.

Hãy nhớ rằng lợi thế chính của việc triển khai AI là chúng có thể xử lý hàng petabyte dữ liệu theo cách mà con người không thể làm được.

Vụ đánh bom trường học là một ví dụ cực đoan, nhưng nó củng cố mối lo ngại rằng AI sẽ sử dụng bất kỳ dữ liệu nào mà nó có thể truy cập. Điều đó đặc biệt nguy hiểm với các hệ thống tự động, vì chúng sẽ giả định dữ liệu là chính xác và tận dụng dữ liệu đó để đưa ra quyết định và hành động. Điều này hoàn toàn đúng khi một bệnh viện đang phân tích kết quả xét nghiệm, một nhà bán lẻ đang cố gắng dự đoán nhu cầu về chủng loại sản phẩm, hoặc một nhà sản xuất đang cố gắng dự đoán lượng nguyên liệu thô cần thiết cho các dự án sắp tới.

Các chuyên gia CNTT hiểu rõ hơn. Vì hàng tá lý do, dữ liệu lỗi thời hoặc sai sót đang tồn tại trong hệ thống. Họ hiểu lý do ban đầu nó xuất hiện ở đó. Điều không hợp lý, nhưng vẫn có thể hiểu được, là tại sao không ai thử xác minh tất cả dữ liệu và loại bỏ dữ liệu xấu.

Vấn đề này có thể còn tồi tệ hơn. Rất nhiều dữ liệu loại này được đưa vào hệ thống khi các cơ sở dữ liệu được sáp nhập. Trong những tháng đầu tiên của quá trình sáp nhập một công ty, có rất nhiều việc phải làm để duy trì doanh thu. Việc xác minh tính hợp lệ của các cơ sở dữ liệu thường không được ưu tiên.

Nhưng ngày nay, nhiều năm sau khi dữ liệu đó được sáp nhập từ một nhóm có thể không còn tồn tại nữa, quy trình nào có thể đánh giá một cách có ý nghĩa về độ chính xác của dữ liệu cũ đó? Và việc đánh giá càng bị trì hoãn, số lượng lỗi lan rộng trong môi trường càng lớn.

Một nhóm làm việc về CNTT có thể sử dụng nhiều hướng dẫn khác nhau để loại bỏ những dữ liệu như vậy, không phải bằng cách xác định độ chính xác của dữ liệu cũ, mà bằng cách xác định các khối dữ liệu lớn có thể được xóa bỏ. Ví dụ: “Bất kỳ danh sách khách hàng tiềm năng nào có tuổi đời hơn 10 năm nên được tự động xóa bỏ, vì khả năng rất cao là hầu như không có dữ liệu nào trong đó còn khả dụng.”

Tuy nhiên, doanh nghiệp cũng nên xác định những cơ sở dữ liệu cần được lưu giữ càng lâu càng tốt, “chẳng hạn như dữ liệu khoa học, đặc biệt là dữ liệu khí tượng. Điều này đưa chúng ta trở lại với các hệ thống tác nhân. Khi các tác nhân tự động này đang tìm kiếm trong môi trường của bạn để thực hiện các nhiệm vụ phức tạp và tìm kiếm câu trả lời khó tìm, chúng sẽ gặp phải dữ liệu xấu và xử lý nó.

Đó là lý do tại sao việc làm sạch dữ liệu hiện nay rất cấp bách. Năm năm trước, dữ liệu xấu có thể làm chậm mọi thứ, nhưng nhiều nhân viên khó có thể truy cập và dựa vào nó. Nhưng với các tác nhân AI thì khác. Trừ khi được chỉ dẫn khác, chúng coi tất cả dữ liệu là hợp lệ.

Bạn muốn hưởng lợi từ các hệ thống AI được tăng tốc và đặc biệt là các hệ thống tự động? Tốt hơn hết bạn nên điều chuyển một nhóm người khỏi các dự án nghiệp vụ và tìm cách phát hiện và loại bỏ dữ liệu xấu trước khi tác nhân tìm thấy nó.

LTV