Kỹ thuật khai thác dữ liệu trong lĩnh vực tài chính, ngân hàng

Nghiên cứu - Trao đổi - Ngày đăng : 14:47, 30/11/2022

Gian lận tài chính là mối quan tâm của xã hội, do các hậu quả của nó gây ra cho nhiều đối tượng, từ cá nhân đến Chính phủ, các tổ chức và công ty thương mại tài chính. Ngày nay, sự phát triển của công nghệ đã giúp cho các giao dịch ngân hàng ngày càng đơn giản và tiện lợi. Tuy nhiên, gian lận trong lĩnh vực ngân hàng đã gia tăng khi các giao dịch trở thành phương thức thanh toán rộng rãi, từ đó nhiều giải pháp và phần mềm ngăn ngừa gian lận đã được nghiên cứu, phát triển.
Tóm tắt: Gian lận khi người dùng giao dịch với ngân hàng có thể xảy ra như trộm cắp hoặc gian lận thẻ tín dụng, chia sẻ tài khoản ngân hàng với người lạ qua Internet/điện thoại, cũng có thể bao gồm thư rác, gian lận bảo hiểm, kế toán... dẫn đến thiệt hại tài chính cho cả ngân hàng và khách hàng. Vì vậy, việc phát hiện các loại gian lận này là rất quan trọng. Bài viết đề cập đến việc phân tích các kỹ thuật khai thác dữ liệu để phát hiện và khắc phục gian lận trong lĩnh vực tài chính - ngân hàng.
Từ khóa: Khai thác dữ liệu, khu vực ngân hàng, thư rác, phát hiện gian lận, phân tích tập thể.
DATA MINING TECHNIQUES IN FINANCE AND BANKING SECTOR
Abstract: Fraud, when a user transacts with a bank, can occur such as theft or credit card fraud, sharing bank accounts with strangers over the Internet or over the phone, may also include spam, insurance and accounting fraud... resulting in financial loss for both the bank and the customer. Therefore, detecting these types of fraud is very important. The article focuses on the analysis of data mining techniques to detect and handle fraud in the banking and finance sector.
Keywords: Data mining, banking sector, spamming, fraud detection, collective analysis.
1. Mở đầu
Gian lận tài chính là mối quan tâm của xã hội, do các hậu quả của nó gây ra cho nhiều đối tượng, từ cá nhân đến Chính phủ, các tổ chức và công ty thương mại tài chính. Ngày nay, sự phát triển của công nghệ đã giúp cho các giao dịch ngân hàng ngày càng đơn giản và tiện lợi. Tuy nhiên, gian lận trong lĩnh vực ngân hàng đã gia tăng khi các giao dịch trở thành phương thức thanh toán rộng rãi, từ đó nhiều giải pháp và phần mềm ngăn ngừa gian lận đã được nghiên cứu, phát triển. Để tìm ra các bằng chứng gian lận dữ liệu, chúng ta có thể sử dụng các thuật toán học máy, học sâu... Kỹ thuật khai thác dữ liệu là một trong những phương pháp đáng chú ý, được sử dụng phổ biến để phát hiện lừa đảo trong lĩnh vực ngân hàng, giúp mở rộng và phân tích toàn bộ thông tin.
Giải pháp được thực hiện là sự kết hợp tất cả các điểm mạnh về sự an toàn của máy chủ xác thực với tính logic, độ chính xác của hệ thống phát hiện gian lận để hạn chế rủi ro và giúp khách hàng hài lòng về dịch vụ. Kỹ thuật khai phá dữ liệu chỉ ra các mối quan hệ, liên kết thông tin và tiến hành tìm kiếm tất cả các thuộc tính của dữ liệu được kiểm tra. 
Có hai quy trình mà thông qua đó, các mô hình gian lận có thể được phát hiện nhờ sự trợ giúp của khai thác dữ liệu: (i) Ngân hàng tiếp cận các kho tài liệu khác nhau chứa thông tin giao dịch và triển khai các mã khai thác dữ liệu của mình để xác định các gian lận (có thể tham khảo các mẫu này với tệp thông tin của mình về cách thức gian lận diễn ra, sau đó xác định mức độ nguy hại); (ii) Việc xác định hình thức gian lận được thực hiện trên thông tin cá nhân của chính các ngân hàng.
Khai thác dữ liệu không chỉ là yếu tố duy nhất tạo điều kiện cho hệ thống ngân hàng có được khách hàng mới, mà còn có thể giữ chân khách hàng hiện tại của mình. Sự tiếp cận và chú ý của khách hàng là những vấn đề quan trọng đối với bất kỳ doanh nghiệp nào, đặc biệt là lĩnh vực tài chính - ngân hàng. Nếu nhân viên ngân hàng không cho khách hàng nhận biết thông tin đầy đủ về sự tin cậy, thì họ sẽ tìm kiếm ngân hàng khác thay thế. Khai thác dữ liệu được sử dụng tạo điều kiện thuận lợi để hấp dẫn khách hàng mới cho tất cả dịch vụ cũng như trong việc tìm kiếm hoặc khám phá các mô hình giữ chân người dùng cũ bằng cách cung cấp các tùy chỉnh theo yêu cầu.
Khai thác dữ liệu quản lý rủi ro cũng được sử dụng trong hệ thống khi các nhân viên muốn tìm hiểu khách hàng mà họ đang giao dịch có đáng tin cậy hay không. Cung cấp thẻ tín dụng và tài khoản cho khách hàng mới, mở thêm hạn mức tín dụng và cho vay có thể là một quyết định nguy hiểm và khó khăn đối với ngành Ngân hàng nếu họ không có thông tin xác thực chi tiết. Khai thác dữ liệu được sử dụng để giảm thiểu nguy cơ rủi ro bằng cách lọc những khách hàng thuộc danh sách đen (nợ xấu, trốn thuế, khai khống tài sản...), kiểm tra các giao dịch của người dùng để tính toán khách hàng tiềm năng, xác định khoản vay cho phép, xếp hạng tín dụng...
2. Kỹ thuật khai thác dữ liệu được sử dụng để phát hiện gian lận trong ngành Ngân hàng
Có nhiều kỹ thuật khai thác dữ liệu và hầu hết được sử dụng trong các dự án phân tích khai thác dữ liệu. Trong số các kỹ thuật được phát triển này bao gồm phân loại, phân cụm, liên kết, dự đoán và các mẫu tuần tự.
2.1. Phân loại 
Phân loại là kỹ thuật khai thác điển hình, giúp lấy thông tin quan trọng về dữ liệu. Cách tiếp cận phân loại dựa trên mạng thần kinh nhân tạo. Phân loại liên quan đến các phương pháp học máy, dữ liệu đào tạo được phân tích bằng cách các thuật toán khai phá dữ liệu. Độ chính xác của quy tắc phân loại có thể được xác định bằng cách xác thực thông tin. Các bộ dữ liệu mới sẽ được sử dụng cho các nguyên tắc nếu độ chính xác của phân loại phù hợp theo yêu cầu, bao gồm hồ sơ đầy đủ của từng hoạt động gian lận hoặc hợp lệ.
Thuật toán đào tạo quá trình phân loại sử dụng từ các thông tin đã lọc trước để tìm ra tập hợp các tham số cần thiết và phân biệt chính xác. Các tham số này sau đó được mã hóa thành một bộ mô hình phân loại mẫu, chúng tiếp tục được bổ sung và đào tạo thêm khi có dữ liệu mới cập nhật. Có nhiều loại mô hình phân loại như:
- Phân loại theo cây quyết định (Decision tree): Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo (Predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (Internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như nhị phân (Binary), định danh (Nominal), thứ tự (Ordinal), số lượng (Quantitative), trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là nhị phân hoặc thứ tự. Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ liệu chưa biết.
- Phân loại Naive Bayes: Naive Bayes là một thuật toán phân loại cho các vấn đề nhị phân (hai lớp) và đa lớp. Kỹ thuật này dễ hiểu nhất khi được mô tả bằng các giá trị đầu vào nhị phân hoặc phân loại. Thuật toán Naive Bayes tính xác suất cho các yếu tố, sau đó chọn kết quả với xác suất cao nhất.
- Mạng thần kinh nhân tạo (Neural Network): Là chuỗi những thuật toán được đưa ra để hỗ trợ tìm kiếm những mối quan hệ cơ bản của một tập hợp dữ liệu dựa vào việc bắt chước cách thức hoạt động từ não bộ con người. Mạng thần kinh nhân tạo có khả năng thích ứng được với mọi thay đổi từ đầu vào. Do vậy, nó có thể đưa ra được mọi kết quả một cách tốt nhất có thể mà không cần phải thiết kế lại những tiêu chí đầu ra. Trong lĩnh vực tài chính, mạng thần kinh nhân tạo hỗ trợ cho quá trình phát triển các quy trình như: Giao dịch thuật toán, dự báo chuỗi thời gian, phân loại chứng khoán, mô hình rủi ro tín dụng, xây dựng chỉ báo độc quyền và công cụ phát sinh giá cả...
- Máy Vector hỗ trợ (Support Vector Machine - SVM): Là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó, SVM là một thuật toán phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó. Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể. Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới.
- Phân loại dựa trên các liên kết (Classification Based on Associations - CBA): Là một nhánh trong khai phá dữ liệu sử dụng các phương pháp khám phá quy tắc kết hợp trong các bài toán phân loại.  
2.2. Phân cụm
Việc xác định loại đối tượng khó phân biệt được thường được gọi là phân cụm. Trong quá trình phân cụm, tất cả các giao dịch ngân hàng khác nhau được nhóm lại thành một cụm. Có thể nói rằng phương pháp xử lý trước để phân loại và lựa chọn tập thuộc tính được sử dụng trong phân cụm. Từ các thông tin này, ngân hàng có thể thuận lợi để bán chéo các sản phẩm, thay vì tập trung vào một dịch vụ cụ thể. Các nhân viên ngân hàng thường được trang bị hồ sơ khách hàng được cung cấp bởi khai thác dữ liệu để giúp họ dễ dàng biết rằng sản phẩm và dịch vụ nào áp dụng phù hợp nhất cho người dùng. Các phương pháp phân cụm thường dùng là:
- Phương pháp phân vùng (Partitioning methods): Trong phương pháp này khi cơ sở dữ liệu chứa nhiều đối tượng thì nó sẽ xây dựng các phân vùng dữ liệu do người dùng chỉ định trong đó mỗi phân vùng đại diện cho một cụm và một vùng cụ thể. Có nhiều thuật toán theo phương pháp này, phổ biến là K-Mean, PAM (K-Mediods), thuật toán CLARA (Clustering Large Applications),...
- Phương pháp phân cấp (Hierarchical methods): Yêu cầu xác định trước thước đo về sự khác biệt giữa các cụm (không giao nhau), dựa trên sự khác biệt từng cặp giữa hai cụm. Theo phương pháp này, chúng tạo ra những biểu diễn phân cấp trong đó các cụm ở mỗi cấp hệ thống được tạo bằng cách hợp nhất các cụm ở cấp độ thấp hơn bên dưới. Ở cấp thấp nhất, mỗi cụm chứa một quan sát. Ở cấp cao nhất, chỉ có một cụm chứa tất cả dữ liệu.
- Phương pháp dựa trên mật độ (Density based methods): Kỹ thuật này này đề cập đến các phương pháp học không giám sát nhằm xác định các cụm phân biệt trong phân phối của dữ liệu, dựa trên ý tưởng rằng một cụm trong không gian dữ liệu là một vùng có mật độ điểm cao được ngăn cách với các cụm khác bằng các vùng liền kề có mật độ điểm thấp.
- Các phương pháp dựa trên lưới (Grid-based methods): Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian. Mục tiêu là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới. Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu. Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô.
- Các phương pháp dựa trên mô hình (Model-based methods): Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất. Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch.
2.3. Dự đoán
Kỹ thuật này giúp xác định mối quan hệ giữa các biến phụ thuộc và độc lập, nó được sử dụng để phân tích hồi quy. Kỹ thuật phân tích này được sử dụng trong các ngân hàng chủ yếu để xác định và dự đoán các gian lận, các mối đe dọa trong hệ thống tài chính. Tài sản được coi là một biến độc lập trong khi đối tượng lừa đảo là biến phụ thuộc. Sau đó, trên cơ sở dữ liệu được khai thác từ lịch sử trước đây, một đường cong hồi quy phù hợp có thể được vẽ để dự đoán gian lận đang cố gắng thực hiện. Trong khai thác dữ liệu, các biến phản hồi cần được dự đoán trước tiên và các biến độc lập đã được xác định rõ. Tuy nhiên trong thực tế dường như không thể dự đoán được mọi thứ một cách dễ dàng, nên tùy từng trường hợp để có thể phân tích, ước lượng và tính xác suất dự đoán. Có nhiều loại phương pháp hồi quy khác nhau được sử dụng như:
- Hồi quy tuyến tính (Linear Regression): Là một phương pháp thống kê để hồi quy dữ liệu với biến phụ thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị liên tục hoặc là gián đoạn. Nó có thể được sử dụng cho các trường hợp muốn dự đoán một số lượng liên tục. Ví dụ, dự đoán lượng khách hàng giao dịch với ngân hàng ở một quầy tiếp dân, dự đoán thời gian người dùng đang ở một trang web của ngân hàng hoặc các web ngân hàng khác...
- Hồi quy tuyến tính đa biến (Multivariate Linear Regression): Hồi quy đa biến là một phần mở rộng của hồi quy tuyến tính, được sử dụng khi muốn dự đoán giá trị của một biến dựa trên giá trị của hai hoặc nhiều biến khác. Biến muốn dự đoán được gọi là biến phụ thuộc (hoặc đôi khi, biến kết quả, mục tiêu hoặc biến tiêu chí). Các biến đang sử dụng để dự đoán giá trị của biến phụ thuộc được gọi là biến độc lập. Hồi quy đa biến cũng cho phép bạn xác định mức độ đóng góp nhiều, ít, không đóng góp... của từng nhân tố vào sự thay đổi của biến phụ thuộc. Ví dụ: Thu nhập, địa điểm sinh sống và số thành viên trong gia đình ảnh hưởng đến chi tiêu thì biến độc lập là: Thu nhập, địa điểm, số thành viên còn biến phụ thuộc là chi tiêu.
- Hồi quy phi tuyến (Non-Linear Regression): Trong thống kê, hồi quy phi tuyến tính là một dạng phân tích hồi quy trong đó dữ liệu quan sát được mô hình hóa bằng một hàm là một sự kết hợp phi tuyến tính của các tham số mô hình và phụ thuộc vào một hay nhiều biến độc lập. Dữ liệu được khớp bởi một phương pháp xấp xỉ liên tiếp (xấp xỉ nối tiếp).
- Hồi quy phi tuyến đa biến (Multivariate Non-Linear Regression): Tương tự như kỹ thuật hồi quy phi tuyến trong đó số lượng các biến lớn hơn hoặc bằng 02.
2.4. Quy tắc kết hợp 
Trong kỹ thuật khai phá dữ liệu sử dụng quy tắc kết hợp, trọng tâm chính là tìm ra các tập hợp các biến nhị phân phổ biến trong cơ sở dữ liệu giao dịch và xác định các nhóm có liên quan với nhau với biến mục tiêu. Trong kỹ thuật khai thác dữ liệu này, các câu lệnh if/then (nếu/thì) được sử dụng, giúp tìm ra mối liên hệ giữa các biến độc lập trong cơ sở dữ liệu so sánh hoặc vùng lưu trữ dữ liệu khác nhau. Ví dụ: Nếu khách mở tài khoản, thì 80% khả năng họ cũng sẽ đăng ký Internet Banking. Quy tắc kết hợp có thể sử dụng một số loại sau:
- Quy tắc kết hợp đa cấp (Multilevel association rule): Các quy tắc được tạo ra từ thông tin khai thác ở các mức độ phản ánh khác nhau. Các quy tắc kết hợp đa cấp có thể được khai thác một cách hiệu quả bằng cách sử dụng các tiến trình trong một hệ thống chắc chắn có hỗ trợ. Các quy tắc ở cấp độ cao có thể tăng thêm khả năng phán đoán tốt.
- Quy tắc kết hợp đa chiều (Multidimensional association rule): Luật này liên quan đến các phần tử/thuộc tính của nhiều hơn một chiều.
- Quy tắc kết hợp định lượng (Quantitative association rule): Bao gồm một tập hợp các thuộc tính số và phân loại.
2.5. Các mẫu tuần tự (Sequential Patterns)
Kỹ thuật này là một chủ đề khai phá dữ liệu liên quan đến việc tìm kiếm các mẫu có liên quan về mặt thống kê giữa các dữ liệu trong đó các giá trị được phân phối theo một trình tự. Các giá trị là rời rạc và do đó khai thác theo chuỗi thời gian có liên quan chặt chẽ với nhau. Khai phá mẫu tuần tự là một trường hợp đặc biệt của khai thác dữ liệu có cấu trúc. Kỹ thuật này bao gồm xây dựng cơ sở dữ liệu và chỉ mục hiệu quả cho thông tin trình tự, trích xuất các mẫu thường xuyên xảy ra, so sánh các trình tự để tìm sự giống nhau và khôi phục các trình tự bị thiếu.
Kỹ thuật này được sử dụng để tìm thấy các mẫu tương tự hoặc các mẫu đồng nhất trong các giao dịch tại một thời điểm, giúp xác định hành vi của người dùng. Với sự đa dạng của các sản phẩm và thói quen của khách hàng, giới thiệu các dịch vụ là một trong những chiến lược quan trọng. Các ngân hàng có thể tăng lợi nhuận, giảm chi phí bằng cách quản lý hợp lý việc phân bổ loại hình sản phẩm.
3. Kết luận
Kỹ thuật khai thác dữ liệu đóng vai trò quan trọng trong việc thay đổi và ra quyết định trong lĩnh vực tài chính - ngân hàng. Từ các cơ sở khác nhau, họ tổng hợp thông tin và lưu trữ ở dạng phù hợp để việc khai thác dữ liệu có thể được thực hiện. Trong lĩnh vực ngân hàng, các kỹ thuật khai thác dữ liệu giúp ích rất nhiều trong việc nhắm mục tiêu, hấp dẫn người dùng mới, phát hiện, can thiệp và xử lý gian lận trong thời gian thực, cung cấp hàng hóa chủ lực theo giai đoạn, quản lý rủi ro, phân tích khách hàng... Khai thác dữ liệu hoạt động để cung cấp cho các ngân hàng sự bảo mật, an toàn thông tin, nâng cao các tùy chọn, đưa ra quyết định đúng vào thời điểm chính xác. Nó tìm và nạp mẫu quan trọng từ dữ liệu lớn (Big Data) giúp cải thiện chất lượng của cơ sở dữ liệu, góp phần quan trọng trong quy trình chuyển đổi số cho ngành tài chính - ngân hàng.

Tài liệu tham khảo:
1. “Data Mining Techniques and its Applications in Banking Sector” Dr. K. Chitra, B. Subashini - International Journal of Emerging Technology and Advanced Engineering.
2. “Data Mining Techniques and Their Implementation in Blood Bank Sector” Ankit Bhardwaj, Arvind Ssharma, V. K. Shrivastava/International Journal of Engineering Research and Applications.
3. “Real-time Fraud Detection In The Banking Sector Using Data Mining Techniques/Algorithms” S. N. John Department of Electrical and Information Engineering Covenant University, Ota, Ogun State, Nigeria.
4. “Use of Data Mining in Banking” Kazi Imran Moin, Dr. Qazi Baseer Ahmed - International Journal of Engineering Research and Applications.
5. Fraud Detection in the Banking Sector,K. Chitra, B.Subashini -Proceedings of National Level Seminar on Globalization and its Emerging Trends.
ThS. Trần Thu Phương
Trường Đại học Bách Khoa Hà Nội

ThS. Trần Thu Phương/Trường Đại học Bách Khoa Hà Nội