合成數據於Chase銀行的金融應用

紫式晦澀每日一篇文章第12天

前言

合成數據的背景: J.P. Morgan AI Research 生成合成數據集，以加速金融服務領域的研究和模型開發。要使 AI 模型有效地展示業務場景中的人類行為，它們需要接受大量代表現實的數據的訓練。金融服務行業會產生大量可能非常有益的數據，但這些數據通常無法使用。這對研究人員和開發人員提出了根本性挑戰。
真實數據的限制: 真實數據在許多方面可能難以訪問，包括隱私、法律許可以及與數量、表示和含義相關的技術方面。

如何實現依賴數據的新產品和服務的創新和構建?

一個答案是使用合成數據!

合成數據優點一: 替代真實數據, 但共享格式與分佈: 可以與真實數據共享格式、分佈和標準化內容，同時不會產生使用真實數據的風險。
合成數據優點二: 增加AI算法穩健性, 因可探索歷史數據外的場景:合成數據可能具有額外的好處，即代表歷史數據之外的探索性場景，以準備 AI 算法並支持在新情況下的決策。因此，合成數據使我們能夠更加穩健地應對具有挑戰性的情況。
合成數據優點三: 增加罕見示例, 更有效訓練ML算法:合成數據可以增加真實數據中可能很少見的示例，以便更有效地訓練機器學習算法。
合成數據優點四: 生成測試場景, 快速驗證新想法效果:最終，如果一個新想法在合成數據上顯示出前景，我們可以考慮將其推進實際部署並在真實數據上使用。

不同數據類型, 不同合成方法: 通過研究，摩根大通的人工智能研究團隊確定了幾種創建合成數據的方法，並了解到不同的方法可能適用於不同類型的數據。
方法一: 真實數據生成模式建模(Generative Modeling): 我們可以通過了解生成真實數據的過程來創建真實的合成數據，然後對過程本身進行建模以生成合成數據。該模型可以是聲明性(declarative)的或在模擬中捕獲(captured in simulations)。
方法二: 真實數據深度神經網路學習: 直接使用真實數據來訓練生成神經網絡（GNN），它已成功用於生成各種其他合成數據。

合成數據為 AI 模型提供了正常(normal transactions)和欺詐交易(fraudulent transactions)的示例，以了解可疑交易模式(suspicious transaction patterns)。
由於與非欺詐案件相比，欺詐案件的數量非常少，因此建模方法難以從可用數據中有效地訓練關於欺詐行為的模型。

合成數據: 本質上模擬用戶與公司的互動: 該公司人工智能研究主管 Manuela Veloso 回顧了該團隊在零售銀行業務中啟用的合成數據功能。 “例如，合成數據生成讓我們能夠思考客戶開戶和申請貸款的整個生命週期。我們不只是檢查數據以了解人們在做什麼，而且我們還能夠分析他們與公司的互動，並從本質上模擬整個過程。”
合成數據的工作延伸: 該團隊的合成數據工作已經發展。自 2 月份提供其合成數據集以來，該團隊已經收到了許多對這些功能的請求。此外，該公司在斯坦福大學、康奈爾大學、CMU、布法羅大學、紐約大學和其他大學的教師研究獲獎者正在利用數據集開發算法，以解決欺詐和洗錢、客戶旅程、市場執行和金融領域的其他領域。
合成數據: 強監管產業的新研究範式:AI Research 執行董事 Rob Tillman 總結了其合成數據所面臨的挑戰及其優勢。 “在金融等處理敏感數據的高度監管行業中，通常存在重大障礙，阻礙或延遲研究人員和開發人員使用數據開發人工智能解決方案以改善體驗或解決欺詐檢測和反欺詐等重要問題的能力。洗錢。該團隊的合成數據工作旨在解決這個問題，加速摩根大通人工智能解決方案的開發，並促進與學術界的合作。”

到此翻譯思考了Synthetic Data for Real Insights 大部分的內容. 首先合成數據作為大數據時代隱私保護解決方案, 希望能替代真實數據的使用, 成為新時代的可再生能源. 訓練方法上, 可以執行「生成模式建模」或「深度神經網路學習」. 使用的場景主要是詐欺偵測與異常偵測. 對於金融業界而言, 合成數據能夠模擬用戶與公司的互動, 有望成為強監管產業的新研究範式.
閱讀翻譯過這篇文章以後, 感覺AI for Finance是一個很好研究AI知識如何落地的很好的場景. 聯想到今天聽到的元宇宙是AI科技落地的一大場景, 感覺五年十年會有許多新的商業模式可以出來. 非常有趣.
每天加強自己的coding能力, 將思維從科學轉為工程, 是解決自己時代問題的負責任的態度！主動實踐, 創造個人經驗, 推動時代, 共勉之！

2022.01.10. 紫蕊於西拉法葉, 印第安納, 美國.