合成數據於Chase銀行的金融應用
紫式晦澀每日一篇文章第12天
前言
-
今天是2022年第10天, 全年第2週, 一月的第二個週一. 今天來累積金融應用的各種術語知識.
-
今天的素材主要來自Chase銀行的技術部落格 Synthetic Data for Real Insights 中, 翻譯內文, 閱讀思考的紀錄.
合成數據: 作為大數據時代隱私保護解決方案
-
合成數據的背景: J.P. Morgan AI Research 生成合成數據集,以加速金融服務領域的研究和模型開發。要使 AI 模型有效地展示業務場景中的人類行為,它們需要接受大量代表現實的數據的訓練。 金融服務行業會產生大量可能非常有益的數據,但這些數據通常無法使用。 這對研究人員和開發人員提出了根本性挑戰。
-
真實數據的限制: 真實數據在許多方面可能難以訪問,包括隱私、法律許可以及與數量、表示和含義相關的技術方面。
如何實現依賴數據的新產品和服務的創新和構建?
一個答案是使用合成數據!
-
合成數據優點一: 替代真實數據, 但共享格式與分佈: 可以與真實數據共享格式、分佈和標準化內容,同時不會產生使用真實數據的風險。
-
合成數據優點二: 增加AI算法穩健性, 因可探索歷史數據外的場景:合成數據可能具有額外的好處,即代表歷史數據之外的探索性場景,以準備 AI 算法並支持在新情況下的決策。 因此,合成數據使我們能夠更加穩健地應對具有挑戰性的情況。
-
合成數據優點三: 增加罕見示例, 更有效訓練ML算法:合成數據可以增加真實數據中可能很少見的示例,以便更有效地訓練機器學習算法。
-
合成數據優點四: 生成測試場景, 快速驗證新想法效果:最終,如果一個新想法在合成數據上顯示出前景,我們可以考慮將其推進實際部署並在真實數據上使用。
訓練方法: 真實數據的「生成模式建模」或「深度神經網路學習」
-
不同數據類型, 不同合成方法: 通過研究,摩根大通的人工智能研究團隊確定了幾種創建合成數據的方法,並了解到不同的方法可能適用於不同類型的數據。
-
方法一: 真實數據生成模式建模(Generative Modeling): 我們可以通過了解生成真實數據的過程來創建真實的合成數據,然後對過程本身進行建模以生成合成數據。該模型可以是聲明性(declarative)的或在模擬中捕獲(captured in simulations)。
-
方法二: 真實數據深度神經網路學習: 直接使用真實數據來訓練生成神經網絡(GNN),它已成功用於生成各種其他合成數據。
場景洞察: 詐欺檢測, 異常偵測, 反洗錢, 客戶旅程, 市場執行
-
合成數據提供新洞察: 合成的新樣本具有真實數據的屬性,但無法映射回真實數據。新樣本提供了對可能未被發現的數據的洞察。
-
關鍵場景一:欺詐檢測(fraud detection)模型訓練:
- 合成數據為 AI 模型提供了正常(normal transactions)和欺詐交易(fraudulent transactions)的示例,以了解可疑交易模式(suspicious transaction patterns)。
- 由於與非欺詐案件相比,欺詐案件的數量非常少,因此建模方法難以從可用數據中有效地訓練關於欺詐行為的模型。
- 關鍵場景二:異常行為(anomalous behavior)模型訓練:
- 成數據可用於訓練異常行為(anomalous behavior)模型。
- 該過程使不符合預期行為的交易比例更高,從而生成更多欺詐案例的合成樣本,以改進模型訓練。
-
關鍵場景三:反洗錢 (Anti0money laundering) 行為
-
關鍵場景四:客戶旅程(Customer journey)事件
-
關鍵場景五:市場執行(Markets execution)數據
-
關鍵場景六:用於欺詐檢測的支付數據(Payments data)
研究社群: 用戶公司互動模擬, 強監管產業的新研究範式
-
合成數據: 本質上模擬用戶與公司的互動: 該公司人工智能研究主管 Manuela Veloso 回顧了該團隊在零售銀行業務中啟用的合成數據功能。 “例如,合成數據生成讓我們能夠思考客戶開戶和申請貸款的整個生命週期。我們不只是檢查數據以了解人們在做什麼,而且我們還能夠分析他們與公司的互動,並從本質上模擬整個過程。”
-
合成數據的工作延伸: 該團隊的合成數據工作已經發展。自 2 月份提供其合成數據集以來,該團隊已經收到了許多對這些功能的請求。此外,該公司在斯坦福大學、康奈爾大學、CMU、布法羅大學、紐約大學和其他大學的教師研究獲獎者 正在利用數據集開發算法,以解決欺詐和洗錢、客戶旅程、市場執行和金融領域的其他領域。
-
合成數據: 強監管產業的新研究範式:AI Research 執行董事 Rob Tillman 總結了其合成數據所面臨的挑戰及其優勢。 “在金融等處理敏感數據的高度監管行業中,通常存在重大障礙,阻礙或延遲研究人員和開發人員使用數據開發人工智能解決方案以改善體驗或解決欺詐檢測和反欺詐等重要問題的能力。洗錢。該團隊的合成數據工作旨在解決這個問題,加速摩根大通人工智能解決方案的開發,並促進與學術界的合作。”
後記
-
到此翻譯思考了Synthetic Data for Real Insights 大部分的內容. 首先合成數據作為大數據時代隱私保護解決方案, 希望能替代真實數據的使用, 成為新時代的可再生能源. 訓練方法上, 可以執行「生成模式建模」或「深度神經網路學習」. 使用的場景主要是詐欺偵測與異常偵測. 對於金融業界而言, 合成數據能夠模擬用戶與公司的互動, 有望成為強監管產業的新研究範式.
-
閱讀翻譯過這篇文章以後, 感覺AI for Finance是一個很好研究AI知識如何落地的很好的場景. 聯想到今天聽到的元宇宙是AI科技落地的一大場景, 感覺五年十年會有許多新的商業模式可以出來. 非常有趣.
-
每天加強自己的coding能力, 將思維從科學轉為工程, 是解決自己時代問題的負責任的態度!主動實踐, 創造個人經驗, 推動時代, 共勉之!
2022.01.10. 紫蕊 於 西拉法葉, 印第安納, 美國.
評論