21世紀經濟報道記者 陳植 上海報道
【資料圖】
AI大模型技術正應用在越來越多金融場景。
僅僅在投研提效領域,多個大模型產品悄然面世。
近日,恒生聚源推出基于大模型技術的投研工具平臺WarrenQ,致力于重新賦能“搜、讀、算、寫”的投研全流程場景,進一步提升投研效率。
與此同時,多家金融科技平臺也推出基于大模型的投研提效工具,即在通用大模型基礎上引入指令微調或提示工程,自動生成各類報告與圖表摘要,提升投研人員的信息獲取效率。
一位券商投研人員向記者透露,目前他們正在測試多款大模型投研工具的性能。
“整體而言,這類產品若要顯著提升投研效率,還需解決諸多實際操作瓶頸,比如大模型技術自動生成的信息是否具有即時性、能否做到信息溯源、是否支持二次編輯與多人協同工作,能否一鍵快速分享等?!彼嬖V記者。盡管當前大模型投研工具的技術路徑不一,但他們通過測試發現,具備自主龐大數據庫與良好大模型訓練成效的相關工具更受歡迎,因為它不但精準快速解決投研人員的個性化信息收集檢索要求,還能方便投研人員輕松進行內容加工,進而大幅提升投研效率。
恒生電子董事長劉曙峰向記者表示,盡管大模型技術帶來“語控萬物”、“大才能強”等變化,但在金融垂直領域,其應用仍面臨知識信息時效性、數據安全與隱私保護、具體應用支持等方面的局限。因此,金融行業需建設行業大模型以承接垂直領域的特定需求。
“未來,金融行業大模型能落地的場景非常多,除了投研,還有投顧、客服、運營、合規、交易等。但它的應用難點在于協同,特別是數據協同,各種數據如何打通,將是非常具體且困難的問題?!彼赋?。因此,金融機構要部署應用大模型,需從選模型、估規模、建場景三大步驟入手,構建金融行業大模型與基于大模型的全新數智產品,為金融行業應用大模型提供新范式。
AI大模型技術正悄然“改變”投研生態。
有機構調研顯示,在投研領域,眾多金融機構面臨諸多痛點瓶頸——60%分析師遇到數據碎片、數據孤島、投研工具繁雜等困擾;50%基金經理遇到信息爆炸、重點信息不突出等挑戰;80% 金融機構管理層感到研究團隊不透明,知識沉淀難等問題。
于是,越來越多金融科技平臺寄希望大模型技術破解這些投研痛點瓶頸。
當前,大模型投研工具主要分成兩類,一是在現有通用大模型GPT4.0基礎上直接引入“提示工程”與“指令微調”,以此自動生成上市公司公告財報要點信息與行業報告核心內容,提升投研人員信息獲取效率;二是“從頭做起”——將自身數據庫通過大模型技術進行大量預訓練,再引入指令精調與提示工程技術,讓自動生成的內容能進一步滿足投研人員的個性化信息檢索收集需求。
記者多方了解到,投研人員最擔憂大模型投研工具會產生兩大問題,一是一本正經地“胡說八道”,二是自動生成的相關內容明顯“過時”,無法滿足投研建模要求。
要解決上述兩大問題,絕非易事。
恒生聚源副總經理白雪告訴記者,為了滿足數據即時性要求,WarrenQ在數據層與模型層的基礎上,加入涵蓋NL2SQL、搜索接口、指標計算、向量數據庫等插件層,確保大模型產品能即時調用最新的數據以反映最新的金融市場動態與行業變化趨勢等。
記者獲悉,要防止大模型“一本正經地胡說八道”,金融科技機構還需開展大量預訓練與指令微調。比如在預訓練環節,大模型時常會“自由發揮”,自動生成很多“天馬行空式”的內容信息,于是開發人員通過不斷調整指令與反復預訓練,教會大模型如何正確識別提問語義與自動生成相應的專業精確回答,確保大模型能不再“答非所問”。
此外,大模型投研工具能否具備“實用性”,還在于它是否具備支持查看原文、研報圖表抽取、OCR識別、支持二次編輯、文檔信息挖掘等功能。
白雪告訴記者,針對投研環節的數據分析與智能處理實際需求,WarrenQ推出了兩款AI工具,分別是WarrenQ-Chat和ChatMiner。前者主要借助大模型疊加搜索與恒生聚源金融數據庫,通過對話指令,幫助投研人員高效獲取金融行情、資訊和數據,且每一句自動生成的對話都支持原文溯源,還可以生成金融專業報表,從而將傳統投研的“搜讀算寫”流程轉變成“Chat讀算寫”,提升投研人員的信息獲取效率;后者則主要發揮金融文檔挖掘器功能——即大模型和向量數據庫會根據投研人員個性化需求,對相關文檔進行快速解讀與精準檢索定位,自動生成提取關鍵信息,提升投研人員對海量文本數據的整合歸納提煉效率。
一位正研發大模型投研工具的金融科技平臺人士向記者直言,其研發難度遠遠超過預期。僅在數據庫建設、大模型技術選用、大模型預訓練等方面,企業都走過不少彎路,
“這背后,是金融科技平臺需全方位比拼數據、算力與算法。只有數據庫越全越龐大、算力更強、算法模型更高效的大模型投研工具才有望脫穎而出?!彼毖?。
在白雪看來,大模型時代的產品化服務與落地,可以持續做好三件事:一是加強數據獲取的精準性、數據更新的即時性;二是提升大模型及其精準的意圖識別能力,做到自然語言到數據、自然語言到指令的精確映射,即“語控萬數”、“語控萬物”;三是用好向量數據庫,將私域知識庫與大模型結合起來做好產品與服務。
在多位業內人士看來,AI大模型技術能否成功應用在投研、投顧、客服、運營、合規、交易等金融場景,另一個關鍵成敗因素是金融科技平臺能否構建專業的金融行業大模型。
一位奇富科技人士指出,金融行業因其行業特殊性,對訓練數據質量、模型生成效果、數據安全合規等方面有著更高要求。首先,金融行業大模型需全面掌握金融專業術語,理解客戶意圖,在與客戶對話過程能精確提取線索(即客戶想了解的信息),并給出兼顧專業性與合規性的應答;其次,金融行業大模型必須在準確性和適用性兩個方面做到極致,因為在金融領域,大模型自動生成的內容是不能出現“任何錯誤”的。
在他看來,要實現上述要求,金融科技平臺需向金融行業大模型注入足夠全面龐大的數據進行反復預訓練,才能實現“回答精確”與“話術合規”。
“公司在信貸領域所積累的逾5000萬份征信報告及解讀、月均逾350萬的用戶深度對話,以及涵蓋900多個行業、逾3000個標簽屬性的逾1600萬家企業金融行為數據,加之所衍生的知識圖譜與專業知識,都被納入金融行業大模型的數據基礎?!边@位奇富科技人士向記者直言。
恒生電子首席科學家白碩告訴記者,金融行業大模型的研發,的確離不開龐大的金融數據支撐。恒生電子所打造的金融行業大模型LightGPT已使用逾4000億tokens的金融領域數據(包括資訊、公告、研報、結構化數據等)、以及逾400億tokens的語種強化數據(包括金融教材、金融百科、政府報告、法規條例等),并以此作為大模型二次預訓練的“語料”,支持逾80項金融專屬任務指令微調,進一步提升金融行業大模型的準確理解能力。
白雪告訴記者,大模型投研工具的研發成敗,很大程度取決于“語料”的豐富度與專業性。因為投研人員都希望自動生成的內容信息能盡可能多地涵蓋當前市場各種動態與觀點,這都需要金融科技平臺不斷向大模型注入最新的各類精準的金融語料,并實時鏈接映射到數據庫,令大模型投研工具自動生成的內容能最大限度“與時俱進”。
值得注意的是,一個行之有效的金融行業大模型光有龐大專業的數據庫是不夠的——除了與之配套的算力算法等金融基礎設施,它還需解決諸多挑戰,包括能否做到輕量化部署、能否在金融專業問答、邏輯推理、超長文本處理能力、多模態交互能力、代碼能力等金融大模型能力評測領域取得不俗表現,并保證內容和指令的合規安全等。
上述金融科技平臺人士向記者透露,這令眾多金融機構倍感壓力——若在傳統AI模型基礎上研發金融行業大模型,幾乎是很難完成的任務。因為傳統AI模型與大模型技術在數據、模型、模型開發方式、業務應用、適用場景及成本等方面完全“不同”——相比傳統AI模型的作坊式操作、研發周期長、通用性低等特點,大模型技術開創性地提出預訓練模式,以流水線的模型開發方式可泛化多應用場景,實現高通用性。
“兩者截然不同的特點,預示著金融機構需要持續投入大量資金資源,持續強化金融行業大模型的預訓練成效,才能令它更精準高效地匹配投研、投顧、客服、運營、合規、交易等金融場景各類業務需求?!彼毖?。
白碩告訴記者,目前LightGPT計劃在9月底完成新一輪的金融能力升級,并支持金融機構通過私域任務數據定制化“精調”大模型,從而打造機構專屬的大模型,滿足個性化需求。
在劉曙峰看來,在大模型時代,“數據+算法+算力”正構成新范式的基本要素。金融行業更需促進大模型產業上下游合作,為金融數智化提供更強有力的技術支撐。
標簽: