久久久不卡网国产精品一区_国产乱淫av一区二区三区_黄页网站大全一区二区_亚洲美女自拍视频

微軟崔宏禹:GPT-4以后,不建議再用微調進行模型適配

2023-05-27 15:57:09

5月26日,微軟(中國)有限公司創新技術總經理崔宏禹在上海舉行的向星力·未來數據技術峰會(FDTC)上回應了當下一個廣泛被提及的問題,即如何用自己的數據訓練自己的模型,將私域數據與GPT的能力相融合。

崔宏禹解答道,“一般來說,我們推薦兩種方式。一種是微調(在不改動預訓練模型的基礎上,在模型頂層增加分類器或一些特征映射,使微調后的模型能夠更貼合實際使用場景),但在GPT-4以后,我們已經不建議或者已經不讓大家使用微調的方式了。我們更推薦的是嵌入(將一個內容實體映射為低維向量,從而可以獲得內容之間的相似度)的方式。”

在會上,崔宏禹談起微軟跟OpenAI合作背后的故事,以及合作以后微軟的變化和思考邏輯。


(資料圖片)

以下為澎湃科技(www.thepaper.cn)整理的演講實錄,有刪減:

我想講一講背后的一些故事,我們為什么選擇和OpenAI合作,選擇跟OpenAI合作以后,微軟有一些什么樣的變化和思考。

大家知道微軟投了OpenAI,而且是和OpenAI獨家合作,為什么當時有這樣的決策?是因為我們已經看到這個技術對未來的產品、服務起到的加速作用。當然,這個決策過程是非常糾結的。

大家知道,微軟在2019年給了OpenAI第一筆投資,實際上在2018年,我們內部就在做要不要投OpenAI的決策,那個時候CFO(艾米·胡德)是反對的,她覺得微軟有這么多做人工智能的團隊,為什么還要去投一個初創公司,微軟自己也有團隊在做大模型,為什么還要投初創公司?當時CEO(薩提亞·納德拉)沒有辦法說服CFO向OpenAI投資,他就利用他的老關系,把GPU交給OpenAI去做測試和訓練。因為這個原因,所以才有了后面的合作。

在這個基礎之上,和OpenAI合作以后,要么“all in”,要么“走人”。為什么這么說?大家可以發現,最近微軟的產品更新換代特別快,這不是我們以前心目中對微軟產品發布的印象。比如GPT-4剛出來兩個禮拜,我們就宣布在大家最熟悉的微軟Office中加一個Copilot,背后由GPT-4模型支持。再加上前天的微軟技術大會,我們正式宣布在下一個版本的Windows中也要加入Copilot,背后也是有GPT-4的加持。也就是說,我們所有的產品都會“all in”,如果不這樣做,就“走人”。

這給了我們一個啟示,在現階段,尤其是在目前人工智能的階段,要積極地擁抱新技術,要敢于去嘗試,只有當你去嘗試的時候,才會發現中間的很多問題,才知道這個事情的關鍵在什么地方。

目前OpenAI全部的產品線和服務在微軟的公有云平臺上都有體現,為什么要這樣做?OpenAI為什么自己不能提供這些服務?

背后的邏輯是這樣的,OpenAI和微軟的合作首先要解決商業化問題。因為OpenAI是一個初創公司,專注在其產品線的開發上,但在商業領域還有很多要解決的問題,比如數據的合規性、安全性、隱私性,服務水平、解決方案的全面程度等,而OpenAI作為初創公司,它的現金流可能不放在這里,跟微軟合作恰恰能解決這些問題。最近ChatGPT在意大利被禁止使用,就是因為存在數據隱私和安全的問題。OpanAI希望通過跟微軟的合作,利用微軟在安全合規、隱私解決方案方面的能力來幫它解決。

現在有一個問題,如何用自己的數據訓練自己的模型,把私域的數據融合到GPT能力里?也就是說對特定領域的數據進行模型適配。

一般來說,我們推薦兩種方式。一種是微調(fine-tune,在不改動預訓練模型的基礎上,在模型頂層增加分類器或一些特征映射,使微調后的模型能夠更貼合實際使用場景),但在GPT-4以后,我們已經不建議或者已經不讓大家使用微調的方式了。因為我們不認為外面的一個組織、一個公司通過微調方式訓練出的模型,比這家公司自己訓練出來的能力還要好。我們更推薦的是嵌入式(embedding,將一個內容實體映射為低維向量,從而可以獲得內容之間的相似度)的方式。嵌入式方式的原理很簡單,把企業內的私有數據和文檔做向量化或矢量化(嵌入向量可以捕獲單詞、短語或文本的語義信息,使得它們可以在數學上進行比較和計算),然后去做匹配(兩個向量之間的距離用于測量它們之間的相關性,較小距離表示高相關性,較大距離表示低相關性),相似度在0.3以下就認為這個信息的檢索已經非常準確。

在大模型應用中有一個叫嵌入式應用,實際上就是Copilot,即駕駛輔助的角色。這個模型非常簡單,在底層基礎能力的加持下,在中間這層AI編排的機制下,再往上走,就可以提供一個Copilot服務,再加上插件的應用,就可以應用在現有的系統,只要有插件就可以方便地把數據接入進來,相當于在原有的系統之外構建了一個輔助駕駛。

微軟的系統為什么發展得這么快?就是利用了這套架構。當然也有插件,我們覺得OpenAI的插件系統未來會改變商業模式和游戲規則。如果你們用過微軟最新的必應搜索就可以發現,在對話過程中它可以跟網站交互獲取大量實時數據。以后必應會改變整個應用的生態和游戲規則。

在此基礎之上,我們怎么看這個世界?

第一,GPT背后,一部分是技術的加持,另一部分是人才、資源、文化。這一點說明我們離不開企業非常優秀的數據,離不開這些技術模型。但同時,我特別想強調一點,如果我們這個公司的人沒有開放的心態去擁抱新技術、擁抱新產品,那這個事情可能也做不了。ChatGPT之所以成功,它是源自于這三方面的成果。這一點,我想,對很多企業可能有一定思考價值。有了最新的技術,有了非常良好的數據,但如果企業沒有這樣的文化,可能也是有問題的。

第二,大模型要實現平民化。OpenAI就是想讓AI真正Open,讓邊際成本急劇降低。2012年以后,人工智能興起,深度學習興起,但那時候每一個SKU(最小存貨單位Stock Keeping Unit,比如銷量數據都是以SKU為單位收集,建立預測模型就要為每個SKU單獨訓練一個模型)都要單獨去做訓練,我們做了太多的項目都是這樣,成本很高。但是新的AIGC(人工智能生成內容)的模型是通用化的模型,降低再訓練的成本,實際上是把邊際成本急劇降低。只有當大家都能用的時候,才能說這是人工智能時代,如果只有少數人在用,那不叫一個時代。

微軟也是這么做的,M365(Microsoft 365,基于Microsoft Office 辦公室套件的云端辦公室方案)就是用這個方法來實現的。在原來微軟的Office加了一個Copilot,左下角有一個Graph(存儲了電子郵件、文件會議、聊天和日歷筆記等office辦公軟件集合的所有內容),相當于M365下的知識庫,通過中間的Copilot能夠迅速構建知識庫和文檔之間的合作關系。這樣可以實現,在Windows文檔中輸入幾句話,比如簡要概述一下研究報告的核心思想,就可以把報告總結成5頁PPT。等它正式上線以后,大家可以體會一下,會急劇提高生產力。

最根本來說,它就是把人不擅長的事情機器化了。我們知道人在面對自己解決不了的問題時,一定要求助于工具,生活中是這樣,IT行業也是這樣,讓人類教會機器來做人類不擅長的事情。我想引用管理學大師德魯克先生(彼得·德魯克)的一句話,動蕩時代的最大風險不是動蕩本身,而是企圖以昨天的邏輯來應對動蕩。

標簽:

關閉
新聞速遞
主站蜘蛛池模板: 激情网站五月天| 日韩福利视频| 国产精品乱子乱xxxx| 国产精品91久久| 久久在线中文字幕| 91精品在线影院| 久久人人爽人人爽人人av| 国产精品偷伦免费视频观看的| 日韩免费精品视频| 91国产精品91| 国产精品美女免费视频| 久久av高潮av| 欧美 日韩 国产 激情| 涩涩日韩在线| 91国产高清在线| 国产成人一二三区| 国产精品亚洲自拍| 国产欧美一区二区三区在线看| 两个人的视频www国产精品| 亚洲国产精品www| 91精品在线观| 俄罗斯精品一区二区| 久久国产乱子伦免费精品| 欧美一级视频一区二区| 日韩免费不卡avV| 日韩视频中文字幕| 亚州国产精品久久久| 中文字幕在线观看一区二区三区| 国产精品免费观看久久| 国产精品一区在线播放| 国产美女精品视频免费观看| 国产日韩欧美影视| 国产一区喷水v| 国产综合在线观看视频| 久久久久福利视频| 久久露脸国产精品| 精品视频导航| 久久精品久久精品国产大片| 久久精品国产免费观看| 久99久在线| 国产精品毛片a∨一区二区三区|国|