每日經(jīng)濟新聞 2023-07-28 13:03:12
每經(jīng)記者 可楊 每經(jīng)編輯 文多
7月27日,海天瑞聲宣布正式推出「中文千萬輪對話語料庫DOTS-NLP-216」。
海天瑞聲方面分析認為,當前在中文對話領域,公開的數(shù)據(jù)集往往量少、分布有偏、價格昂貴甚至不能商用。導致一些大模型在中文對話方面的能力,相比英文對話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對話場景,無論開源的還是閉源的大模型,都往往表現(xiàn)不佳。
海天瑞聲方面表示,真實場景采集,符合中文表達習慣的自然對話數(shù)據(jù),將為中文大語言模型(LLM)帶來新動能。
據(jù)海天瑞聲方面介紹,此次發(fā)布的數(shù)據(jù)集,是一個符合中國人表達習慣的自然對話數(shù)據(jù)集,共計約1000萬輪,上億級token(標記)。
此前,海天瑞聲發(fā)布公告稱,擬定增募資不超過7.9億元,其中,3.83億元計劃用于“AI大模型訓練數(shù)據(jù)集建設項目”,4.07億元計劃投向“數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項目”。
海天瑞聲在公告中表示,在人工智能產(chǎn)業(yè)進入以大模型為代表的新的發(fā)展時期,通過本次募投項目的實施,公司將建設一批適用性較強的大模型訓練數(shù)據(jù)集,拓展?jié)撛诟咴鲩L價值的新型業(yè)務板塊,并藉此進一步擴大公司業(yè)務規(guī)模;同時,以研發(fā)海天瑞聲數(shù)據(jù)生產(chǎn)垂直大模型為核心,升級海天瑞聲一體化技術支撐平臺,研發(fā)并引入多項新興技術,促進公司科技創(chuàng)新水平的不斷提升,鞏固公司的核心技術壁壘,構建長期技術實力支撐,從而進一步增強公司核心競爭力。
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP