本技術涉及計算機,特別涉及一種基于不同年級知識點提取的伴讀文稿生成方法及裝置。
背景技術:
1、在現代教育領域,隨著個性化學習需求的增長,教育技術正朝著更加定制化和分級化的方向發展。特別是對于兒童閱讀輔助工具,如基于不同年級知識點提取的伴讀文稿生成系統,其目的是通過自動化的方式,根據兒童的年齡和認知水平,提供適宜的閱讀材料和知識點講解。這種系統不僅需要梳理書籍內容結構,而且要能夠激發兒童的思考,同時歸納出適應不同階段兒童的能力知識點,以實現長期且系統化的訓練,提升兒童的閱讀能力和興趣。
2、相關技術中,自然語言處理技術在文本生成領域取得了顯著進展,尤其是在利用大語言模型進行文本生成方面。在對話系統、機器翻譯和文本生成等領域,大語言模型已經得到了廣泛應用。然而,當涉及到為不同年級的兒童生成伴讀文稿時,大語言模型難以根據兒童的不同年級和認知水平自動生成相應難度和深度的知識點,導致生成的伴讀文稿不符合特定年齡段兒童的學習需求,無法有效提升他們的閱讀能力和興趣。
技術實現思路
1、本技術實施例提供了一種基于不同年級知識點提取的伴讀文稿生成方法及裝置。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現一些概念,以此作為后面的詳細說明的序言。
2、第一方面,本技術實施例提供了一種基于不同年級知識點提取的伴讀文稿生成方法,方法包括:
3、接收用戶輸入的書籍名稱和伴讀需求,伴讀需求包括年級要求和文稿生成要求;
4、根據書籍名稱,從預先構建的知識庫中,檢索符合年級要求的知識點提綱,預先構建的知識庫包含不同年級階段的知識點;
5、根據文稿生成要求,創建用于指導大語言模型生成伴讀文稿的提示信息集;
6、基于知識點提綱與提示信息集,生成書籍名稱對應的伴讀文稿。
7、可選的,根據文稿生成要求,創建用于指導大語言模型生成伴讀文稿的提示信息集,包括:
8、分解文稿生成要求,得到多個子問題;
9、將每個子問題與預先構建的知識庫中的知識點進行匹配,得到每個子問題的知識點匹配結果;
10、根據每個子問題的知識點匹配結果,生成用于指導大語言模型生成伴讀文稿的提示信息集。
11、可選的,將每個子問題與預先構建的知識庫中的知識點進行匹配,得到每個子問題的知識點匹配結果,包括:
12、分析每個子問題對應的具體內容的指定部分和指定年級的學習要求,具體內容為書籍名稱對應的書籍內容;
13、將每個子問題對應的書籍內容的指定部分和指定年級的學習要求作為每個子問題的檢索條件;
14、從預先構建的知識庫中,檢索符合每個子問題的檢索條件的知識點;
15、將檢索到的符合每個子問題的檢索條件的知識點作為每個子問題的知識點匹配結果。
16、可選的,年級要求包括知識點類型參數和學生年級對應的認知水平參數;
17、根據每個子問題的知識點匹配結果,生成用于指導大語言模型生成伴讀文稿的提示信息集,包括:
18、根據知識點類型參數和學生年級對應的認知水平參數,確定每個子問題的目標和預期輸出;
19、將每個子問題的目標和預期輸出、每個子問題的知識點匹配結果輸入大語言模型中進行學習,輸出每個子問題的提示信息;
20、匯總每個子問題的提示信息,得到用于指導大語言模型生成伴讀文稿的提示信息集。
21、可選的,提示信息集包括每個子問題的提示信息,每個子問題是將文稿生成要求分解得到的;
22、基于知識點提綱與提示信息集,生成書籍名稱對應的伴讀文稿,包括:
23、根據每個子問題的提示信息和知識點提綱,通過預先訓練的中文分級閱讀大模型進行回復,得到每個子問題對應的回復結果;
24、獲取書籍名稱對應的書籍內容的內容邏輯順序和重要程度;
25、根據內容邏輯順序和重要程度,對每個子問題對應的回復結果進行排序并整合,得到最終回復結果;
26、將最終回復結果作為書籍名稱對應的伴讀文稿。
27、可選的,根據每個子問題的提示信息和知識點提綱,通過預先訓練的中文分級閱讀大模型進行回復,得到每個子問題對應的回復結果,包括:
28、通過預設搜索引擎,搜索書籍名稱對應的書籍內容的相關信息,相關信息包括作者信息、書籍介紹以及閱讀心得;
29、將作者信息、書籍介紹以及閱讀心得,輸入預先訓練的中文分級閱讀大模型中,輸出書籍內容的延伸文本;
30、將每個子問題的提示信息和知識點提綱、書籍內容輸入大語言模型中,輸出每個子問題對應的初始回復;
31、基于書籍內容的延伸文本,對每個子問題對應的初始回復進行擴充,得到每個子問題對應的回復結果。
32、可選的,按照以下步驟生成預先訓練的中文分級閱讀大模型,包括:
33、獲取伴讀文稿的文稿生成要求和本地語料庫,本地語料庫是基于少兒語言領域的伴讀文本數據進行構建的;
34、根據文稿生成要求,從大語言模型中確定待微調參數,待微調參數為大語言模型中適用于文稿生成要求的部分參數;
35、根據本地語料庫中的訓練語料和待微調參數,微調并優化大語言模型,得到預先訓練的中文分級閱讀大模型。
36、可選的,根據本地語料庫中的訓練語料和待微調參數,微調并優化大語言模型,包括:
37、預處理本地語料庫中的訓練語料,得到訓練數據集和測試數據集;
38、對待微調參數進行矩陣低秩分解,得到分解后的第一參數矩陣和第二參數矩陣,第一參數矩陣包含與大語言模型中原始權重矩陣的列相關的變換參數,第二參數矩陣包含與大語言模型中原始權重矩陣的行相關的變換參數;
39、根據訓練數據集、第一參數矩陣和第二參數矩陣,對大語言模型進行微調;
40、根據測試數據集,對微調后的大語言模型進行優化;
41、其中,,為原始權重矩陣,為一個大小為的矩陣,表示矩陣的行數,表示矩陣的列數,為低秩分解中的秩,用于控制近似的精度和參數的數量,為第一參數矩陣,為第二參數矩陣。
42、可選的,根據訓練數據集、第一參數矩陣和第二參數矩陣,對大語言模型進行微調,包括:
43、根據第一訓練數據、第一參數矩陣和第二參數矩陣,計算模型的前向傳播結果,第一訓練數據為訓練數據集中每個訓練數據;
44、根據前向傳播結果以及預設損失函數,計算大語言模型的模型損失值,預設損失函數是將大語言模型的原始損失函數中模型參數凍結并替換為第一參數矩陣和第二參數矩陣得到的;
45、在模型損失值到達最小的情況下,得到微調后的大語言模型;其中,
46、前向傳播結果的計算公式為:
47、
48、其中,為前向傳播結果,為第一訓練數據,為矩陣低秩分解的結果;
49、預設損失函數為:
50、
51、其中,是在時間步的前向傳播結果,是原始權重矩陣,是偏置項,為激活函數,為時間步的第一訓練數據,為待微調參數,為優化目標是最大化參數集合的損失值,為第一訓練數據,為訓練數據的標簽,為訓練數據集,表示輸出序列的長度,為對數概率,為大語言模型的原始參數,為低秩更新參數,是時間步的標簽。
52、第二方面,本技術實施例提供了一種基于不同年級知識點提取的伴讀文稿生成裝置,裝置包括:
53、接收模塊,用于接收用戶輸入的書籍名稱和伴讀需求,伴讀需求包括年級要求和文稿生成要求;
54、檢索模塊,用于根據書籍名稱,從預先構建的知識庫中,檢索符合年級要求的知識點提綱,預先構建的知識庫包含不同年級階段的知識點;
55、創建模塊,用于根據文稿生成要求,創建用于指導大語言模型生成伴讀文稿的提示信息集;
56、生成模塊,用于基于知識點提綱與提示信息集,生成書籍名稱對應的伴讀文稿。
57、本技術實施例提供的技術方案可以包括以下有益效果:
58、在本技術實施例中,一方面,本技術根據書籍名稱,可從預先構建的知識庫中,檢索出符合年級要求的知識點提綱,該知識庫包含不同年級階段的知識點,確保了知識點的適宜性和準確性,適應不同學生的認知水平和學習進度,從而實現了大語言模型可以根據兒童的不同年級和認知水平自動生成相應難度和深度的知識點;另一方面,本技術可根據文稿生成要求,創建用于指導大語言模型生成伴讀文稿的提示信息集,文稿生成要求明確了生成文稿的目標和預期結果,使得提示信息集指導大語言模型生成的伴讀文稿符合特定年齡段兒童的學習需求,能夠有效提升他們的閱讀能力和興趣。
59、應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本技術。