《離語》轉載請注明來源:思兔閱讀sto.ist
我將分為四個部分來介紹我的畢業論文。首先是研究背景。那麼為什麼要開展我這個研究呢?隨著信息技術和網絡技術的快速發展下,非結構化數據的比例迅速上升,傳統的數據庫並不能存儲這些數據,所以這無疑帶來了數據管理領域的重大挑戰。文獻是科技工作者獲取知識的重要來源。英語作為國際通用語言,英文文獻的重要性便不言而喻。文獻通常以pdf進行存儲。傳統的pdf信息提取,比較局限,采用人工查閱將所需的有效信息進行提取,再把這些信息標記在論文資源上供人們定位和使用。這就要求負責這項工作的人具有相當專業的知識,世界各地,各行各業,每天都會產生大量文章,信息提取的效率相當重要,怎麼才能避免資源浪費,就是一個待解決的問題。隨著大語言模型的興起,誕生了檢索增強生成技術,它從大量的文本數據中提取出有用的信息,並對這些信息進行分析和處理,為用戶提供更全麵、更準確的信息服務。基於此,選取檢索增強生成技術來對大量文獻進行信息提取,相較於先前的人工查閱降本增效,安全性高。我選擇的數據對象是,電力行業lca英文文獻。第二部分我將介紹我本次研究最核心的關鍵技術。檢索增強生成技術。大語言模型的知識包括,自己本身的知識,用戶的前置輸入,和聯網或者檢索專業的知識庫所獲取的知識,將這三部分結合,便是檢索增強生成所包含的內容。說的再直白一點,就是讓大語言模型外掛一個知識庫,或聯網搜索,去抽取到相關知識,是檢索。把專業的知識和提問一起,送給大語言模型歸納生成,生成一個更準確的答案,是增強,最後返回給用戶,即為檢索增強生成。第三部分則是我的係統介紹。針對我的研究題目:基於大語言模型(llm)的英文文獻解析,我將我的研究係統分為了三個模塊。數據處理模塊主要包括對電力lca這個特定領域的英文文獻進行選擇和初步處理,而後將有關數據全部轉化成結構化數據。知識庫構建模塊主要是將數據向量化並構建向量知識庫。chatbot構建分為功能部分和前端部分,功能包括基於openai的大語言模型基座調用、知識庫檢索、在線檢索;前端部分為web可視化以及ui設計。首先是數據處理模塊。數據的範圍,我選擇了常見的五種發電方式,火力,水力,太陽能,核能,風能。確定每個主題的關鍵詞和大主題生命周期評價後記錄所有可能出現的形式,比如說,生命周期評價出現在論文裡,可能是lca,也可能是lifecycle
assessment,羅列所有可能性,做到不遺漏數據。
關注一個產業或行業的生命周期評價(lca)具有重要的作用和意義,通過全麵評估其在整個
生命周期中與環境和資源相關的影響,lca
能夠幫助識彆影響源和熱點,並為製定環境政策、管理
措施和產品設計提供科學依據,推動行業向著更加環保和可持續的方向發展,同時也有助於提高消
費者和企業對可持續生產和消費模式的認識和推廣。
對於電力行業而言,關注
lca,不僅有助於推動電力行業朝著更加環保和可持續的方向發展,
而且對電力企業的生產和管理方式進行優化,降低環境負擔,提高資源利用效率。此外,電力行業
的
lca
結果還能引導政府製定能源政策和支持環保技術發展,增強企業和消費者對可持續發展的意
識,促進清潔能源轉型和技術創新。綜合而言,電力行業的生命周期評價不僅對行業發展產生重要
影響,還有助於推動整個社會邁向更加可持續的未來。
鑒於此,本文選取有關於電力行業的
lca
的英文文獻作為數據,對其中的結構化數據和非結構
化數據進行解析,來幫助大語言模型為決策者提供幫助,更高效地為電力行業的發展和管理提高決
策支持。
1.2
研究目的與意義
1.2.1
研究目的
本論文研究目標為,將有關電力行業
lca
的英文文獻進行解析,提取其中文本、表、圖等不同
格式化與非格式化信息,構建向量數據庫,提高電力行業
lca
信息提取準確性,從而幫助研究人員
快速獲取論文的主要內容、創新點、研究方法、數據來源等信息,以及論文的貢獻、局限和未來研
究方向,並基於實際數據進行測評。具體研究目標如下:
(1)通過文件裝載分割以及元數據獲取的方法,對電力行業
lca
的英文文獻中不同格式數據進
行解析,將文獻大致分區,便於分類和文本提取,提高解析準確性。
(2)通過對電力行業
lca