打造 LLM 非常經典的一本書
劇透警告
以 PyTorch 為基礎的 LLM 建構教學,從最基本的清洗資料到最後的測試驗證都涵蓋了。比起採用 TensorFlow 的教學,要容易理解。
本書是一本經典,但附錄竟然是電子書,這會造成初學者的閱讀門檻,也讓這本經典書有點缺憾。另外, tokenize 建議翻譯成「分詞」而不是「斷詞」。因為中文「斷詞」的英文是 word segmentation,是專有名詞。而大陸則是把 tokenize 及 word segmentation 均翻譯為「分詞」。這會混淆初學者的基本觀念。因為「分詞」採用 BPE 演算法所「切」出來的「詞」是給電腦做後續編碼用的(Word embedding),切出來的字面上不一定有語言學上的意義。而「中文斷詞」所切出來的「詞」,則必須符合中文語言學上的意義。因此,本書把 tokenize 翻譯為「分詞」,是有修正的必要。
建議改版後可以注意這些細節,並且把附錄也紙本化,以便讓讀者可以拿著書就能按圖索驥,不必另外上網下在電子書。