79k星标的funNLP中文NLP资源大全：从LLM到传统NLP，一站式获取ChatGPT数据集与语料库

May 31, 2026

funNLP 全面汇聚了从 ChatGPT、大语言模型数据集、中文语料库到知识图谱、文本生成、关键词提取、文本匹配及可视化等各领域的技术、项目与文献资源。截至目前，该开源项目已收获 79k 颗 GitHub Star，深受开发者青睐。无论是技术学习还是文献检索，都能在这里迅速定位所需内容，充分满足学习与实践需求。接下来为您详细解读。仓库的构建基于三大核心原则：

全面覆盖：从传统 NLP 任务到前沿大模型应用，无所不包
即拿即用：提供开箱即用的数据集、模型和工具，加速项目落地
社区共建：持续追踪最新科研进展与行业动态

主要资源类别

大语言模型与类 ChatGPT 资源

仓库全面覆盖大语言模型的最新进展，涵盖：

模型评测与对比：面向中文 LLM 的综合基准与评估体系
开源框架：可直接部署的 ChatGLM、MOSS、中文 LLaMA 衍生版本等实践方案
训练与优化：高效微调、低资源训练策略以及推理加速技术

传统 NLP 资源

构成中文 NLP 应用基础的核心资源：

资源类型	代表性资源	适用场景
中文语料库	分词词表、垂直领域数据集	模型训练与文本预处理
词汇资源	THUOCL 系列（信息技术、医疗、金融等）、成语词典	实体识别、领域文本处理
处理工具	正则规则库、文本标注与可视化工具	数据清洗、分析与展示

专业领域应用

面向专业场景的行业定制 NLP 资源：

行业领域	主要资源	典型应用
金融	金融专词库、行业语料	行情分析、文档自动化
医疗	医学词典、临床文本处理工具	医疗文书、研究数据挖掘
法律	法律术语库、合同解析工具	法律文书处理、合规性审核