

本文讲解关于好用NLP工具用Python助力学日语和千朝浪屿有新冠吗的题,希望能帮助到大家。
更多新鲜网络资讯和稀奇古怪的工作技巧,关注原创【浪屿飞鱼】
本文是自然语言处理/NLP文章合集。它通过在Python中标记日语来分析句子和单词。在这里分享一下,希望对日语初学者有所帮助。
如果您是应用程序开发爱好者,当您需要向应用程序添加日语支持时,这是一个简短的指南。它也可能有帮助
如何在Python中标记日语
过去几年,NLP项目广泛使用多种语言已经成为流行趋势。然而,尽管支持多种语言,但仍有少数语言容易被忽略。其中之一是日本人。日语的书写方式没有空格,因此很难确定一个单词在哪里结束、另一个单词在哪里开始。尽管可以使用高度准确的分词器,但它们可能很难使用,而且英文文档也很少。
准备安装
首先,您需要安装令牌生成器和字典。在本教程中,我们将fugashi与unidic-lite一起使用,可以像这样安装
pipinstallfugashi[unidic-lite]Fugashi附带一个脚本,因此可以从命令行进行测试。输入一些日语,输出每行一个单词,以及其他信息,例如词性。
例如,这里输入“东京新东京,新增确诊256例,连续3天感染人数超过200人”。
Fugashi提供词性、术语、词源类别、发音等。虽然Fugashi实际上并不执行句子标记化,但EOS的意思是“句子结束”。但在这种情况下,它只是标记输入的结束。
示例代码
现在开始将纯日语文本转换为Python中的单词列表。
进口fugashi34;Fugashi34;Fu果,FU主要成分是日本果。tagger有字典信息tagger=fugashiTaggerwords=[wordsurfaceforwordintaggertext]printwords=gt;FU果、FU主要材料日本水果。这将打印原始句子,并在单词之间插入空格。在许多情况下,这就是您所需要的,但fugashi还提供了许多其他信息,例如词性、引理、广泛的词源类别、发音等等。这些信息均来自国立日本语言文学研究所提供的词典UniDic。
fugashi是MeCab(一个C++日语分词器,
本篇文章分享的关于好用NLP工具用Python助力学日语和一些千朝浪屿有新冠吗的相关信息已经解完毕,希望各位能够喜欢。
发表评论