Skip to content

Commit 05eb221

Browse files
authored
Update References (#127)
* Update References * update Japanese README
1 parent 5df133c commit 05eb221

File tree

2 files changed

+18
-4
lines changed

2 files changed

+18
-4
lines changed

README-ja.md

+9
Original file line numberDiff line numberDiff line change
@@ -258,7 +258,16 @@ Vaporetto は KyTea に比べて 8.7 倍速く動作します。
258258

259259
Vaporettoにおける単語分割の仕組みについては、以下の論文またはブログ記事を参照してください。
260260

261+
* Koichi Akabe, Shunsuke Kanda, Yusuke Oda, Shinsuke Mori.
262+
[Vaporetto: Efficient Japanese Tokenization Based on Improved Pointwise Linear Classification](https://arxiv.org/abs/2406.17185).
263+
arXiv. 2024.
261264
* 赤部晃一,神田峻介,小田悠介,森信介.
262265
[Vaporetto: 点予測法に基づく高速な日本語トークナイザ](https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/D2-5.pdf)
263266
言語処理学会第28回年次大会(NLP2022).浜松.2022年3月.
264267
* [速度の高みを目指す:高速な単語分割器 Vaporetto の技術解説](https://tech.legalforce.co.jp/entry/2021/09/28/180844) (技術ブログ)
268+
269+
Vaporettoで使用しているダブル配列Aho-Corasick法 (DAAC) の技術情報については、以下の論文を参照してください。
270+
271+
* Shunsuke Kanda, Koichi Akabe, and Yusuke Oda.
272+
[Engineering faster double-array Aho-Corasick automata](https://doi.org/10.1002/spe.3190). Software: Practice and Experience (SPE),
273+
53(6): 1332–1361, 2023 ([arXiv](https://arxiv.org/abs/2207.13870))

README.md

+9-4
Original file line numberDiff line numberDiff line change
@@ -277,9 +277,14 @@ See [the guidelines](./CONTRIBUTING.md).
277277

278278
## References
279279

280-
Technical details of Vaporetto are available in the following paper or the blog post:
280+
Technical details of the whole tokenizer system:
281+
282+
* Koichi Akabe, Shunsuke Kanda, Yusuke Oda, Shinsuke Mori. [Vaporetto: Efficient Japanese Tokenization Based on Improved Pointwise Linear Classification](https://arxiv.org/abs/2406.17185). arXiv. 2024.
283+
284+
* 赤部 晃一, 神田 峻介, 小田 悠介, 森 信介. [Vaporetto: 点予測法に基づく高速な日本語トークナイザ](https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/D2-5.pdf). 言語処理学会第28回年次大会 (NLP2022). 浜松. 2022年3月. (in Japanese)
281285

282-
* 赤部 晃一, 神田 峻介, 小田 悠介, 森 信介. [Vaporetto: 点予測法に基づく高速な日本語トークナイザ](https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/D2-5.pdf). 言語処理学会第28回年次大会 (NLP2022). 浜松. 2022年3月.
283-
.
284-
NLP2022 (in Japanese). Hamamatsu. Mar 2022.
285286
* [Blog post](https://tech.legalforce.co.jp/entry/2021/09/28/180844) (in Japanese)
287+
288+
Technical details of DAACs, the pattern match algorithm underlying the tokenizer system:
289+
290+
* Shunsuke Kanda, Koichi Akabe, and Yusuke Oda. [Engineering faster double-array Aho-Corasick automata](https://doi.org/10.1002/spe.3190). Software: Practice and Experience (SPE), 53(6): 1332–1361, 2023 ([arXiv](https://arxiv.org/abs/2207.13870))

0 commit comments

Comments
 (0)