mirror of
https://github.com/fumiama/emozi.git
synced 2026-06-29 08:20:24 +08:00
optimize(db): add memory cache & mutex
This commit is contained in:
46
coder.go
46
coder.go
@@ -4,6 +4,7 @@ import (
|
|||||||
"errors"
|
"errors"
|
||||||
"strconv"
|
"strconv"
|
||||||
"strings"
|
"strings"
|
||||||
|
"sync"
|
||||||
"time"
|
"time"
|
||||||
|
|
||||||
sql "github.com/FloatTech/sqlite"
|
sql "github.com/FloatTech/sqlite"
|
||||||
@@ -11,13 +12,18 @@ import (
|
|||||||
|
|
||||||
// Coder encoder/decoder
|
// Coder encoder/decoder
|
||||||
type Coder struct {
|
type Coder struct {
|
||||||
|
mu sync.RWMutex
|
||||||
db sql.Sqlite
|
db sql.Sqlite
|
||||||
|
字表缓存 map[rune][]字表
|
||||||
|
部首缓存 map[rune]string
|
||||||
isRandom bool
|
isRandom bool
|
||||||
}
|
}
|
||||||
|
|
||||||
// NewCoder israndom 随机挑选声母韵母的颜文字, 否则固定使用第一个
|
// NewCoder israndom 随机挑选声母韵母的颜文字, 否则固定使用第一个
|
||||||
func NewCoder(israndom bool, cachettl time.Duration) (c Coder, err error) {
|
func NewCoder(israndom bool, cachettl time.Duration) (c Coder, err error) {
|
||||||
c.db.DBPath = EmoziDatabasePath
|
c.db.DBPath = EmoziDatabasePath
|
||||||
|
c.字表缓存 = make(map[rune][]字表, 4096)
|
||||||
|
c.部首缓存 = make(map[rune]string, 4096)
|
||||||
c.isRandom = israndom
|
c.isRandom = israndom
|
||||||
err = c.db.Open(cachettl)
|
err = c.db.Open(cachettl)
|
||||||
if err != nil {
|
if err != nil {
|
||||||
@@ -41,14 +47,16 @@ func NewCoder(israndom bool, cachettl time.Duration) (c Coder, err error) {
|
|||||||
|
|
||||||
// Close ...
|
// Close ...
|
||||||
func (c *Coder) Close() error {
|
func (c *Coder) Close() error {
|
||||||
|
c.mu.Lock()
|
||||||
|
defer c.mu.Unlock()
|
||||||
return c.db.Close()
|
return c.db.Close()
|
||||||
}
|
}
|
||||||
|
|
||||||
// Encode 从汉字序列生成 EmoziString
|
// Encode 从汉字序列生成 EmoziString 返回 EmoziString 多音字选择数列表
|
||||||
func (c *Coder) Encode(s string, selections ...int) (EmoziString, error) {
|
func (c *Coder) Encode(s string, selections ...int) (EmoziString, []int, error) {
|
||||||
sb := strings.Builder{}
|
sb := strings.Builder{}
|
||||||
x := &字表{}
|
lstbuf := make([]字表, 0, len(s)/2)
|
||||||
lst := []字表{}
|
var lst []字表
|
||||||
write := func(x *字表) {
|
write := func(x *字表) {
|
||||||
sb.WriteString(c.查声母(x.S))
|
sb.WriteString(c.查声母(x.S))
|
||||||
sb.WriteString(c.查韵母(x.Y))
|
sb.WriteString(c.查韵母(x.Y))
|
||||||
@@ -56,27 +64,19 @@ func (c *Coder) Encode(s string, selections ...int) (EmoziString, error) {
|
|||||||
sb.WriteString(c.查部首(x.R))
|
sb.WriteString(c.查部首(x.R))
|
||||||
}
|
}
|
||||||
多音字计数 := 0
|
多音字计数 := 0
|
||||||
|
多音字数表 := []int{}
|
||||||
|
var err error
|
||||||
for _, ch := range s { // nolint: go-staticcheck
|
for _, ch := range s { // nolint: go-staticcheck
|
||||||
lst = lst[:0]
|
lst, lstbuf, err = c.查字(ch, lstbuf)
|
||||||
err := c.db.FindFor(附字表名, x, "WHERE W="+strconv.Itoa(int(ch)), func() error {
|
|
||||||
lst = append(lst, *x)
|
|
||||||
return nil
|
|
||||||
})
|
|
||||||
if err != nil {
|
|
||||||
lst = lst[:0]
|
|
||||||
err = c.db.FindFor(主字表名, x, "WHERE W="+strconv.Itoa(int(ch)), func() error {
|
|
||||||
lst = append(lst, *x)
|
|
||||||
return nil
|
|
||||||
})
|
|
||||||
}
|
|
||||||
if err != nil || len(lst) == 0 {
|
if err != nil || len(lst) == 0 {
|
||||||
sb.WriteRune(ch)
|
sb.WriteRune(ch)
|
||||||
continue
|
continue
|
||||||
}
|
}
|
||||||
if len(lst) == 1 {
|
if len(lst) == 1 {
|
||||||
write(x)
|
write(&lst[0])
|
||||||
continue
|
continue
|
||||||
}
|
}
|
||||||
|
多音字数表 = append(多音字数表, len(lst))
|
||||||
if len(selections) > 多音字计数 {
|
if len(selections) > 多音字计数 {
|
||||||
idx := selections[多音字计数]
|
idx := selections[多音字计数]
|
||||||
多音字计数++
|
多音字计数++
|
||||||
@@ -94,7 +94,7 @@ func (c *Coder) Encode(s string, selections ...int) (EmoziString, error) {
|
|||||||
}
|
}
|
||||||
sb.WriteString("]")
|
sb.WriteString("]")
|
||||||
}
|
}
|
||||||
return WrapRawEmoziString(sb.String()), nil
|
return WrapRawEmoziString(sb.String()), 多音字数表, nil
|
||||||
}
|
}
|
||||||
|
|
||||||
// Add 向主库添加一个新字
|
// Add 向主库添加一个新字
|
||||||
@@ -108,11 +108,13 @@ func (c *Coder) Add(w, r, p, f string) error {
|
|||||||
if err != nil {
|
if err != nil {
|
||||||
return err
|
return err
|
||||||
}
|
}
|
||||||
|
c.mu.Lock()
|
||||||
err = c.db.InsertUnique(主字表名, &字表{
|
err = c.db.InsertUnique(主字表名, &字表{
|
||||||
ID: 颜表ID(rw, s, y, t),
|
ID: 颜表ID(rw, s, y, t),
|
||||||
W: rw, S: s, Y: y, T: t,
|
W: rw, S: s, Y: y, T: t,
|
||||||
R: rr, P: p, F: f,
|
R: rr, P: p, F: f,
|
||||||
})
|
})
|
||||||
|
c.mu.Unlock()
|
||||||
if err != nil {
|
if err != nil {
|
||||||
return errors.New("已有同音同形的字 '" + w + "'")
|
return errors.New("已有同音同形的字 '" + w + "'")
|
||||||
}
|
}
|
||||||
@@ -134,11 +136,13 @@ func (c *Coder) Overlay(w, r, p, f string) error {
|
|||||||
}
|
}
|
||||||
|
|
||||||
func (c *Coder) overlay(w, p, f string, s 声母枚举, y 韵母枚举, t 声调枚举, rw rune, rr rune) error {
|
func (c *Coder) overlay(w, p, f string, s 声母枚举, y 韵母枚举, t 声调枚举, rw rune, rr rune) error {
|
||||||
|
c.mu.Lock()
|
||||||
err := c.db.InsertUnique(附字表名, &字表{
|
err := c.db.InsertUnique(附字表名, &字表{
|
||||||
ID: 颜表ID(rw, s, y, t),
|
ID: 颜表ID(rw, s, y, t),
|
||||||
W: rw, S: s, Y: y, T: t,
|
W: rw, S: s, Y: y, T: t,
|
||||||
R: rr, P: p, F: f,
|
R: rr, P: p, F: f,
|
||||||
})
|
})
|
||||||
|
c.mu.Unlock()
|
||||||
if err != nil {
|
if err != nil {
|
||||||
return errors.New("已有同音同形的字 '" + w + "'")
|
return errors.New("已有同音同形的字 '" + w + "'")
|
||||||
}
|
}
|
||||||
@@ -158,14 +162,18 @@ func (c *Coder) ChangeOverlay(oldw, oldr, oldf, neww, newr, newf string) error {
|
|||||||
}
|
}
|
||||||
q := "WHERE ID=" + strconv.FormatInt(颜表ID(rw, s, y, t), 10)
|
q := "WHERE ID=" + strconv.FormatInt(颜表ID(rw, s, y, t), 10)
|
||||||
x := 字表{}
|
x := 字表{}
|
||||||
|
c.mu.RLock()
|
||||||
err = c.db.Find(附字表名, &x, q)
|
err = c.db.Find(附字表名, &x, q)
|
||||||
|
c.mu.RUnlock()
|
||||||
if err != nil {
|
if err != nil {
|
||||||
return err
|
return err
|
||||||
}
|
}
|
||||||
if x.R != rr {
|
if x.R != rr {
|
||||||
return errors.New("提供的旧部首 '" + string(rr) + "' 与记载的 '" + string(x.R) + "' 不符")
|
return errors.New("提供的旧部首 '" + string(rr) + "' 与记载的 '" + string(x.R) + "' 不符")
|
||||||
}
|
}
|
||||||
|
c.mu.Lock()
|
||||||
err = c.db.Del(附字表名, q)
|
err = c.db.Del(附字表名, q)
|
||||||
|
c.mu.Unlock()
|
||||||
if err != nil {
|
if err != nil {
|
||||||
return err
|
return err
|
||||||
}
|
}
|
||||||
@@ -174,5 +182,7 @@ func (c *Coder) ChangeOverlay(oldw, oldr, oldf, neww, newr, newf string) error {
|
|||||||
|
|
||||||
// OverlayRadical 添加一个部首
|
// OverlayRadical 添加一个部首
|
||||||
func (c *Coder) OverlayRadical(r rune, e string) error {
|
func (c *Coder) OverlayRadical(r rune, e string) error {
|
||||||
|
c.mu.Lock()
|
||||||
|
defer c.mu.Unlock()
|
||||||
return c.db.InsertUnique(部首表名, &部首表{R: r, E: e})
|
return c.db.InsertUnique(部首表名, &部首表{R: r, E: e})
|
||||||
}
|
}
|
||||||
|
|||||||
@@ -10,20 +10,26 @@ func TestEncode(t *testing.T) {
|
|||||||
if err != nil {
|
if err != nil {
|
||||||
t.Fatal(err)
|
t.Fatal(err)
|
||||||
}
|
}
|
||||||
es, err := c.Encode("你好,世界!看看多音字:行。")
|
es, lst, err := c.Encode("你好,世界!看看多音字:行。")
|
||||||
if err != nil {
|
if err != nil {
|
||||||
t.Fatal(err)
|
t.Fatal(err)
|
||||||
}
|
}
|
||||||
t.Log(es.String())
|
t.Log(es.String(), lst)
|
||||||
if es.String() != "🥛👔🐴👤🌹🐱🐴👩,💦🌞😨🌍➕✌😨👨🌾!😭🔐🍉👁️😭🔐🍉👁️🔪🌀🍉🪩🐑🎵🍉🎵👈🌞😨🚼:[👇🦅🧗⛕|🌹👍🧗⛕]。" {
|
if es.String() != "🥛👔🐴👤🌹🐱🐴👩,💦🌞😨🌍➕✌😨👨🌾!😭🔐🍉👁️😭🔐🍉👁️🔪🌀🍉🪩🐑🎵🍉🎵👈🌞😨🚼:[👇🦅🧗⛕|🌹👍🧗⛕]。" {
|
||||||
t.Fatal("got", es.String())
|
t.Fatal("got", es.String())
|
||||||
}
|
}
|
||||||
es, err = c.Encode("你好,世界!指定多音字:银行行。", 1, 0)
|
if len(lst) != 1 && lst[0] != 2 {
|
||||||
|
t.Fail()
|
||||||
|
}
|
||||||
|
es, lst, err = c.Encode("你好,世界!指定多音字:银行行。", 1, 0)
|
||||||
if err != nil {
|
if err != nil {
|
||||||
t.Fatal(err)
|
t.Fatal(err)
|
||||||
}
|
}
|
||||||
t.Log(es.String())
|
t.Log(es.String(), lst)
|
||||||
if es.String() != "🥛👔🐴👤🌹🐱🐴👩,💦🌞😨🌍➕✌😨👨🌾!🐽🌞🐴✋🔪🦅😨🏠🔪🌀🍉🪩🐑🎵🍉🎵👈🌞😨🚼:🐑🎵🧗💰🌹👍🧗⛕👇🦅🧗⛕。" {
|
if es.String() != "🥛👔🐴👤🌹🐱🐴👩,💦🌞😨🌍➕✌😨👨🌾!🐽🌞🐴✋🔪🦅😨🏠🔪🌀🍉🪩🐑🎵🍉🎵👈🌞😨🚼:🐑🎵🧗💰🌹👍🧗⛕👇🦅🧗⛕。" {
|
||||||
t.Fatal("got", es.String())
|
t.Fatal("got", es.String())
|
||||||
}
|
}
|
||||||
|
if len(lst) != 2 && lst[0] != 2 && lst[1] != 2 {
|
||||||
|
t.Fail()
|
||||||
|
}
|
||||||
}
|
}
|
||||||
|
|||||||
34
data.go
34
data.go
@@ -1,6 +1,9 @@
|
|||||||
package emozi
|
package emozi
|
||||||
|
|
||||||
import _ "embed"
|
import (
|
||||||
|
_ "embed"
|
||||||
|
"strconv"
|
||||||
|
)
|
||||||
|
|
||||||
// 字数据库 数据来自 https://github.com/shuowenjiezi/shuowen
|
// 字数据库 数据来自 https://github.com/shuowenjiezi/shuowen
|
||||||
//
|
//
|
||||||
@@ -31,6 +34,35 @@ func 颜表ID(w rune, s 声母枚举, y 韵母枚举, t 声调枚举) int64 {
|
|||||||
return int64((uint64(w) << 32) | (uint64(s) << 16) | (uint64(y) << 8) | (uint64(t)))
|
return int64((uint64(w) << 32) | (uint64(s) << 16) | (uint64(y) << 8) | (uint64(t)))
|
||||||
}
|
}
|
||||||
|
|
||||||
|
// 查字 返回 lst lstbuf error
|
||||||
|
func (c *Coder) 查字(ch rune, lstbuf []字表) ([]字表, []字表, error) {
|
||||||
|
c.mu.RLock()
|
||||||
|
lst, ok := c.字表缓存[ch]
|
||||||
|
c.mu.RUnlock()
|
||||||
|
if ok {
|
||||||
|
return lst, lstbuf, nil
|
||||||
|
}
|
||||||
|
lstbuf = lstbuf[:0]
|
||||||
|
x := 字表{}
|
||||||
|
c.mu.Lock()
|
||||||
|
defer c.mu.Unlock()
|
||||||
|
err := c.db.FindFor(附字表名, &x, "WHERE W="+strconv.Itoa(int(ch)), func() error {
|
||||||
|
lstbuf = append(lstbuf, x)
|
||||||
|
return nil
|
||||||
|
})
|
||||||
|
if err != nil {
|
||||||
|
lstbuf = lstbuf[:0]
|
||||||
|
err = c.db.FindFor(主字表名, &x, "WHERE W="+strconv.Itoa(int(ch)), func() error {
|
||||||
|
lstbuf = append(lstbuf, x)
|
||||||
|
return nil
|
||||||
|
})
|
||||||
|
}
|
||||||
|
lstsave := make([]字表, len(lstbuf))
|
||||||
|
copy(lstsave, lstbuf)
|
||||||
|
c.字表缓存[ch] = lstsave
|
||||||
|
return lstbuf, lstbuf, err
|
||||||
|
}
|
||||||
|
|
||||||
// 从表 从部首表
|
// 从表 从部首表
|
||||||
type 部首表 struct {
|
type 部首表 struct {
|
||||||
R rune // R 该部首
|
R rune // R 该部首
|
||||||
|
|||||||
11
lookup.go
11
lookup.go
@@ -41,13 +41,24 @@ func (c *Coder) 查声调(t 声调枚举) string {
|
|||||||
}
|
}
|
||||||
|
|
||||||
func (c *Coder) 查部首(r rune) string {
|
func (c *Coder) 查部首(r rune) string {
|
||||||
|
c.mu.RLock()
|
||||||
|
e, ok := c.部首缓存[r]
|
||||||
|
c.mu.RUnlock()
|
||||||
|
if ok {
|
||||||
|
return e
|
||||||
|
}
|
||||||
x := &部首表{}
|
x := &部首表{}
|
||||||
|
c.mu.Lock()
|
||||||
|
defer c.mu.Unlock()
|
||||||
err := c.db.Find(部首表名, x, "WHERE R="+strconv.Itoa(int(r)))
|
err := c.db.Find(部首表名, x, "WHERE R="+strconv.Itoa(int(r)))
|
||||||
if err == nil && len(x.E) > 0 && x.E != 空 {
|
if err == nil && len(x.E) > 0 && x.E != 空 {
|
||||||
|
c.部首缓存[r] = x.E
|
||||||
return x.E
|
return x.E
|
||||||
}
|
}
|
||||||
if e, ok := 部首后备[r]; ok {
|
if e, ok := 部首后备[r]; ok {
|
||||||
|
c.部首缓存[r] = e
|
||||||
return e
|
return e
|
||||||
}
|
}
|
||||||
|
c.部首缓存[r] = 空
|
||||||
return 空
|
return 空
|
||||||
}
|
}
|
||||||
|
|||||||
Reference in New Issue
Block a user