求教同义话题如何合并?

现在网站的一些话题因为简繁体的缘故没有自动合并,成了两个话题:
光复香港https://pincong.rocks/topic/%E5%85%89%E5%BE%A9%E9%A6%99%E6%B8%AF
光復香港https://pincong.rocks/topic/%E5%85%89%E5%A4%8D%E9%A6%99%E6%B8%AF

廣州https://pincong.rocks/topic/%E5%BB%A3%E5%B7%9E
广州https://pincong.rocks/topic/%E5%B9%BF%E5%B7%9E

还有一些可以视为同义词的话题没有合并:
征信https://pincong.rocks/topic/%E5%BE%81%E4%BF%A1
社会信用体系https://pincong.rocks/topic/%E7%A4%BE%E4%BC%9A%E4%BF%A1%E7%94%A8%E4%BD%93%E7%B3%BB

我看到之前有一些话题是被合并的,例如
https://pincong.rocks/topic/%E4%B8%AD%E5%9B%BD?rf=130
https://pincong.rocks/topic/%E5%8F%B0%E6%B9%BE?rf=229
https://pincong.rocks/topic/%E4%B8%AD%E5%85%B1?rf=126
https://pincong.rocks/topic/%E5%88%98%E4%BB%B2%E6%95%AC?rf=849

这个操作目前看来还是依靠人工,但我尚未找到实现该操作的入口。
Alicia 人人都戴著一頂面具,誰知心中想什麼?
标签都没有图,差评                                                    
Artemis Missing Alicia, Caritas and others, hope all is well with them
@K8kMrgQwRR 搞清楚怎么合并了。做好事不留名(误),最新的合并需求已搞定。如果有新的需求可以继续弄

不小心误操作了一个苏莱曼尼被锁定了(admin已协助解决)

要求记录tag编辑情况使用emoji勾,以便移动端阅读方便

已完成@沉默的广场的PART 1,搏击俱乐部的PART 2和趴3

以下tag合并,若有意见请讨论

大陆和中国大陆合并有点怪,大陆不只代表中国大陆,虽然目前使用改话题的均指中国大陆。已合并

影视和影视剧合并

天安门大屠杀和六四事件合并

华人和汉人合并好像有些怪怪的?(模仿Tashkent说话)汉人应该和汉族合并吧 【无操作】

所有和台湾选举有关的我通通合并为台湾大选

女性权益合并在女权

不明肺炎、武汉SARS等全部和武汉肺炎合并

港独有贬义,建议合并到香港独立

电视剧和影视剧没有进行合并操作

汉族合并至汉人

统一和統一合并到大一统

废除死刑合并为废死
沉默的广场 休假中 中客理真迫 5C91 7AD9 AB01 9AD9 88BD 7392 35E4 5656 81A7 EB63
品葱可以专门设置一个管理标签的用户组,这样窝可以帮你们维护标签(模仿九头鸟

更新:品葱所有简体和繁体标签的合并已经完成,主要由Amenbreak(一派胡言)手动完成,以及K8kMrgQwRR的整理工作,感谢这两位。以后只要专注整理同义词就可以了。

1.15更新:写了一个查找同义词的脚本,目测找到了216个同义标签,可能会有一点用处。
word list 1 (100)
婚恋  /  恋爱
  /  评价
摄影  /  修养
探子  /  特工
舆论  /  舆情
思想  /  主义
国共  /  中共
启蒙  /  教育
世界  /  寰宇
国民  /  公民
华人  /  华裔
寿终正寝  /  死亡
特工  /  信息员
青年  /  青年人
  /  枪械
官逼民反  /  造反
经济  /  占便宜
  /  道家
八路  /  志愿军
金融  /  财经
  /  艺术
右翼  /  右派
传言  /  小道消息
剧本  /  脚本
反驳  /  辩论
建议  /  提议
举报  /  告密
  /  德性
公司  /  供销社
黑幕  /  内幕
中华民族  /  民族
同胞  /  国人
派系  /  法家
人民  /  公民
  /  共产党
思想  /  心理
宪政  /  党政
举报  /  反馈
漫画  /  卡通
分裂  /  解体
义士  /  武侠
  /  中国共产党
推理  /  推演
外文  /  外语
改进  /  改良
  /  人性
空想  /  胡思乱想
辩论  /  理论
造反  /  官逼民反
解体  /  分裂
书籍  /  书本
理论  /  主义
叛国  /  卖国
助纣为虐  /  为虎作伥
时政  /  党政
演说  /  演讲
黑社会  /  黑帮
理论  /  反驳
  /  诗词
市场  /  商场
情绪  /  心态
乡土  /  家乡
汉语  /  中文
空想  /  白日梦
后代  /  接班人
左派  /  左翼
  /  书籍
  /  时间
审核  /  审查
中国共产党  /  中共
间谍  /  信息员
意识  /  发现
老百姓  /  公民
  /  道德
老百姓  /  人民
努力  /  斗争
经济  /  金融
汉奸  /  狗腿子
历史  /  旧闻
  /  歌曲
告密  /  检举
恋爱  /  婚恋
探子  /  信息员
愚昧  /  愚蠢
通货膨胀  / 
间谍  /  特务
以史为鉴  /  前车之鉴
英雄  /  勇武
神经病  /  精神病
民俗  /  传统
选择  /  精选
志愿军  /  八路
计划  /  设计
  /  国共
教师  /  老师
屠杀  /  大屠杀
观念  /  价值观
揪斗  /  格斗
文艺  /  文学
精选  /  选择

==========
我提议品葱学习一下知乎的标签系统,把所有标签的关系用有根DAG表示,这样就不用纠结同义词要不要合并了。我看到表结构里有parent_id这个字段,似乎是为这个功能准备的。

可惜品葱后端是用某世界上最好的语言写的。如果你们接受Python代码,窝可以帮助开发一下这个功能(再模仿九头鸟

==========
@K8kMrgQwRR ,@Amenbreak 简繁体合并我写脚本来做,你们两位可以合并同义词

品葱时间1.14更新:品葱数据库更新了,一共有188个繁体标签可以合并

==========
品葱时间1.12更新:
python可以查找能合并的繁体标签:


# 简繁判断
def is_simplified_chinese(s):
    is_simplified = False
    try:
        s.encode('big5hkscs')
    except UnicodeEncodeError:
        is_simplified = True
    return is_simplified

# 测试
s1 = '光复香港,时代革命'
s2 = '光復香港,時代革命'
print('s1:', is_simplified_chinese(s1))
print('s2:', is_simplified_chinese(s2))

# hanziconv这个包可以做简繁转换
# 安装: pip install hanziconv

# 查找可以合并的繁体标签
topic_name = [a[0] for a in query('select XXXX from YYYY')]  # your database
simplified_tag = []
traditional_tag = []
for name in topic_name:
    if is_simplified_chinese(name):
        simplified_tag.append(name)
    else:
        traditional_tag.append(name)
   
print(f'We got {len(simplified_tag)} simplified tag, {len(traditional_tag)} traditional tag.')

t2s = [HanziConv.toSimplified(a).strip() for a in traditional_tag]
merge = {s: d for s, d in zip(traditional_tag, t2s) if d in set(simplified_tag)}
print(merge)  # 测试



最后发现有174个可以合并的标签,一部分输出大概这样:

{'不排華行嗎': '不排华行吗', '世界大戰': '世界大战', '中國間諜': '中国间谍', 
'中美關係': '中美关系', '九二共識': '九二共识'}




==========

我好像现在有这个权限了赵家人,点开某个topic在右侧栏有操作入口

(√): 已合并


Type I:简繁字合并
优先合并这一类标签。由于桂葱界面是简体中文,因此合并原则是繁体->简体。

学术自由/學术自由(√)
五毛样本/五毛樣本(√)
科学/科學(√)
情景假设/情景假設(√)
情報/情报(√)
一国两制/一國兩制(√)
索多玛/索多瑪(√)
獨裁/独裁(√)
武漢/武汉(√)
新聞/新闻(√)
法國/法国(√)
價值觀/价值观(√)
俄羅斯/俄罗斯/俄国


Type II: 关注度较小(<10)的同义标签
合并原则是:关注度少的标签->关注度高的标签

言论管制/言论审查(√)
女权/女權/女性權利/女性权利(√)
文革/文化大革命(√)


各种打错字的标签也在这里合并
加速主义/加速注意/加速方向/加速主義/加速主意/加速(√)


Type III:关注度高的近义标签
这类标签暂时不合并,以防止混乱,这里只做标记。

色情/porn(√)
乳包/辱包(√)
辱华/辱華/乳滑/乳華/乳华/辱支(√)
新文革/文革2.0
成人/成人话题/性
两性/两性关系
两性成人(?)
查水表/喝茶
女拳(已删除)
粉红/小粉红
五毛渗透/五毛成功渗透
剛剛又給我發現幾個可以合併的話題:(✅=已完成,💹=需要圖標)
Benzene 不可以吃的一个东西
又看到几个建议合并的话题:
文革 文化大革命
新文革 文革2.0
Tashkent 同志,請多指教!
高階管理員可以進行合併,讓我先來試試吧

"廣州"與"光復香港"話題已合併完成
"社会信用体系"與"征信"有合併需求嗎?那麼"社会信用"與"信用体系"可不可以順便合併呢?
個人覺得除了簡繁字之外的合併還是先討論一下比較好

"中国"與"中國"是我前幾天合併的
另外"劉仲敬"與"阿姨"的話題合併好像有些怪怪的?
雖然個人想不出除了這個之外有什麼文章可以套用"阿姨"的tag就是了...

要发言请先登录注册