求教同义话题如何合并?

现在网站的一些话题因为简繁体的缘故没有自动合并,成了两个话题:
光复香港https://pincong.rocks/topic/%E5%85%89%E5%BE%A9%E9%A6%99%E6%B8%AF
光復香港https://pincong.rocks/topic/%E5%85%89%E5%A4%8D%E9%A6%99%E6%B8%AF

廣州https://pincong.rocks/topic/%E5%BB%A3%E5%B7%9E
广州https://pincong.rocks/topic/%E5%B9%BF%E5%B7%9E

还有一些可以视为同义词的话题没有合并:
征信https://pincong.rocks/topic/%E5%BE%81%E4%BF%A1
社会信用体系https://pincong.rocks/topic/%E7%A4%BE%E4%BC%9A%E4%BF%A1%E7%94%A8%E4%BD%93%E7%B3%BB

我看到之前有一些话题是被合并的,例如
https://pincong.rocks/topic/%E4%B8%AD%E5%9B%BD?rf=130
https://pincong.rocks/topic/%E5%8F%B0%E6%B9%BE?rf=229
https://pincong.rocks/topic/%E4%B8%AD%E5%85%B1?rf=126
https://pincong.rocks/topic/%E5%88%98%E4%BB%B2%E6%95%AC?rf=849

这个操作目前看来还是依靠人工,但我尚未找到实现该操作的入口。
沉默的广场 休假中 中客理真迫 5C91 7AD9 AB01 9AD9 88BD 7392 35E4 5656 81A7 EB63
品葱可以专门设置一个管理标签的用户组,这样窝可以帮你们维护标签(模仿九头鸟

更新:品葱所有简体和繁体标签的合并已经完成,主要由Amenbreak(一派胡言)手动完成,以及K8kMrgQwRR的整理工作,感谢这两位。以后只要专注整理同义词就可以了。

1.15更新:写了一个查找同义词的脚本,目测找到了216个同义标签,可能会有一点用处。
word list 1 (100)
婚恋  /  恋爱
  /  评价
摄影  /  修养
探子  /  特工
舆论  /  舆情
思想  /  主义
国共  /  中共
启蒙  /  教育
世界  /  寰宇
国民  /  公民
华人  /  华裔
寿终正寝  /  死亡
特工  /  信息员
青年  /  青年人
  /  枪械
官逼民反  /  造反
经济  /  占便宜
  /  道家
八路  /  志愿军
金融  /  财经
  /  艺术
右翼  /  右派
传言  /  小道消息
剧本  /  脚本
反驳  /  辩论
建议  /  提议
举报  /  告密
  /  德性
公司  /  供销社
黑幕  /  内幕
中华民族  /  民族
同胞  /  国人
派系  /  法家
人民  /  公民
  /  共产党
思想  /  心理
宪政  /  党政
举报  /  反馈
漫画  /  卡通
分裂  /  解体
义士  /  武侠
  /  中国共产党
推理  /  推演
外文  /  外语
改进  /  改良
  /  人性
空想  /  胡思乱想
辩论  /  理论
造反  /  官逼民反
解体  /  分裂
书籍  /  书本
理论  /  主义
叛国  /  卖国
助纣为虐  /  为虎作伥
时政  /  党政
演说  /  演讲
黑社会  /  黑帮
理论  /  反驳
  /  诗词
市场  /  商场
情绪  /  心态
乡土  /  家乡
汉语  /  中文
空想  /  白日梦
后代  /  接班人
左派  /  左翼
  /  书籍
  /  时间
审核  /  审查
中国共产党  /  中共
间谍  /  信息员
意识  /  发现
老百姓  /  公民
  /  道德
老百姓  /  人民
努力  /  斗争
经济  /  金融
汉奸  /  狗腿子
历史  /  旧闻
  /  歌曲
告密  /  检举
恋爱  /  婚恋
探子  /  信息员
愚昧  /  愚蠢
通货膨胀  / 
间谍  /  特务
以史为鉴  /  前车之鉴
英雄  /  勇武
神经病  /  精神病
民俗  /  传统
选择  /  精选
志愿军  /  八路
计划  /  设计
  /  国共
教师  /  老师
屠杀  /  大屠杀
观念  /  价值观
揪斗  /  格斗
文艺  /  文学
精选  /  选择

==========
我提议品葱学习一下知乎的标签系统,把所有标签的关系用有根DAG表示,这样就不用纠结同义词要不要合并了。我看到表结构里有parent_id这个字段,似乎是为这个功能准备的。

可惜品葱后端是用某世界上最好的语言写的。如果你们接受Python代码,窝可以帮助开发一下这个功能(再模仿九头鸟

==========
@K8kMrgQwRR ,@Amenbreak 简繁体合并我写脚本来做,你们两位可以合并同义词

品葱时间1.14更新:品葱数据库更新了,一共有188个繁体标签可以合并

==========
品葱时间1.12更新:
python可以查找能合并的繁体标签:


# 简繁判断
def is_simplified_chinese(s):
    is_simplified = False
    try:
        s.encode('big5hkscs')
    except UnicodeEncodeError:
        is_simplified = True
    return is_simplified

# 测试
s1 = '光复香港,时代革命'
s2 = '光復香港,時代革命'
print('s1:', is_simplified_chinese(s1))
print('s2:', is_simplified_chinese(s2))

# hanziconv这个包可以做简繁转换
# 安装: pip install hanziconv

# 查找可以合并的繁体标签
topic_name = [a[0] for a in query('select XXXX from YYYY')]  # your database
simplified_tag = []
traditional_tag = []
for name in topic_name:
    if is_simplified_chinese(name):
        simplified_tag.append(name)
    else:
        traditional_tag.append(name)
   
print(f'We got {len(simplified_tag)} simplified tag, {len(traditional_tag)} traditional tag.')

t2s = [HanziConv.toSimplified(a).strip() for a in traditional_tag]
merge = {s: d for s, d in zip(traditional_tag, t2s) if d in set(simplified_tag)}
print(merge)  # 测试



最后发现有174个可以合并的标签,一部分输出大概这样:

{'不排華行嗎': '不排华行吗', '世界大戰': '世界大战', '中國間諜': '中国间谍', 
'中美關係': '中美关系', '九二共識': '九二共识'}




==========

我好像现在有这个权限了赵家人,点开某个topic在右侧栏有操作入口

(√): 已合并


Type I:简繁字合并
优先合并这一类标签。由于桂葱界面是简体中文,因此合并原则是繁体->简体。

学术自由/學术自由(√)
五毛样本/五毛樣本(√)
科学/科學(√)
情景假设/情景假設(√)
情報/情报(√)
一国两制/一國兩制(√)
索多玛/索多瑪(√)
獨裁/独裁(√)
武漢/武汉(√)
新聞/新闻(√)
法國/法国(√)
價值觀/价值观(√)
俄羅斯/俄罗斯/俄国


Type II: 关注度较小(<10)的同义标签
合并原则是:关注度少的标签->关注度高的标签

言论管制/言论审查(√)
女权/女權/女性權利/女性权利(√)
文革/文化大革命(√)


各种打错字的标签也在这里合并
加速主义/加速注意/加速方向/加速主義/加速主意/加速(√)


Type III:关注度高的近义标签
这类标签暂时不合并,以防止混乱,这里只做标记。

色情/porn(√)
乳包/辱包(√)
辱华/辱華/乳滑/乳華/乳华/辱支(√)
新文革/文革2.0
成人/成人话题/性
两性/两性关系
两性成人(?)
查水表/喝茶
女拳(已删除)
粉红/小粉红
五毛渗透/五毛成功渗透
剛剛又給我發現幾個可以合併的話題:(✅=已完成,💹=需要圖標)
Benzene 不可以吃的一个东西
又看到几个建议合并的话题:
文革 文化大革命
新文革 文革2.0
Artemis Missing Alicia, Caritas and others, hope all is well with them
@K8kMrgQwRR 搞清楚怎么合并了。做好事不留名(误),最新的合并需求已搞定。如果有新的需求可以继续弄

不小心误操作了一个苏莱曼尼被锁定了(admin已协助解决)

要求记录tag编辑情况使用emoji勾,以便移动端阅读方便

已完成@沉默的广场的PART 1,搏击俱乐部的PART 2和趴3

以下tag合并,若有意见请讨论

大陆和中国大陆合并有点怪,大陆不只代表中国大陆,虽然目前使用改话题的均指中国大陆。已合并

影视和影视剧合并

天安门大屠杀和六四事件合并

华人和汉人合并好像有些怪怪的?(模仿Tashkent说话)汉人应该和汉族合并吧 【无操作】

所有和台湾选举有关的我通通合并为台湾大选

女性权益合并在女权

不明肺炎、武汉SARS等全部和武汉肺炎合并

港独有贬义,建议合并到香港独立

电视剧和影视剧没有进行合并操作

汉族合并至汉人

统一和統一合并到大一统

废除死刑合并为废死
Tashkent 同志,請多指教!
高階管理員可以進行合併,讓我先來試試吧

"廣州"與"光復香港"話題已合併完成
"社会信用体系"與"征信"有合併需求嗎?那麼"社会信用"與"信用体系"可不可以順便合併呢?
個人覺得除了簡繁字之外的合併還是先討論一下比較好

"中国"與"中國"是我前幾天合併的
另外"劉仲敬"與"阿姨"的話題合併好像有些怪怪的?
雖然個人想不出除了這個之外有什麼文章可以套用"阿姨"的tag就是了...
Alicia 人人都戴著一頂面具,誰知心中想什麼?
标签都没有图,差评                                                    

要发言请先登录注册