求教同义话题如何合并?
现在网站的一些话题因为简繁体的缘故没有自动合并,成了两个话题:
光复香港https://pincong.rocks/topic/%E5%85%89%E5%BE%A9%E9%A6%99%E6%B8%AF
光復香港https://pincong.rocks/topic/%E5%85%89%E5%A4%8D%E9%A6%99%E6%B8%AF
廣州https://pincong.rocks/topic/%E5%BB%A3%E5%B7%9E
广州https://pincong.rocks/topic/%E5%B9%BF%E5%B7%9E
还有一些可以视为同义词的话题没有合并:
征信https://pincong.rocks/topic/%E5%BE%81%E4%BF%A1
社会信用体系https://pincong.rocks/topic/%E7%A4%BE%E4%BC%9A%E4%BF%A1%E7%94%A8%E4%BD%93%E7%B3%BB
我看到之前有一些话题是被合并的,例如
https://pincong.rocks/topic/%E4%B8%AD%E5%9B%BD?rf=130
https://pincong.rocks/topic/%E5%8F%B0%E6%B9%BE?rf=229
https://pincong.rocks/topic/%E4%B8%AD%E5%85%B1?rf=126
https://pincong.rocks/topic/%E5%88%98%E4%BB%B2%E6%95%AC?rf=849
这个操作目前看来还是依靠人工,但我尚未找到实现该操作的入口。
光复香港https://pincong.rocks/topic/%E5%85%89%E5%BE%A9%E9%A6%99%E6%B8%AF
光復香港https://pincong.rocks/topic/%E5%85%89%E5%A4%8D%E9%A6%99%E6%B8%AF
廣州https://pincong.rocks/topic/%E5%BB%A3%E5%B7%9E
广州https://pincong.rocks/topic/%E5%B9%BF%E5%B7%9E
还有一些可以视为同义词的话题没有合并:
征信https://pincong.rocks/topic/%E5%BE%81%E4%BF%A1
社会信用体系https://pincong.rocks/topic/%E7%A4%BE%E4%BC%9A%E4%BF%A1%E7%94%A8%E4%BD%93%E7%B3%BB
我看到之前有一些话题是被合并的,例如
https://pincong.rocks/topic/%E4%B8%AD%E5%9B%BD?rf=130
https://pincong.rocks/topic/%E5%8F%B0%E6%B9%BE?rf=229
https://pincong.rocks/topic/%E4%B8%AD%E5%85%B1?rf=126
https://pincong.rocks/topic/%E5%88%98%E4%BB%B2%E6%95%AC?rf=849
这个操作目前看来还是依靠人工,但我尚未找到实现该操作的入口。
高階管理員可以進行合併,讓我先來試試吧
"廣州"與"光復香港"話題已合併完成
"社会信用体系"與"征信"有合併需求嗎?那麼"社会信用"與"信用体系"可不可以順便合併呢?
個人覺得除了簡繁字之外的合併還是先討論一下比較好
"中国"與"中國"是我前幾天合併的
另外"劉仲敬"與"阿姨"的話題合併好像有些怪怪的?
雖然個人想不出除了這個之外有什麼文章可以套用"阿姨"的tag就是了...
"廣州"與"光復香港"話題已合併完成
"社会信用体系"與"征信"有合併需求嗎?那麼"社会信用"與"信用体系"可不可以順便合併呢?
個人覺得除了簡繁字之外的合併還是先討論一下比較好
"中国"與"中國"是我前幾天合併的
另外"劉仲敬"與"阿姨"的話題合併好像有些怪怪的?
雖然個人想不出除了這個之外有什麼文章可以套用"阿姨"的tag就是了...
又看到几个建议合并的话题:
文革 文化大革命
新文革 文革2.0
文革 文化大革命
新文革 文革2.0
剛剛又給我發現幾個可以合併的話題:(✅=已完成,💹=需要圖標)
- 獨裁/独裁✅
- 武漢/武汉✅
- 新聞/新闻✅
- 法國/法国✅
- 言论管制/言论审查✅
- 價值觀/价值观✅
- 俄羅斯/俄罗斯/俄国✅
- 常凯申/蒋介石✅
- 習明澤/习明泽✅
- 中華民國/中华民国✅
- 民進黨/民进党✅
- 中國夢/中国梦✅
- 毛主义/毛左✅
- 臉書/脸书/Facebook✅
- 女权/女权主义/女性权益✅
- 臺灣大選/中華民國大選/台灣選舉/2020大选/台湾大选/台灣總統大選✅
- 武漢肺炎/武汉肺炎/不明原因肺炎/SARS2.0/武汉SARS/武漢新沙士✅
- 蘇萊曼尼/苏莱曼尼✅
- 中国国民党/国民党/中國國民黨
- 澳洲/澳大利亚✅
- 大陆/中国大陆✅
- 媒體/媒体/新闻媒体
- 戰爭/战争✅
- 大清/清朝✅
- 網軍/网军/水军✅
- 經濟/经济✅
- 返送中/反送中✅
- 伊斯兰/伊斯兰教✅
- 孫中山/孙中山✅
- 香港独立/港独✅
- 茂名/广东茂名✅
- 中美关系/美中关系✅
- 米格道/MGTOW✅
- 防毒面具/豬嘴✅
- 影视/影视剧✅
- 電視劇/电视剧✅
- 動漫/动漫✅
- 華人/华人✅
- 汉族/汉人✅
- 學運/学运✅
- 愛國主義/爱国主义✅
- 社會/社会✅
- 納粹/纳粹✅
- 反賊/反贼✅
- 馬來西亞/马来西亚✅
- 天安门大屠杀/六四事件✅
- 資安/隐私安全/通信安全
- 逃犯條例/逃犯条例✅
- 敦文贵/郭文贵✅
- 憲法/宪法✅
- 中國人/中国人✅
- 電影/电影✅
- 統一/统一/大一统✅
- 澳洲山火/澳大利亞山火➡️澳大利亚山火✅
- 如何评价/如何评价X✅
- 廢除死刑/廢死➡️废死✅
- BDSM/sm✅
- 香港電台/香港电台/RTHK✅
- 第三次世界大战/WW3✅
- 抖音/tiktok✅
- 徐曉冬/徐晓冬✅
- 警察暴行/警暴✅
- 農村/农村✅
- 通货膨胀/通胀✅
- 黑警/香港公安
- 沃門/澳门✅
- 鏗鏘集➡️铿锵集✅
- 廣州地下鐵➡️广州地铁✅
- 家乡/故鄉✅
- 贸易战/中美贸易战✅
品葱可以专门设置一个管理标签的用户组,这样窝可以帮你们维护标签(模仿九头鸟
更新:品葱所有简体和繁体标签的合并已经完成,主要由Amenbreak(一派胡言)手动完成,以及K8kMrgQwRR的整理工作,感谢这两位。以后只要专注整理同义词就可以了。
1.15更新:写了一个查找同义词的脚本,目测找到了216个同义标签,可能会有一点用处。
word list 1 (100)
婚恋 / 恋爱
品 / 评价
摄影 / 修养
探子 / 特工
舆论 / 舆情
思想 / 主义
国共 / 中共
启蒙 / 教育
世界 / 寰宇
国民 / 公民
华人 / 华裔
寿终正寝 / 死亡
特工 / 信息员
青年 / 青年人
枪 / 枪械
官逼民反 / 造反
经济 / 占便宜
道 / 道家
八路 / 志愿军
金融 / 财经
道 / 艺术
右翼 / 右派
传言 / 小道消息
剧本 / 脚本
反驳 / 辩论
建议 / 提议
举报 / 告密
道 / 德性
公司 / 供销社
黑幕 / 内幕
中华民族 / 民族
同胞 / 国人
派系 / 法家
人民 / 公民
共 / 共产党
思想 / 心理
宪政 / 党政
举报 / 反馈
漫画 / 卡通
分裂 / 解体
义士 / 武侠
党 / 中国共产党
推理 / 推演
外文 / 外语
改进 / 改良
性 / 人性
空想 / 胡思乱想
辩论 / 理论
造反 / 官逼民反
解体 / 分裂
书籍 / 书本
理论 / 主义
叛国 / 卖国
助纣为虐 / 为虎作伥
时政 / 党政
演说 / 演讲
黑社会 / 黑帮
理论 / 反驳
诗 / 诗词
市场 / 商场
情绪 / 心态
乡土 / 家乡
汉语 / 中文
空想 / 白日梦
后代 / 接班人
左派 / 左翼
书 / 书籍
时 / 时间
审核 / 审查
中国共产党 / 中共
间谍 / 信息员
意识 / 发现
老百姓 / 公民
道 / 道德
老百姓 / 人民
努力 / 斗争
经济 / 金融
汉奸 / 狗腿子
历史 / 旧闻
歌 / 歌曲
告密 / 检举
恋爱 / 婚恋
探子 / 信息员
愚昧 / 愚蠢
通货膨胀 / 毛
间谍 / 特务
以史为鉴 / 前车之鉴
英雄 / 勇武
神经病 / 精神病
民俗 / 传统
选择 / 精选
志愿军 / 八路
计划 / 设计
党 / 国共
教师 / 老师
屠杀 / 大屠杀
观念 / 价值观
揪斗 / 格斗
文艺 / 文学
精选 / 选择
==========
我提议品葱学习一下知乎的标签系统,把所有标签的关系用有根DAG表示,这样就不用纠结同义词要不要合并了。我看到表结构里有parent_id这个字段,似乎是为这个功能准备的。
可惜品葱后端是用某世界上最好的语言写的。如果你们接受Python代码,窝可以帮助开发一下这个功能(再模仿九头鸟
==========
@K8kMrgQwRR ,@Amenbreak 简繁体合并我写脚本来做,你们两位可以合并同义词
品葱时间1.14更新:品葱数据库更新了,一共有188个繁体标签可以合并
==========
品葱时间1.12更新:
python可以查找能合并的繁体标签:
最后发现有174个可以合并的标签,一部分输出大概这样:
==========
我好像现在有这个权限了赵家人,点开某个topic在右侧栏有操作入口
(√): 已合并
Type I:简繁字合并
优先合并这一类标签。由于桂葱界面是简体中文,因此合并原则是繁体->简体。
学术自由/學术自由(√)
五毛样本/五毛樣本(√)
科学/科學(√)
情景假设/情景假設(√)
情報/情报(√)
一国两制/一國兩制(√)
索多玛/索多瑪(√)
獨裁/独裁(√)
武漢/武汉(√)
新聞/新闻(√)
法國/法国(√)
價值觀/价值观(√)
俄羅斯/俄罗斯/俄国
Type II: 关注度较小(<10)的同义标签
合并原则是:关注度少的标签->关注度高的标签
言论管制/言论审查(√)
女权/女權/女性權利/女性权利(√)
文革/文化大革命(√)
各种打错字的标签也在这里合并
加速主义/加速注意/加速方向/加速主義/加速主意/加速(√)
Type III:关注度高的近义标签
这类标签暂时不合并,以防止混乱,这里只做标记。
色情/porn(√)
乳包/辱包(√)
辱华/辱華/乳滑/乳華/乳华/辱支(√)
新文革/文革2.0
成人/成人话题/性
两性/两性关系
两性成人(?)
查水表/喝茶
女拳(已删除)
粉红/小粉红
五毛渗透/五毛成功渗透
更新:品葱所有简体和繁体标签的合并已经完成,主要由Amenbreak(一派胡言)手动完成,以及K8kMrgQwRR的整理工作,感谢这两位。以后只要专注整理同义词就可以了。
1.15更新:写了一个查找同义词的脚本,目测找到了216个同义标签,可能会有一点用处。
word list 1 (100)
婚恋 / 恋爱
品 / 评价
摄影 / 修养
探子 / 特工
舆论 / 舆情
思想 / 主义
国共 / 中共
启蒙 / 教育
世界 / 寰宇
国民 / 公民
华人 / 华裔
寿终正寝 / 死亡
特工 / 信息员
青年 / 青年人
枪 / 枪械
官逼民反 / 造反
经济 / 占便宜
道 / 道家
八路 / 志愿军
金融 / 财经
道 / 艺术
右翼 / 右派
传言 / 小道消息
剧本 / 脚本
反驳 / 辩论
建议 / 提议
举报 / 告密
道 / 德性
公司 / 供销社
黑幕 / 内幕
中华民族 / 民族
同胞 / 国人
派系 / 法家
人民 / 公民
共 / 共产党
思想 / 心理
宪政 / 党政
举报 / 反馈
漫画 / 卡通
分裂 / 解体
义士 / 武侠
党 / 中国共产党
推理 / 推演
外文 / 外语
改进 / 改良
性 / 人性
空想 / 胡思乱想
辩论 / 理论
造反 / 官逼民反
解体 / 分裂
书籍 / 书本
理论 / 主义
叛国 / 卖国
助纣为虐 / 为虎作伥
时政 / 党政
演说 / 演讲
黑社会 / 黑帮
理论 / 反驳
诗 / 诗词
市场 / 商场
情绪 / 心态
乡土 / 家乡
汉语 / 中文
空想 / 白日梦
后代 / 接班人
左派 / 左翼
书 / 书籍
时 / 时间
审核 / 审查
中国共产党 / 中共
间谍 / 信息员
意识 / 发现
老百姓 / 公民
道 / 道德
老百姓 / 人民
努力 / 斗争
经济 / 金融
汉奸 / 狗腿子
历史 / 旧闻
歌 / 歌曲
告密 / 检举
恋爱 / 婚恋
探子 / 信息员
愚昧 / 愚蠢
通货膨胀 / 毛
间谍 / 特务
以史为鉴 / 前车之鉴
英雄 / 勇武
神经病 / 精神病
民俗 / 传统
选择 / 精选
志愿军 / 八路
计划 / 设计
党 / 国共
教师 / 老师
屠杀 / 大屠杀
观念 / 价值观
揪斗 / 格斗
文艺 / 文学
精选 / 选择
==========
我提议品葱学习一下知乎的标签系统,把所有标签的关系用有根DAG表示,这样就不用纠结同义词要不要合并了。我看到表结构里有parent_id这个字段,似乎是为这个功能准备的。
可惜品葱后端是用某世界上最好的语言写的。如果你们接受Python代码,窝可以帮助开发一下这个功能(再模仿九头鸟
==========
@K8kMrgQwRR ,@Amenbreak 简繁体合并我写脚本来做,你们两位可以合并同义词
品葱时间1.14更新:品葱数据库更新了,一共有188个繁体标签可以合并
==========
品葱时间1.12更新:
python可以查找能合并的繁体标签:
# 简繁判断
def is_simplified_chinese(s):
is_simplified = False
try:
s.encode('big5hkscs')
except UnicodeEncodeError:
is_simplified = True
return is_simplified
# 测试
s1 = '光复香港,时代革命'
s2 = '光復香港,時代革命'
print('s1:', is_simplified_chinese(s1))
print('s2:', is_simplified_chinese(s2))
# hanziconv这个包可以做简繁转换
# 安装: pip install hanziconv
# 查找可以合并的繁体标签
topic_name = [a[0] for a in query('select XXXX from YYYY')] # your database
simplified_tag = []
traditional_tag = []
for name in topic_name:
if is_simplified_chinese(name):
simplified_tag.append(name)
else:
traditional_tag.append(name)
print(f'We got {len(simplified_tag)} simplified tag, {len(traditional_tag)} traditional tag.')
t2s = [HanziConv.toSimplified(a).strip() for a in traditional_tag]
merge = {s: d for s, d in zip(traditional_tag, t2s) if d in set(simplified_tag)}
print(merge) # 测试
最后发现有174个可以合并的标签,一部分输出大概这样:
{'不排華行嗎': '不排华行吗', '世界大戰': '世界大战', '中國間諜': '中国间谍',
'中美關係': '中美关系', '九二共識': '九二共识'}
==========
我好像现在有这个权限了
(√): 已合并
Type I:简繁字合并
优先合并这一类标签。由于桂葱界面是简体中文,因此合并原则是繁体->简体。
学术自由/學术自由(√)
五毛样本/五毛樣本(√)
科学/科學(√)
情景假设/情景假設(√)
情報/情报(√)
一国两制/一國兩制(√)
索多玛/索多瑪(√)
獨裁/独裁(√)
武漢/武汉(√)
新聞/新闻(√)
法國/法国(√)
價值觀/价值观(√)
俄羅斯/俄罗斯/俄国
Type II: 关注度较小(<10)的同义标签
合并原则是:关注度少的标签->关注度高的标签
言论管制/言论审查(√)
女权/女權/女性權利/女性权利(√)
文革/文化大革命(√)
各种打错字的标签也在这里合并
加速主义/加速注意/加速方向/加速主義/加速主意/加速(√)
Type III:关注度高的近义标签
这类标签暂时不合并,以防止混乱,这里只做标记。
色情/porn(√)
乳包/辱包(√)
辱华/辱華/乳滑/乳華/乳华/辱支(√)
新文革/文革2.0
成人/成人话题/性
两性/两性关系
两性成人(?)
查水表/喝茶
女拳(已删除)
粉红/小粉红
五毛渗透/五毛成功渗透
@K8kMrgQwRR 搞清楚怎么合并了。做好事不留名(误),最新的合并需求已搞定。如果有新的需求可以继续弄
不小心误操作了一个苏莱曼尼被锁定了(admin已协助解决)
要求记录tag编辑情况使用emoji勾,以便移动端阅读方便
已完成@沉默的广场的PART 1,搏击俱乐部的PART 2和趴3
以下tag合并,若有意见请讨论
大陆和中国大陆合并有点怪,大陆不只代表中国大陆,虽然目前使用改话题的均指中国大陆。已合并
影视和影视剧合并
天安门大屠杀和六四事件合并
华人和汉人合并好像有些怪怪的?(模仿Tashkent说话)汉人应该和汉族合并吧 【无操作】
所有和台湾选举有关的我通通合并为台湾大选
女性权益合并在女权
不明肺炎、武汉SARS等全部和武汉肺炎合并
港独有贬义,建议合并到香港独立
电视剧和影视剧没有进行合并操作
汉族合并至汉人
统一和統一合并到大一统
废除死刑合并为废死
不小心误操作了一个苏莱曼尼被锁定了(admin已协助解决)
要求记录tag编辑情况使用emoji勾,以便移动端阅读方便
已完成@沉默的广场的PART 1,搏击俱乐部的PART 2和趴3
以下tag合并,若有意见请讨论
大陆和中国大陆合并有点怪,大陆不只代表中国大陆,虽然目前使用改话题的均指中国大陆。已合并
影视和影视剧合并
天安门大屠杀和六四事件合并
华人和汉人合并好像有些怪怪的?(模仿Tashkent说话)汉人应该和汉族合并吧 【无操作】
所有和台湾选举有关的我通通合并为台湾大选
女性权益合并在女权
不明肺炎、武汉SARS等全部和武汉肺炎合并
港独有贬义,建议合并到香港独立
电视剧和影视剧没有进行合并操作
汉族合并至汉人
统一和統一合并到大一统
废除死刑合并为废死
标签都没有图,差评